天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于強化學(xué)習(xí)的WSNs實時數(shù)據(jù)傳輸調(diào)度算法研究

發(fā)布時間:2021-11-08 04:13
  工業(yè)環(huán)境中,無線傳感器網(wǎng)絡(luò)(Wireless Sensor Networks,WSNs)數(shù)據(jù)的傳輸通常有著嚴(yán)格的截止期限要求,如何提高數(shù)據(jù)傳輸?shù)目煽啃院蛯崟r性成為WSNs研究的關(guān)鍵問題之一。提高WSNs網(wǎng)絡(luò)性能的主要方法之一是對傳輸過程進行調(diào)度,有效的調(diào)度算法能夠滿足嚴(yán)格的工業(yè)環(huán)境對網(wǎng)絡(luò)性能的要求,具有非常重要的研究意義。針對具有嚴(yán)格截止期限的WSNs數(shù)據(jù)傳輸調(diào)度問題,基于強化學(xué)習(xí)方法在不同的網(wǎng)絡(luò)背景下提出了不同的數(shù)據(jù)傳輸調(diào)度算法。主要內(nèi)容如下:(1)針對WSNs每個時隙只有一個數(shù)據(jù)流進行數(shù)據(jù)傳輸?shù)膯栴},提出了一種基于Q學(xué)習(xí)的實時數(shù)據(jù)傳輸調(diào)度算法。首先,該算法從時隙變化的角度定義系統(tǒng)空間,對數(shù)據(jù)傳輸過程進行馬爾可夫過程描述。然后根據(jù)傳輸數(shù)據(jù)的生成周期和從源節(jié)點到目的節(jié)點的總跳數(shù)制定獎勵函數(shù),評估數(shù)據(jù)的優(yōu)先級。同時,將貪婪策略與模擬退火相結(jié)合制定動作選擇策略,使Q學(xué)習(xí)在前期的動作選擇過程中進行充分的探索,避免陷入局部最優(yōu)。最后,通過Q值函數(shù)的計算和迭代更新得到近似最優(yōu)的調(diào)度算法,進而得到數(shù)據(jù)流的傳輸調(diào)度序列。(2)針對WSNs中數(shù)據(jù)并發(fā)傳輸?shù)膯栴},提出了一種基于深度Q學(xué)習(xí)的實時數(shù)據(jù)傳輸調(diào)... 

【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校

【文章頁數(shù)】:72 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于強化學(xué)習(xí)的WSNs實時數(shù)據(jù)傳輸調(diào)度算法研究


機器學(xué)習(xí)分類圖

模型圖,模型,狀態(tài),動作空間


圖 2.1 機器學(xué)習(xí)分類圖Fig 2.1 Classification of machine learning化學(xué)習(xí)的系統(tǒng)主要由智能體和環(huán)境構(gòu)成[44],可用一個三元組 , A, P 其中( )1 2, , ,mS s s s 表示智能體在當(dāng)前環(huán)境中的所有可狀態(tài)空間;( )1 2, , ,nA a a a 表示智能體在當(dāng)前環(huán)境中的所有可合,即動作空間;P 表示智能體從上一個狀態(tài)轉(zhuǎn)換至下一個狀態(tài)m,n均為正整數(shù) 如圖 2.2 為強化學(xué)習(xí)模型,智能體是系統(tǒng)的學(xué)過狀態(tài)感知和動作選取與外部環(huán)境進行交互 智能體在位置環(huán)狀態(tài)ts ,根據(jù)學(xué)習(xí)策略從動作空間 A 中選取動作ta ;環(huán)境在狀態(tài)移到狀態(tài)t+1s ,并產(chǎn)生相應(yīng)的獎勵或者懲罰回報 r 反饋給智能體和回報下繼續(xù)學(xué)習(xí),選擇并執(zhí)行下一個動作

概率分布,馬爾可夫決策過程


:表示狀態(tài)空間(State Space),是智能體感知到的所有可能狀態(tài)的 :表示動作空間(Action Space),是智能體在每個狀態(tài)下可能采取的a :表示系統(tǒng)狀態(tài)的轉(zhuǎn)移概率 表示智能體在當(dāng)前狀態(tài) s 下執(zhí)行其他狀態(tài)的概率分布情況 智能體在狀態(tài) 下執(zhí)行動作 ,轉(zhuǎn)移到 P ( s | s ,a )表示; : S A →R ,表示回報函數(shù) 智能體在狀態(tài) 下執(zhí)行動作 時,會給予的反饋,可以是正向的獎勵,也可以是反向的懲罰,這個反饋 R ( s ,a ) DP 的主要特點在與狀態(tài)轉(zhuǎn)移概率 只與當(dāng)前的狀態(tài)和選擇與歷史狀態(tài)和動作無關(guān) 也可以說,MDP 過程的下一個狀態(tài)只與智和選取的動作有關(guān),與其他的狀態(tài)和動作無關(guān) MDP 過程如圖 2.在初始狀態(tài)0s 從動作空間 中選取動作0a ,動作執(zhí)行后,智能體按下一個狀態(tài)1s ,然后智能體在狀態(tài) 再選取一個動作1a 并執(zhí)行,智能2s ,接下來重復(fù)上述過程

【參考文獻】:
期刊論文
[1]無線網(wǎng)絡(luò)中基于深度Q學(xué)習(xí)的傳輸調(diào)度方案[J]. 朱江,王婷婷,宋永輝,劉亞利.  通信學(xué)報. 2018(04)
[2]面向WIA-PA工業(yè)無線傳感器網(wǎng)絡(luò)的確定性調(diào)度算法[J]. 王恒,陳鵬飛,王平.  電子學(xué)報. 2018(01)
[3]面向物聯(lián)網(wǎng)的無線傳感器網(wǎng)絡(luò)綜述[J]. 錢志鴻,王義君.  電子與信息學(xué)報. 2013(01)
[4]兩種改進的EDF軟實時動態(tài)調(diào)度算法[J]. 李琦,巴巍.  計算機學(xué)報. 2011(05)
[5]基于WSNs的城市污水監(jiān)測系統(tǒng)研究[J]. 陳強,盧啟福,李亭,毛亮,劉國瑛.  湖南科技學(xué)院學(xué)報. 2011(04)
[6]基于Zig Bee技術(shù)的大壩安全監(jiān)測WSNs節(jié)點設(shè)計[J]. 杜小文,褚金奎,繆新穎,郭慶.  傳感器與微系統(tǒng). 2009(12)
[7]基于Metropolis準(zhǔn)則的多步Q學(xué)習(xí)算法與性能仿真[J]. 陳圣磊,吳慧中,肖亮,朱耀琴.  系統(tǒng)仿真學(xué)報. 2007(06)

博士論文
[1]基于無線傳感器網(wǎng)絡(luò)的事件監(jiān)測算法研究[D]. 畢冉.哈爾濱工業(yè)大學(xué) 2015

碩士論文
[1]基于無線傳感器網(wǎng)絡(luò)的數(shù)據(jù)聚合算法研究[D]. 瞿佳雯.南京郵電大學(xué) 2017
[2]基于深度Q網(wǎng)絡(luò)算法與模型的研究[D]. 翟建偉.蘇州大學(xué) 2017
[3]WMN中基于改進Dijkstra算法的多約束Qos路由研究[D]. 魯力.湖南師范大學(xué) 2008
[4]基于Q學(xué)習(xí)的Agent智能決策的研究與實現(xiàn)[D]. 虞靖靚.合肥工業(yè)大學(xué) 2005



本文編號:3482981

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3482981.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶22e07***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com