基于深度強(qiáng)化學(xué)習(xí)的室內(nèi)無(wú)人機(jī)避障
發(fā)布時(shí)間:2021-12-30 20:35
無(wú)人機(jī)能代替人類(lèi)完成許多困難的任務(wù),其自主導(dǎo)航一直是無(wú)人機(jī)領(lǐng)域的一個(gè)研究難題。傳統(tǒng)基于模型的無(wú)人機(jī)導(dǎo)航方法的有效性需要依賴(lài)于無(wú)人機(jī)自身對(duì)周?chē)沫h(huán)境信息進(jìn)行精確建模,這也就導(dǎo)致了傳統(tǒng)的無(wú)人機(jī)導(dǎo)航算法對(duì)于陌生環(huán)境的適應(yīng)能力大大降低。另一方面,自然界生物進(jìn)化時(shí),展現(xiàn)出對(duì)于環(huán)境的不確定性有著很強(qiáng)的自適應(yīng)能力,因此本文從生物強(qiáng)化學(xué)習(xí)的角度考察無(wú)人機(jī)在室內(nèi)環(huán)境下自適應(yīng)導(dǎo)航這一問(wèn)題;趶(qiáng)化學(xué)習(xí)的無(wú)人機(jī)導(dǎo)航存在強(qiáng)化學(xué)習(xí)策略的訓(xùn)練和強(qiáng)化學(xué)習(xí)策略遷移的兩方面關(guān)鍵問(wèn)題。特別的,本次工作用到的傳感器為單目攝像頭,這對(duì)于有行人的室內(nèi)環(huán)境目前仍是個(gè)難題。本工作對(duì)這三個(gè)問(wèn)題加以深入探討。針對(duì)強(qiáng)化學(xué)習(xí)策略的訓(xùn)練的問(wèn)題,本文提出一種基于深度確定性策略梯度(DDPG)的深度強(qiáng)化學(xué)習(xí)模型的改進(jìn)模型,以提高現(xiàn)有無(wú)人機(jī)自主導(dǎo)航策略對(duì)環(huán)境的適應(yīng)能力以及學(xué)習(xí)速度。該模型包含三個(gè)部分:首先,僅利用激光雷達(dá)數(shù)據(jù)作為狀態(tài)輸入狀,用以感知環(huán)境信息;其次,設(shè)計(jì)合理的回報(bào)函數(shù)用以激勵(lì)策略更快、更好地學(xué)習(xí);最后,設(shè)計(jì)合理的動(dòng)作空間使得無(wú)人機(jī)流暢決策。經(jīng)過(guò)在仿真環(huán)境下的強(qiáng)化學(xué)習(xí)訓(xùn)練,裝載有單線(xiàn)激光雷達(dá)的室內(nèi)小型無(wú)人機(jī)能夠在仿真環(huán)境下進(jìn)行穩(wěn)定避障...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:96 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
某次任務(wù)中無(wú)人機(jī)避障示意圖
最優(yōu)貝爾開(kāi)始求解策略評(píng)估
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-21-中瓶頸比較明顯。圖2-8蒙特卡洛采樣示意圖蒙特卡洛控制的示意圖如圖2-9所示。圖2-9蒙特卡控制示意圖2.1.5基于值估計(jì)的強(qiáng)化學(xué)習(xí)方法:Q-Learning由2.1.4部分可以得知,基于無(wú)模型的蒙特卡羅法估計(jì)狀態(tài)值函數(shù)利用的是大數(shù)定理,對(duì)同一個(gè)狀態(tài)進(jìn)行重復(fù)采樣并且記錄該狀態(tài)下的回報(bào)值。最終對(duì)同一狀態(tài)下的所有采樣回報(bào)值進(jìn)行求取平均值,得出狀態(tài)值函數(shù)的估計(jì)值,因此該過(guò)程表達(dá)成數(shù)學(xué)形式如式子(2-17)所示。其中kβ表示在第k次迭代時(shí)的狀態(tài)值函數(shù)的估計(jì)值,y為針對(duì)當(dāng)前狀態(tài)下所采集的所有的回報(bào)值。經(jīng)過(guò)展開(kāi)和化簡(jiǎn),可以得到式子(2-17)所示的最終的狀態(tài)值函數(shù)的增量式更新形式。在式子(2-17)中,1/k為一個(gè)隨著樣本總數(shù)增加而變化的系數(shù),表征狀態(tài)值函數(shù)在增量式更新過(guò)程中的更新步長(zhǎng)。為了方便研究和簡(jiǎn)化計(jì)算,在這里將更新步長(zhǎng)1/k替換成
【參考文獻(xiàn)】:
期刊論文
[1]遙感圖像中飛機(jī)的改進(jìn)YOLOv3實(shí)時(shí)檢測(cè)算法[J]. 戴偉聰,金龍旭,李國(guó)寧,鄭志強(qiáng). 光電工程. 2018(12)
本文編號(hào):3558926
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:96 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
某次任務(wù)中無(wú)人機(jī)避障示意圖
最優(yōu)貝爾開(kāi)始求解策略評(píng)估
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-21-中瓶頸比較明顯。圖2-8蒙特卡洛采樣示意圖蒙特卡洛控制的示意圖如圖2-9所示。圖2-9蒙特卡控制示意圖2.1.5基于值估計(jì)的強(qiáng)化學(xué)習(xí)方法:Q-Learning由2.1.4部分可以得知,基于無(wú)模型的蒙特卡羅法估計(jì)狀態(tài)值函數(shù)利用的是大數(shù)定理,對(duì)同一個(gè)狀態(tài)進(jìn)行重復(fù)采樣并且記錄該狀態(tài)下的回報(bào)值。最終對(duì)同一狀態(tài)下的所有采樣回報(bào)值進(jìn)行求取平均值,得出狀態(tài)值函數(shù)的估計(jì)值,因此該過(guò)程表達(dá)成數(shù)學(xué)形式如式子(2-17)所示。其中kβ表示在第k次迭代時(shí)的狀態(tài)值函數(shù)的估計(jì)值,y為針對(duì)當(dāng)前狀態(tài)下所采集的所有的回報(bào)值。經(jīng)過(guò)展開(kāi)和化簡(jiǎn),可以得到式子(2-17)所示的最終的狀態(tài)值函數(shù)的增量式更新形式。在式子(2-17)中,1/k為一個(gè)隨著樣本總數(shù)增加而變化的系數(shù),表征狀態(tài)值函數(shù)在增量式更新過(guò)程中的更新步長(zhǎng)。為了方便研究和簡(jiǎn)化計(jì)算,在這里將更新步長(zhǎng)1/k替換成
【參考文獻(xiàn)】:
期刊論文
[1]遙感圖像中飛機(jī)的改進(jìn)YOLOv3實(shí)時(shí)檢測(cè)算法[J]. 戴偉聰,金龍旭,李國(guó)寧,鄭志強(qiáng). 光電工程. 2018(12)
本文編號(hào):3558926
本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3558926.html
最近更新
教材專(zhuān)著