基于強(qiáng)化學(xué)習(xí)的無地圖導(dǎo)航策略研究

發(fā)布時(shí)間：2021-04-09 16:48

　　導(dǎo)航即機(jī)器人從當(dāng)前位置到達(dá)目標(biāo)姿態(tài),并在這個(gè)過程中不與任一障礙物發(fā)生碰撞的能力,是移動(dòng)機(jī)器人的核心功能之一。目前已有的成熟技術(shù)都是在已知的環(huán)境地圖上進(jìn)行規(guī)劃。相比較,包括人在內(nèi)的動(dòng)物能夠在知道目標(biāo)大致方位或特征的基礎(chǔ)上穿過或稀松或稠密的障礙物到達(dá)目標(biāo)點(diǎn),實(shí)現(xiàn)無地圖導(dǎo)航。強(qiáng)化學(xué)習(xí)是一種智能體從與環(huán)境的不斷交互中學(xué)習(xí)的算法,適合于連續(xù)決策的任務(wù),是目前無地圖導(dǎo)航的主要研究方向。本文研究了基于強(qiáng)化學(xué)習(xí)的從記憶到推理兩個(gè)層次的移動(dòng)機(jī)器人無地圖導(dǎo)航,所設(shè)計(jì)的規(guī)劃器以RGB圖像作為視覺輸入、以機(jī)器人與目標(biāo)點(diǎn)的相對(duì)位置作為目標(biāo)信息。提出了使用近端策略優(yōu)化的端到端導(dǎo)航策略;提出了將視覺圖像先壓縮再將壓縮的特征輸入強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的導(dǎo)航策略,使得規(guī)劃器的采樣效率顯著提高;設(shè)計(jì)了堆積長短時(shí)記憶結(jié)構(gòu)使得強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)具有推理能力。為了測(cè)試、比較不同的網(wǎng)絡(luò)結(jié)構(gòu)和算法,搭建了一系列的基準(zhǔn)環(huán)境并提供了環(huán)境接口可快速調(diào)用。首先,針對(duì)記憶任務(wù)提出了基于近端策略優(yōu)化的端到端導(dǎo)航策略,搭建了基準(zhǔn)仿真環(huán)境,在該環(huán)境中與經(jīng)典的基于深度Q網(wǎng)絡(luò)的端到端導(dǎo)航策略進(jìn)行比較。其次,端到端強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中用于提取圖像特征的的參數(shù)無需從交互中學(xué)習(xí)...

【文章來源】：哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：80 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

D算法(左圖)與A*算法(右圖)

地圖,機(jī)器人導(dǎo)航,導(dǎo)航算法,中間狀態(tài)

哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文作中，我們?cè)O(shè)計(jì)、制造了一款基于機(jī)器人操作系統(tǒng)(Robo的移動(dòng)機(jī)器人平臺(tái) Plantbot[77]，并在該平臺(tái)上實(shí)現(xiàn)了導(dǎo)航 SLAM 系統(tǒng)繪制的，然后機(jī)器人在繪制的地圖上通過 Alobal planner)規(guī)劃出全局路徑作為局部規(guī)劃器(local plan收局部成本地圖通過動(dòng)態(tài)窗法規(guī)劃出運(yùn)動(dòng)速度通過節(jié)點(diǎn)制節(jié)點(diǎn)接收到消息后執(zhí)行相應(yīng)命令，控制機(jī)器人朝目標(biāo)了全局規(guī)劃器規(guī)劃出的路徑（導(dǎo)航），也考慮到了局部更。實(shí)驗(yàn)效果如圖 1-4 所示：

導(dǎo)航圖,導(dǎo)航圖,地圖,導(dǎo)航策略

2.1 引言對(duì)于基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人無地圖導(dǎo)航，目前常到端的，即用神經(jīng)網(wǎng)絡(luò)擬合映射函數(shù)，將傳感器的原始數(shù)據(jù)映標(biāo)點(diǎn)所需的動(dòng)作，考慮到輸入的視覺圖像為高維 RGB 圖像，卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)提取特征組成狀態(tài)(state)輸入深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)，進(jìn)行端到端訓(xùn)練。本領(lǐng)域表現(xiàn)突出的近端策略優(yōu)化(Proximal Policy Optimization到端導(dǎo)航策略的更新算法，設(shè)計(jì)了對(duì)應(yīng)的導(dǎo)航規(guī)劃器，并與基Q-Network, DQN)的端到端導(dǎo)航策略進(jìn)行了比較。內(nèi)容上，本化學(xué)習(xí)的一些基礎(chǔ)和理論，然后給出端到端導(dǎo)航策略的數(shù)學(xué)度 Q 網(wǎng)絡(luò)的端到端導(dǎo)航策略，提出了基于近端策略優(yōu)化的端建了基準(zhǔn)仿真環(huán)境，最后將兩策略在基準(zhǔn)環(huán)境中進(jìn)行比較。2.2 機(jī)器人無地圖導(dǎo)航問題定義Real time

【參考文獻(xiàn)】：
碩士論文
[1]基于深度強(qiáng)化學(xué)習(xí)的未知環(huán)境下機(jī)器人路徑規(guī)劃的研究[D]. 卜祥津.哈爾濱工業(yè)大學(xué) 2018
[2]面向家庭環(huán)境的移動(dòng)機(jī)器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學(xué) 2018

本文編號(hào)：3127973

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3127973.html

上一篇：安卓平臺(tái)程序自動(dòng)化控制系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：水下無線傳感器網(wǎng)絡(luò)的可靠性傳輸研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的無地圖導(dǎo)航策略研究