天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于強(qiáng)化學(xué)習(xí)的無地圖導(dǎo)航策略研究

發(fā)布時(shí)間:2021-04-09 16:48
  導(dǎo)航即機(jī)器人從當(dāng)前位置到達(dá)目標(biāo)姿態(tài),并在這個(gè)過程中不與任一障礙物發(fā)生碰撞的能力,是移動(dòng)機(jī)器人的核心功能之一。目前已有的成熟技術(shù)都是在已知的環(huán)境地圖上進(jìn)行規(guī)劃。相比較,包括人在內(nèi)的動(dòng)物能夠在知道目標(biāo)大致方位或特征的基礎(chǔ)上穿過或稀松或稠密的障礙物到達(dá)目標(biāo)點(diǎn),實(shí)現(xiàn)無地圖導(dǎo)航。強(qiáng)化學(xué)習(xí)是一種智能體從與環(huán)境的不斷交互中學(xué)習(xí)的算法,適合于連續(xù)決策的任務(wù),是目前無地圖導(dǎo)航的主要研究方向。本文研究了基于強(qiáng)化學(xué)習(xí)的從記憶到推理兩個(gè)層次的移動(dòng)機(jī)器人無地圖導(dǎo)航,所設(shè)計(jì)的規(guī)劃器以RGB圖像作為視覺輸入、以機(jī)器人與目標(biāo)點(diǎn)的相對(duì)位置作為目標(biāo)信息。提出了使用近端策略優(yōu)化的端到端導(dǎo)航策略;提出了將視覺圖像先壓縮再將壓縮的特征輸入強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的導(dǎo)航策略,使得規(guī)劃器的采樣效率顯著提高;設(shè)計(jì)了堆積長短時(shí)記憶結(jié)構(gòu)使得強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)具有推理能力。為了測(cè)試、比較不同的網(wǎng)絡(luò)結(jié)構(gòu)和算法,搭建了一系列的基準(zhǔn)環(huán)境并提供了環(huán)境接口可快速調(diào)用。首先,針對(duì)記憶任務(wù)提出了基于近端策略優(yōu)化的端到端導(dǎo)航策略,搭建了基準(zhǔn)仿真環(huán)境,在該環(huán)境中與經(jīng)典的基于深度Q網(wǎng)絡(luò)的端到端導(dǎo)航策略進(jìn)行比較。其次,端到端強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中用于提取圖像特征的的參數(shù)無需從交互中學(xué)習(xí)... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:80 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于強(qiáng)化學(xué)習(xí)的無地圖導(dǎo)航策略研究


D算法(左圖)與A*算法(右圖)

地圖,機(jī)器人導(dǎo)航,導(dǎo)航算法,中間狀態(tài)


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文作中,我們?cè)O(shè)計(jì)、制造了一款基于機(jī)器人操作系統(tǒng)(Robo的移動(dòng)機(jī)器人平臺(tái) Plantbot[77],并在該平臺(tái)上實(shí)現(xiàn)了導(dǎo)航 SLAM 系統(tǒng)繪制的,然后機(jī)器人在繪制的地圖上通過 Alobal planner)規(guī)劃出全局路徑作為局部規(guī)劃器(local plan收局部成本地圖通過動(dòng)態(tài)窗法規(guī)劃出運(yùn)動(dòng)速度通過節(jié)點(diǎn)制節(jié)點(diǎn)接收到消息后執(zhí)行相應(yīng)命令,控制機(jī)器人朝目標(biāo)了全局規(guī)劃器規(guī)劃出的路徑(導(dǎo)航),也考慮到了局部更。實(shí)驗(yàn)效果如圖 1-4 所示:

導(dǎo)航圖,導(dǎo)航圖,地圖,導(dǎo)航策略


2.1 引言對(duì)于基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人無地圖導(dǎo)航,目前常到端的,即用神經(jīng)網(wǎng)絡(luò)擬合映射函數(shù),將傳感器的原始數(shù)據(jù)映標(biāo)點(diǎn)所需的動(dòng)作,考慮到輸入的視覺圖像為高維 RGB 圖像,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)提取特征組成狀態(tài)(state)輸入深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),進(jìn)行端到端訓(xùn)練。本領(lǐng)域表現(xiàn)突出的近端策略優(yōu)化(Proximal Policy Optimization到端導(dǎo)航策略的更新算法,設(shè)計(jì)了對(duì)應(yīng)的導(dǎo)航規(guī)劃器,并與基Q-Network, DQN)的端到端導(dǎo)航策略進(jìn)行了比較。內(nèi)容上,本化學(xué)習(xí)的一些基礎(chǔ)和理論,然后給出端到端導(dǎo)航策略的數(shù)學(xué)度 Q 網(wǎng)絡(luò)的端到端導(dǎo)航策略,提出了基于近端策略優(yōu)化的端建了基準(zhǔn)仿真環(huán)境,最后將兩策略在基準(zhǔn)環(huán)境中進(jìn)行比較。2.2 機(jī)器人無地圖導(dǎo)航問題定義Real time

【參考文獻(xiàn)】:
碩士論文
[1]基于深度強(qiáng)化學(xué)習(xí)的未知環(huán)境下機(jī)器人路徑規(guī)劃的研究[D]. 卜祥津.哈爾濱工業(yè)大學(xué) 2018
[2]面向家庭環(huán)境的移動(dòng)機(jī)器人局部路徑規(guī)劃算法研究[D]. 李寧.哈爾濱工業(yè)大學(xué) 2018



本文編號(hào):3127973

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3127973.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cf9a1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com