基于深度強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人導(dǎo)航策略研究
發(fā)布時(shí)間:2021-04-24 08:43
針對(duì)移動(dòng)機(jī)器人在復(fù)雜動(dòng)態(tài)變化的環(huán)境下導(dǎo)航的局限性,采用了一種將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來的深度強(qiáng)化學(xué)習(xí)方法;研究以在OpenCV平臺(tái)下搭建的仿真環(huán)境的圖像作為輸入數(shù)據(jù),輸入至TensorFlow創(chuàng)建的卷積神經(jīng)網(wǎng)絡(luò)模型中處理,提取其中的機(jī)器人的動(dòng)作狀態(tài)信息,結(jié)合強(qiáng)化學(xué)習(xí)的決策能力求出最佳導(dǎo)航策略;仿真實(shí)驗(yàn)結(jié)果表明:在經(jīng)過深度強(qiáng)化學(xué)習(xí)的方法訓(xùn)練后,移動(dòng)機(jī)器人在環(huán)境發(fā)生了部分場(chǎng)景變化時(shí),依然能夠?qū)崿F(xiàn)隨機(jī)起點(diǎn)到隨機(jī)終點(diǎn)的高效準(zhǔn)確的導(dǎo)航。
【文章來源】:計(jì)算機(jī)測(cè)量與控制. 2019,27(08)
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)研究
1.1 卷積神經(jīng)網(wǎng)絡(luò)
1.2 強(qiáng)化學(xué)習(xí)
1.2.1 馬爾科夫模型與貝爾曼方程
1.2.2 策略迭代
1.2.3 值迭代
1.3 深度強(qiáng)化學(xué)習(xí)
1.3.1 基于值函數(shù)
1.3.2 基于策略梯度
2 基于DQN的移動(dòng)機(jī)器人導(dǎo)航策略研究
2.1 DQN網(wǎng)絡(luò)參數(shù)預(yù)處理
2.2 模型結(jié)構(gòu)與圖像處理過程
2.3 DQN算法訓(xùn)練流程
2.4 搜索與利用平衡策略
3 實(shí)驗(yàn)仿真與分析
3.1 實(shí)驗(yàn)平臺(tái)描述
3.2 實(shí)驗(yàn)結(jié)果
3.2.1 初始地圖下的導(dǎo)航
3.2.2 增量環(huán)境下的導(dǎo)航
4 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]強(qiáng)化學(xué)習(xí)研究綜述[J]. 高陽,陳世福,陸鑫. 自動(dòng)化學(xué)報(bào). 2004(01)
本文編號(hào):3157054
【文章來源】:計(jì)算機(jī)測(cè)量與控制. 2019,27(08)
【文章頁數(shù)】:6 頁
【文章目錄】:
0 引言
1 相關(guān)研究
1.1 卷積神經(jīng)網(wǎng)絡(luò)
1.2 強(qiáng)化學(xué)習(xí)
1.2.1 馬爾科夫模型與貝爾曼方程
1.2.2 策略迭代
1.2.3 值迭代
1.3 深度強(qiáng)化學(xué)習(xí)
1.3.1 基于值函數(shù)
1.3.2 基于策略梯度
2 基于DQN的移動(dòng)機(jī)器人導(dǎo)航策略研究
2.1 DQN網(wǎng)絡(luò)參數(shù)預(yù)處理
2.2 模型結(jié)構(gòu)與圖像處理過程
2.3 DQN算法訓(xùn)練流程
2.4 搜索與利用平衡策略
3 實(shí)驗(yàn)仿真與分析
3.1 實(shí)驗(yàn)平臺(tái)描述
3.2 實(shí)驗(yàn)結(jié)果
3.2.1 初始地圖下的導(dǎo)航
3.2.2 增量環(huán)境下的導(dǎo)航
4 結(jié)束語
【參考文獻(xiàn)】:
期刊論文
[1]強(qiáng)化學(xué)習(xí)研究綜述[J]. 高陽,陳世福,陸鑫. 自動(dòng)化學(xué)報(bào). 2004(01)
本文編號(hào):3157054
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3157054.html
最近更新
教材專著