基于深度Q網(wǎng)絡(luò)的水面無人艇路徑規(guī)劃算法
發(fā)布時(shí)間:2021-06-09 08:35
為實(shí)現(xiàn)水面無人艇(unmanned surface vessel, USV)在未知環(huán)境下的自主避障航行,提出一種基于深度Q網(wǎng)絡(luò)的USV避障路徑規(guī)劃算法。該算法將深度學(xué)習(xí)應(yīng)用到Q學(xué)習(xí)算法中,利用深度神經(jīng)網(wǎng)絡(luò)估計(jì)Q函數(shù),有效解決傳統(tǒng)Q學(xué)習(xí)算法在復(fù)雜水域環(huán)境的路徑規(guī)劃中容易產(chǎn)生維數(shù)災(zāi)難的問題。通過訓(xùn)練模型可有效地建立感知(輸入)與決策(輸出)之間的映射關(guān)系。依據(jù)此映射關(guān)系,USV在每個(gè)決策周期選擇Q值最大的動(dòng)作執(zhí)行,從而能夠成功避開障礙物并規(guī)劃出最優(yōu)路線。仿真結(jié)果表明,在迭代訓(xùn)練8 000次時(shí),平均損失函數(shù)能夠較好地收斂,這證明USV有效學(xué)習(xí)到了如何避開障礙物并規(guī)劃出最優(yōu)路線。該方法是一種不依賴模型的端到端路徑規(guī)劃算法。
【文章來源】:上海海事大學(xué)學(xué)報(bào). 2020,41(03)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
仿真環(huán)境二維 直角坐標(biāo)系
為簡(jiǎn)化仿真實(shí)驗(yàn)復(fù)雜度,仿真實(shí)驗(yàn)僅在模擬的水上障礙物靜態(tài)環(huán)境中進(jìn)行,在實(shí)驗(yàn)前期USV在不同的時(shí)間步與障礙物發(fā)生碰撞,環(huán)境給出懲罰,以降低下次出現(xiàn)相似狀況的概率,有效指引USV選擇最優(yōu)策略。在上述4種仿真環(huán)境中的路徑規(guī)劃效果見圖6。在訓(xùn)練開始時(shí),USV會(huì)多次與障礙物發(fā)生碰撞且規(guī)劃路徑波動(dòng)較大;在訓(xùn)練3 000次時(shí),算法逐漸規(guī)劃出安全路徑,但此時(shí)路徑并非最短,所耗費(fèi)時(shí)間也較長(zhǎng);在訓(xùn)練5 000次時(shí),系統(tǒng)可以有效避開障礙物,算法趨于平穩(wěn)并逐漸規(guī)劃出有效路徑,所需時(shí)間也明顯縮短;當(dāng)訓(xùn)練8 000次時(shí),系統(tǒng)可以高效避開障礙物并規(guī)劃出最優(yōu)路徑。表2為在上述4種仿真環(huán)境中分別訓(xùn)練不同次數(shù)產(chǎn)生的數(shù)據(jù)平均值。
從訓(xùn)練數(shù)據(jù)中隨機(jī)選出一批圖片進(jìn)行訓(xùn)練,其權(quán)值更新取決于損失函數(shù),隨著訓(xùn)練次數(shù)的增加,式(11)的 max Q(s t+1 ,a t+1 | s,a ) 對(duì)應(yīng)上、下、左、右4個(gè)動(dòng)作中的Q值的最大值。首先將神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的Q值存儲(chǔ)起來。經(jīng)過一段時(shí)間的訓(xùn)練,更新Q值并存儲(chǔ)在與訓(xùn)練模型相同的文本文件中。新Q值又可以用來訓(xùn)練模型。重復(fù)幾個(gè)步驟,直到算法學(xué)習(xí)到所需的特性。當(dāng)訓(xùn)練開始時(shí),神經(jīng)網(wǎng)絡(luò)估計(jì)的Q值與真實(shí)Q值的差值較大,此時(shí)的損失函數(shù)波動(dòng)加大(見圖7),顯然此時(shí)算法還沒有學(xué)會(huì)如何避開障礙物。隨著訓(xùn)練次數(shù)的增加,算法逐漸學(xué)會(huì)捕捉相應(yīng)的特性,當(dāng)訓(xùn)練結(jié)束時(shí)算法的平均損失已經(jīng)明顯收斂(見圖8),這表明網(wǎng)絡(luò)誤差較小,USV已經(jīng)很好地學(xué)會(huì)如何避開障礙物規(guī)劃安全航線。圖8 訓(xùn)練結(jié)束時(shí)損失函數(shù)波動(dòng)
【參考文獻(xiàn)】:
期刊論文
[1]基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制[J]. 李金娜,尹子軒. 控制與決策. 2019(11)
[2]卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J]. 林景棟,吳欣怡,柴毅,尹宏鵬. 自動(dòng)化學(xué)報(bào). 2020(01)
[3]基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動(dòng)化. 2019(03)
[4]基于神經(jīng)網(wǎng)絡(luò)Q-learning算法的智能車路徑規(guī)劃[J]. 衛(wèi)玉梁,靳伍銀. 火力與指揮控制. 2019(02)
[5]基于Q-Learning的無人駕駛船舶路徑規(guī)劃[J]. 王程博,張新宇,鄒志強(qiáng),王少博. 船海工程. 2018(05)
[6]基于灰色馬爾科夫模型的船舶交通流預(yù)測(cè)[J]. 劉成勇,萬偉強(qiáng),陳蜀喆,甘浪雄. 中國(guó)航海. 2018(03)
[7]基于改進(jìn)人工勢(shì)場(chǎng)法的水面無人艇路徑規(guī)劃研究[J]. 陳超,耿沛文,張新慈. 船舶工程. 2015(09)
[8]GIS空間分析中兩種改進(jìn)的路徑規(guī)劃算法[J]. 邱育紅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2007(07)
本文編號(hào):3220252
【文章來源】:上海海事大學(xué)學(xué)報(bào). 2020,41(03)北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
仿真環(huán)境二維 直角坐標(biāo)系
為簡(jiǎn)化仿真實(shí)驗(yàn)復(fù)雜度,仿真實(shí)驗(yàn)僅在模擬的水上障礙物靜態(tài)環(huán)境中進(jìn)行,在實(shí)驗(yàn)前期USV在不同的時(shí)間步與障礙物發(fā)生碰撞,環(huán)境給出懲罰,以降低下次出現(xiàn)相似狀況的概率,有效指引USV選擇最優(yōu)策略。在上述4種仿真環(huán)境中的路徑規(guī)劃效果見圖6。在訓(xùn)練開始時(shí),USV會(huì)多次與障礙物發(fā)生碰撞且規(guī)劃路徑波動(dòng)較大;在訓(xùn)練3 000次時(shí),算法逐漸規(guī)劃出安全路徑,但此時(shí)路徑并非最短,所耗費(fèi)時(shí)間也較長(zhǎng);在訓(xùn)練5 000次時(shí),系統(tǒng)可以有效避開障礙物,算法趨于平穩(wěn)并逐漸規(guī)劃出有效路徑,所需時(shí)間也明顯縮短;當(dāng)訓(xùn)練8 000次時(shí),系統(tǒng)可以高效避開障礙物并規(guī)劃出最優(yōu)路徑。表2為在上述4種仿真環(huán)境中分別訓(xùn)練不同次數(shù)產(chǎn)生的數(shù)據(jù)平均值。
從訓(xùn)練數(shù)據(jù)中隨機(jī)選出一批圖片進(jìn)行訓(xùn)練,其權(quán)值更新取決于損失函數(shù),隨著訓(xùn)練次數(shù)的增加,式(11)的 max Q(s t+1 ,a t+1 | s,a ) 對(duì)應(yīng)上、下、左、右4個(gè)動(dòng)作中的Q值的最大值。首先將神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的Q值存儲(chǔ)起來。經(jīng)過一段時(shí)間的訓(xùn)練,更新Q值并存儲(chǔ)在與訓(xùn)練模型相同的文本文件中。新Q值又可以用來訓(xùn)練模型。重復(fù)幾個(gè)步驟,直到算法學(xué)習(xí)到所需的特性。當(dāng)訓(xùn)練開始時(shí),神經(jīng)網(wǎng)絡(luò)估計(jì)的Q值與真實(shí)Q值的差值較大,此時(shí)的損失函數(shù)波動(dòng)加大(見圖7),顯然此時(shí)算法還沒有學(xué)會(huì)如何避開障礙物。隨著訓(xùn)練次數(shù)的增加,算法逐漸學(xué)會(huì)捕捉相應(yīng)的特性,當(dāng)訓(xùn)練結(jié)束時(shí)算法的平均損失已經(jīng)明顯收斂(見圖8),這表明網(wǎng)絡(luò)誤差較小,USV已經(jīng)很好地學(xué)會(huì)如何避開障礙物規(guī)劃安全航線。圖8 訓(xùn)練結(jié)束時(shí)損失函數(shù)波動(dòng)
【參考文獻(xiàn)】:
期刊論文
[1]基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制[J]. 李金娜,尹子軒. 控制與決策. 2019(11)
[2]卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J]. 林景棟,吳欣怡,柴毅,尹宏鵬. 自動(dòng)化學(xué)報(bào). 2020(01)
[3]基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究綜述[J]. 劉志榮,姜樹海. 制造業(yè)自動(dòng)化. 2019(03)
[4]基于神經(jīng)網(wǎng)絡(luò)Q-learning算法的智能車路徑規(guī)劃[J]. 衛(wèi)玉梁,靳伍銀. 火力與指揮控制. 2019(02)
[5]基于Q-Learning的無人駕駛船舶路徑規(guī)劃[J]. 王程博,張新宇,鄒志強(qiáng),王少博. 船海工程. 2018(05)
[6]基于灰色馬爾科夫模型的船舶交通流預(yù)測(cè)[J]. 劉成勇,萬偉強(qiáng),陳蜀喆,甘浪雄. 中國(guó)航海. 2018(03)
[7]基于改進(jìn)人工勢(shì)場(chǎng)法的水面無人艇路徑規(guī)劃研究[J]. 陳超,耿沛文,張新慈. 船舶工程. 2015(09)
[8]GIS空間分析中兩種改進(jìn)的路徑規(guī)劃算法[J]. 邱育紅. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2007(07)
本文編號(hào):3220252
本文鏈接:http://www.sikaile.net/kejilunwen/chuanbolw/3220252.html
最近更新
教材專著