基于深度強化學(xué)習(xí)和遷移學(xué)習(xí)的反應(yīng)式避障方法研究
【文章頁數(shù)】:57 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1-1反應(yīng)式避障技術(shù)的應(yīng)用
如何解決利用深度強化學(xué)習(xí)算法在避障任務(wù)中的穩(wěn)定學(xué)習(xí)以及利用遷移學(xué)習(xí)實現(xiàn)模型快速遷移是本文算法旨在解決的問題。圖1-1反應(yīng)式避障技術(shù)的應(yīng)用1.2研究現(xiàn)狀1.2.1基于非機器學(xué)習(xí)的避障算法機器人的避障算法研究要追溯到上個世紀(jì)。傳統(tǒng)的避障算法大致分為三個部分,障礙物檢測、可通行區(qū)....
圖1-2基于非機器學(xué)習(xí)避障算法流程圖
2圖1-2基于非機器學(xué)習(xí)避障算法流程圖,傳統(tǒng)的非機器學(xué)習(xí)類的避障算法首先利用機器人攜者激光雷達檢測出場景中的障礙物,然后計算出機器域可能存在多個,因此需要通過定義的最優(yōu)代價函數(shù)
圖2-1馬爾科夫決策過程
2強化學(xué)習(xí)和遷移學(xué)習(xí)算法要是闡述強化學(xué)習(xí)和遷移學(xué)習(xí)涉及的基礎(chǔ)理論和相體的算法和實現(xiàn)方法進行介紹,并分析它們的優(yōu)劣算法應(yīng)式避障問題可以看作為一個馬爾科夫決策過程,即,決策出接下來需要執(zhí)行的動作,根據(jù)機器人的控制節(jié)將介紹馬爾科夫決策過程的原理、基于馬爾科夫決于策略梯度的算法原理,并....
圖2-2Q-learning框架圖
的非線性性來替換之前的Q表。圖2-2Q-learning框架圖圖2-2為Q-learning算法的框架圖,輸入的狀態(tài)經(jīng)過神經(jīng)網(wǎng)絡(luò)編碼之后映射成離散的Q值,每個Q值對應(yīng)一個動作,同樣地,根據(jù)貝爾曼最優(yōu)方程來選取執(zhí)行動作。然后通過反向傳播(BackProp....
本文編號:3915537
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3915537.html