基于進化和強化學習算法的動態(tài)路徑規(guī)劃研究
發(fā)布時間:2022-12-08 04:20
隨著機器人技術的日新月異,大量的機器人被應用到軍事、商業(yè)、民生各大領域,機器人的智能控制問題成為研究熱點。在動態(tài)變化路徑規(guī)劃環(huán)境中要求智能體能對環(huán)境的變化擁有實時決策能力,基于深度學習的強化學習算法在復雜環(huán)境任務中有很好的表現(xiàn),F(xiàn)在,深度強化學習已經(jīng)廣泛應用于解決智能控制問題,但是深度強化學習方法通常有三個核心問題:稀疏回報環(huán)境下的時間信用分配,缺乏有效探索,對超參數(shù)極其敏感的收斂特性。針對上述問題本文提出了改進的群體智能深度強化學習算法。群體智能算法評價值函數(shù)的設定能夠直接評判最終結果的好壞,在時間信用分配的問題上有很好表現(xiàn);同時這種方式也能讓算法收集的經(jīng)驗偏向于高長期回報,使得探索經(jīng)驗更加便于訓練;群體智能算法只需要考慮搜索時間的問題,能減少算法收斂對超參數(shù)的依賴。實驗結果表明,該方法具有一定的理論和實用價值。主要研究內(nèi)容:(1)提出一種改進的遺傳神經(jīng)網(wǎng)絡強化學習算法。在算法中提出了符合強化學習特性的適應性函數(shù),提出了分段權重選擇交叉的方法繁衍子代和利用梯度信息加快遺傳算法對解空間搜索的方法。并在修改的稀疏回報深度強化學習實驗環(huán)境對算法性能進行了實驗驗證。(2)根據(jù)群體優(yōu)化的思想,...
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 路徑規(guī)劃算法國內(nèi)外研究現(xiàn)狀
1.3 強化學習算法國內(nèi)外研究現(xiàn)狀
1.4 論文的研究內(nèi)容
1.5 論文的主要結構
第二章 關鍵技術理論
2.1 動態(tài)路徑規(guī)劃
2.2 強化學習理論基礎
2.2.1 馬爾科夫決策過程
2.2.2 值函數(shù)模型
2.2.3 MDP求解方法
2.3 傳統(tǒng)強化學習算法
2.3.1 Temporal-Difference Learning
2.3.2 Q-learning算法
2.4 深度強化學習算法
2.4.1 Deep Q-Network算法
2.4.2 Actor-Critic算法
2.4.3 Deep Deterministic Policy Gradient算法
2.5 進化算法理論基礎
2.6 本章小結
第三章 遺傳算法優(yōu)化的強化學習算法
3.1 深度強化學習算法的局限性
3.2 遺傳神經(jīng)網(wǎng)絡優(yōu)化
3.3 GDQN算法
3.4 GDDPG算法
3.5 實驗驗證
3.5.1 GDQN算法實驗驗證
3.5.2 GDDPG算法實驗驗證
3.6 本章小結
第四章 粒子群算法優(yōu)化的強化學習算法
4.1 PSO算法優(yōu)勢簡介
4.2 PSO神經(jīng)網(wǎng)絡優(yōu)化結構及原理
4.3 PSO-DDPG算法
4.4 實驗驗證
4.5 本章小結
第五章 PSO-DDPG算法在動態(tài)路徑規(guī)劃環(huán)境中的應用
5.1 環(huán)境模型選擇原理
5.2 環(huán)境設置
5.2.1 環(huán)境解析
5.2.2 實驗設置
5.3 實驗結果分析
5.3.1 非稀疏回報環(huán)境下實驗結果分析
5.3.2 稀疏回報環(huán)境下實驗結果分析
5.4 本章小結
第六章 總結與展望
6.1 全文總結
6.2 后續(xù)工作展望
致謝
參考文獻
攻讀碩士學位期間取得的成果
本文編號:3713539
【文章頁數(shù)】:72 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 路徑規(guī)劃算法國內(nèi)外研究現(xiàn)狀
1.3 強化學習算法國內(nèi)外研究現(xiàn)狀
1.4 論文的研究內(nèi)容
1.5 論文的主要結構
第二章 關鍵技術理論
2.1 動態(tài)路徑規(guī)劃
2.2 強化學習理論基礎
2.2.1 馬爾科夫決策過程
2.2.2 值函數(shù)模型
2.2.3 MDP求解方法
2.3 傳統(tǒng)強化學習算法
2.3.1 Temporal-Difference Learning
2.3.2 Q-learning算法
2.4 深度強化學習算法
2.4.1 Deep Q-Network算法
2.4.2 Actor-Critic算法
2.4.3 Deep Deterministic Policy Gradient算法
2.5 進化算法理論基礎
2.6 本章小結
第三章 遺傳算法優(yōu)化的強化學習算法
3.1 深度強化學習算法的局限性
3.2 遺傳神經(jīng)網(wǎng)絡優(yōu)化
3.3 GDQN算法
3.4 GDDPG算法
3.5 實驗驗證
3.5.1 GDQN算法實驗驗證
3.5.2 GDDPG算法實驗驗證
3.6 本章小結
第四章 粒子群算法優(yōu)化的強化學習算法
4.1 PSO算法優(yōu)勢簡介
4.2 PSO神經(jīng)網(wǎng)絡優(yōu)化結構及原理
4.3 PSO-DDPG算法
4.4 實驗驗證
4.5 本章小結
第五章 PSO-DDPG算法在動態(tài)路徑規(guī)劃環(huán)境中的應用
5.1 環(huán)境模型選擇原理
5.2 環(huán)境設置
5.2.1 環(huán)境解析
5.2.2 實驗設置
5.3 實驗結果分析
5.3.1 非稀疏回報環(huán)境下實驗結果分析
5.3.2 稀疏回報環(huán)境下實驗結果分析
5.4 本章小結
第六章 總結與展望
6.1 全文總結
6.2 后續(xù)工作展望
致謝
參考文獻
攻讀碩士學位期間取得的成果
本文編號:3713539
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3713539.html
最近更新
教材專著