基于逆向強化學(xué)習(xí)的自主駕駛技術(shù)研究
發(fā)布時間:2022-09-24 20:46
隨著機(jī)器學(xué)習(xí)算法的發(fā)展,自主駕駛技術(shù)不斷向前推進(jìn),將對未來的城市交通產(chǎn)生重要影響。自主駕駛?cè)蝿?wù)的核心在于決策與控制算法,傳統(tǒng)的決策算法包括專家規(guī)則庫和行為克隆,存在著泛化能力弱、不適用于復(fù)雜場景等問題。更為流行的強化學(xué)習(xí)決策算法具備一定的探索性,能夠優(yōu)化出具備較好泛化性能的控制策略。然而,目前的強化學(xué)習(xí)算法存在探索成本高和報酬函數(shù)難以確定的問題。為了解決上述問題,本文給出改進(jìn)的策略優(yōu)化算法,并利用逆向強化學(xué)習(xí)算法學(xué)習(xí)出最優(yōu)的報酬函數(shù),將其應(yīng)用于自主駕駛決策任務(wù)。針對強化學(xué)習(xí)決策算法探索成本高的問題,給出了融合專家監(jiān)督損失的深度確定性策略梯度算法。采用混合采樣機(jī)制,從專家演示數(shù)據(jù)和自產(chǎn)生數(shù)據(jù)中采樣獲取訓(xùn)練樣本。對于專家訓(xùn)練樣本,引入專家監(jiān)督損失函數(shù),將專家策略與當(dāng)前策略的均方誤差作為專家監(jiān)督損失,聯(lián)合原始策略梯度進(jìn)行策略優(yōu)化。對于自產(chǎn)生訓(xùn)練樣本,按照原始的策略梯度進(jìn)行策略優(yōu)化。專家監(jiān)督損失函數(shù)一方面指導(dǎo)著策略向?qū)<也呗缘姆较驅(qū)W習(xí),另一方面指導(dǎo)著智能體在自我探索中學(xué)習(xí)。將給出的算法在開源賽車模擬器中進(jìn)行仿真,對比分析策略學(xué)習(xí)速度、訓(xùn)練過程波動性以及最優(yōu)策略性能,驗證了給出的策略優(yōu)化算法在自...
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 經(jīng)典智能決策算法
1.2.2 監(jiān)督學(xué)習(xí)決策算法
1.2.3 強化學(xué)習(xí)決策算法
1.3 主要研究內(nèi)容
第2章 自主駕駛問題建模及仿真平臺
2.1 自主駕駛問題描述
2.1.1 馬爾科夫決策過程
2.1.2 策略優(yōu)化方法
2.2 自主駕駛仿真平臺
2.3 本章小結(jié)
第3章 融合專家演示軌跡的正向強化學(xué)習(xí)
3.1 融合專家監(jiān)督損失的DDPG算法
3.1.1 專家監(jiān)督損失函數(shù)
3.1.2 混合采樣機(jī)制
3.1.3 策略優(yōu)化過程
3.2 自主駕駛仿真結(jié)果
3.2.1 策略學(xué)習(xí)速度分析
3.2.2 訓(xùn)練過程波動性分析
3.2.3 最優(yōu)策略性能分析
3.3 本章小結(jié)
第4章 基于最大熵理論的逆向強化學(xué)習(xí)
4.1 基于最大熵的逆向強化學(xué)習(xí)算法研究
4.1.1 最大熵逆向強化學(xué)習(xí)算法描述
4.1.2 最大熵逆向強化學(xué)習(xí)算法學(xué)習(xí)過程
4.2 自主駕駛仿真結(jié)果
4.2.1 報酬函數(shù)迭代學(xué)習(xí)過程
4.2.2 策略學(xué)習(xí)速度對比分析
4.2.3 訓(xùn)練過程波動性對比分析
4.2.4 最優(yōu)策略性能分析
4.2.5 泛化性能分析
4.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]對汽車智能化進(jìn)程及其關(guān)鍵技術(shù)的思考[J]. 陳虹,郭露露,邊寧. 科技導(dǎo)報. 2017(11)
[2]城市環(huán)境下無人駕駛車輛駕駛規(guī)則獲取及決策算法[J]. 陳雪梅,田賡,苗一松,龔建偉. 北京理工大學(xué)學(xué)報. 2017(05)
[3]深度強化學(xué)習(xí)綜述:兼論計算機(jī)圍棋的發(fā)展[J]. 趙冬斌,邵坤,朱圓恒,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅. 控制理論與應(yīng)用. 2016(06)
[4]汽車智能化的道路:智能汽車、自動駕駛汽車安全監(jiān)管研究[J]. 翁岳暄,多尼米克·希倫布蘭德. 科技與法律. 2014(04)
[5]強化學(xué)習(xí)的模型、算法及應(yīng)用[J]. 戰(zhàn)忠麗,王強,陳顯亭. 電子科技. 2011(01)
博士論文
[1]自主駕駛汽車智能控制系統(tǒng)[D]. 孫振平.國防科學(xué)技術(shù)大學(xué) 2004
本文編號:3680838
【文章頁數(shù)】:65 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 經(jīng)典智能決策算法
1.2.2 監(jiān)督學(xué)習(xí)決策算法
1.2.3 強化學(xué)習(xí)決策算法
1.3 主要研究內(nèi)容
第2章 自主駕駛問題建模及仿真平臺
2.1 自主駕駛問題描述
2.1.1 馬爾科夫決策過程
2.1.2 策略優(yōu)化方法
2.2 自主駕駛仿真平臺
2.3 本章小結(jié)
第3章 融合專家演示軌跡的正向強化學(xué)習(xí)
3.1 融合專家監(jiān)督損失的DDPG算法
3.1.1 專家監(jiān)督損失函數(shù)
3.1.2 混合采樣機(jī)制
3.1.3 策略優(yōu)化過程
3.2 自主駕駛仿真結(jié)果
3.2.1 策略學(xué)習(xí)速度分析
3.2.2 訓(xùn)練過程波動性分析
3.2.3 最優(yōu)策略性能分析
3.3 本章小結(jié)
第4章 基于最大熵理論的逆向強化學(xué)習(xí)
4.1 基于最大熵的逆向強化學(xué)習(xí)算法研究
4.1.1 最大熵逆向強化學(xué)習(xí)算法描述
4.1.2 最大熵逆向強化學(xué)習(xí)算法學(xué)習(xí)過程
4.2 自主駕駛仿真結(jié)果
4.2.1 報酬函數(shù)迭代學(xué)習(xí)過程
4.2.2 策略學(xué)習(xí)速度對比分析
4.2.3 訓(xùn)練過程波動性對比分析
4.2.4 最優(yōu)策略性能分析
4.2.5 泛化性能分析
4.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其他成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]對汽車智能化進(jìn)程及其關(guān)鍵技術(shù)的思考[J]. 陳虹,郭露露,邊寧. 科技導(dǎo)報. 2017(11)
[2]城市環(huán)境下無人駕駛車輛駕駛規(guī)則獲取及決策算法[J]. 陳雪梅,田賡,苗一松,龔建偉. 北京理工大學(xué)學(xué)報. 2017(05)
[3]深度強化學(xué)習(xí)綜述:兼論計算機(jī)圍棋的發(fā)展[J]. 趙冬斌,邵坤,朱圓恒,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅. 控制理論與應(yīng)用. 2016(06)
[4]汽車智能化的道路:智能汽車、自動駕駛汽車安全監(jiān)管研究[J]. 翁岳暄,多尼米克·希倫布蘭德. 科技與法律. 2014(04)
[5]強化學(xué)習(xí)的模型、算法及應(yīng)用[J]. 戰(zhàn)忠麗,王強,陳顯亭. 電子科技. 2011(01)
博士論文
[1]自主駕駛汽車智能控制系統(tǒng)[D]. 孫振平.國防科學(xué)技術(shù)大學(xué) 2004
本文編號:3680838
本文鏈接:http://www.sikaile.net/kejilunwen/qiche/3680838.html
最近更新
教材專著