基于深度強化學(xué)習(xí)的端到端自動駕駛技術(shù)研究

發(fā)布時間：2021-06-07 22:34

　　自動駕駛的任務(wù)是車輛通過各種傳感器感知道路環(huán)境,在沒有人為進行干預(yù)的情況下,實時地改變駕駛的行為,包括轉(zhuǎn)向、加速和制動等。實現(xiàn)自動駕駛可以使交通事故的發(fā)生減少,道路交通資源得到更合理的利用,因此研究自動駕駛技術(shù)具有非常重要的意義。由于端到端的自動駕駛不需要人為指定規(guī)則,而直接學(xué)習(xí)駕駛動作,所以端到端方法的研究是自動駕駛領(lǐng)域的重要研究方向之一。深度強化學(xué)習(xí)方法通過和環(huán)境交互學(xué)習(xí)策略與人類學(xué)習(xí)駕駛的方式相似,被廣泛用于端到端駕駛?cè)蝿?wù)中。本文利用深度強化學(xué)習(xí)算法,對虛擬環(huán)境下車輛的自動駕駛進行研究。該算法是基于深度確定性策略梯度算法的改進,針對訓(xùn)練樣本利用率低的問題,將優(yōu)先經(jīng)驗回放方法與深度確定性策略梯度算法相結(jié)合,從仿真環(huán)境中獲取原始的傳感器輸入,模型輸出連續(xù)的加速、轉(zhuǎn)向、制動行為,并將訓(xùn)練數(shù)據(jù)存入緩沖區(qū)中,通過優(yōu)先經(jīng)驗回放的高效采樣方法,實現(xiàn)訓(xùn)練速度的加快。由于深度強化學(xué)習(xí)需要車輛與環(huán)境進行多次交互,訓(xùn)練過程中會出現(xiàn)錯誤的駕駛行為,在現(xiàn)實中訓(xùn)練自動駕駛會對車輛和周圍環(huán)境造成不可估量的損害,所以本實驗是在仿真平臺的虛擬環(huán)境中實現(xiàn)的,然而端到端駕駛的最終目標是使真實車輛在現(xiàn)實環(huán)境中自主做出駕...

【文章來源】：中國科學(xué)院大學(xué)(中國科學(xué)院大學(xué)人工智能學(xué)院)北京市

【文章頁數(shù)】：80 頁

【學(xué)位級別】：碩士

【部分圖文】：

圖１．１深度Ｑ網(wǎng)絡(luò)基本結(jié)構(gòu)ｉ５ｌ??

模型圖,模型,圍棋,算法

?基于深度強化學(xué)習(xí)的端到端自動駕駛技術(shù)研究???Ｇｌｏｂａｌ?Ｎｅｔｗｏｒｋ??ｒ＇—一邊??＇?＾??＿（ｓ）??ｚ?／?＼?、？??戀麵麵?ＳＩ??ｒ．：ｌ?；：．：；：ｌ?它?Ｉ?…？：：ｌ??Ｗｏｒｋｅｒ?１?Ｗｏｒｋｅｒ?２?Ｗｏｒｋｅｒ?３?Ｗｏｒｔ？ｒｎ??Ｉ?ｔ?ｔ?ｆ??Ｅｎｗｒｏｏｍｅｒｎ?１?Ｅｎｖｉｆｏｏｍａｗ?２?Ｅｎｖ＊ｔ＞ｏｍ〇ｎｔ３?．．．?￡ｎｖ＊〇ｗｎｅＭｎ??圖１．２Ａ３Ｃ模型??Ｆｉｇｕｒｅ?１．２?Ｔｈｅ?ｍｏｄｅｌ?ｏｆ?Ａ３Ｃ??２０１４?年，Ｓｌｉｖｅｒ?提出了確定性策略搜索（Ｄｅｔｅｒｍｉｎｉｓｔｉｃ?Ｐｏｌｉｃｙ?Ｇｒａｄｉｅｎｔ，?ＤＰＧ）??算法１１１］，采用確定性的動作代替隨機動作的選擇。２０１６年，Ｌｉｌｌｉｃｒａｐ等在此基礎(chǔ)??上提出了深度確定性策略梯度（Ｄｅｅｐ?Ｄｅｔｅｒｍｉｎｉｓｔｉｃ?Ｐｏｌｉｃｙ?Ｇｒａｄｉｅｎｔ，?ＤＤＰＧ）算法??［１２】。ＤＤＰＧ算法整體上采用的是Ａｃｔｏｒ－Ｃｒｉｔｉｃ框架，Ｃｒｉｔｉｃ部分應(yīng)用ＤＱＮ算法，??采用隨機采樣和單獨的目標網(wǎng)絡(luò)方法，減少樣本數(shù)據(jù)之間的關(guān)聯(lián)性，并利用基于??ＤＰＧ的Ａｃｔｏｒ－Ｃｒｉｔｉｃ算法處理連續(xù)動作空間。２０１６年，Ｓｉｌｖｅｒ等［１３］將深度強化學(xué)??習(xí)算法應(yīng)用到圍棋游戲中，利用蒙特卡洛樹搜索算法訓(xùn)練智能圍棋“Ａｌｐｈａ?Ｇｏ”，??并與圍棋冠軍李世石對賽，取得了四比一的勝利。這一事件代表了人工智能技術(shù)??應(yīng)用的潛力，深度強化學(xué)習(xí)取得了學(xué)術(shù)領(lǐng)域和工程領(lǐng)域等專家的關(guān)注。??近兩年，國內(nèi)外研宄人員嘗試將深度強化學(xué)習(xí)應(yīng)用到各個領(lǐng)域，在無人機、??物流機器人、機器

基于深度強化學(xué)習(xí)的端到端自動駕駛技術(shù)研究

圖１．３混合ＣＮＮ－ＲＮＮ的結(jié)構(gòu)丨１７丨??

【參考文獻】：
期刊論文
[1]域自適應(yīng)學(xué)習(xí)研究進展[J]. 劉建偉,孫正康,羅雄麟. 自動化學(xué)報. 2014(08)

本文編號：3217438

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3217438.html

上一篇：軌檢儀水平傳感器溫度補償模型研究
下一篇：基于多輪足的自平衡越障爬樓梯機器人研發(fā)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度強化學(xué)習(xí)的端到端自動駕駛技術(shù)研究