基于虛擬仿真環(huán)境的自動駕駛策略學(xué)習(xí)
發(fā)布時間:2021-05-12 00:30
自動駕駛是人工智能研究的重要領(lǐng)域,對提高現(xiàn)實交通的安全性、效率性有著重大的意義。隨著神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺、自然語言處理上的發(fā)展,越來越多的公司和研究機(jī)構(gòu)開始研究深度學(xué)習(xí)和自動駕駛的結(jié)合。駕駛策略的學(xué)習(xí)是其中很重要的一個研究方向。傳統(tǒng)的駕駛策略算法基于人工設(shè)計和數(shù)學(xué)建模,無法處理復(fù)雜的交通環(huán)境,不能滿足自動駕駛的需要。本文的研究目的,是基于虛擬環(huán)境的條件下,訓(xùn)練得到更加智能的駕駛策略,在無人車訓(xùn)練平臺中,作為對手車輛的駕駛策略,輔助真正的無人駕駛訓(xùn)練過程。本文的主要工作包括:基于駕駛的理論模型,搭建了一個用于強(qiáng)化學(xué)習(xí)的駕駛仿真環(huán)境;在駕駛仿真環(huán)境的基礎(chǔ)上,提出了一種使用深度強(qiáng)化學(xué)習(xí)得到駕駛策略的算法框架;比較了不同的深度強(qiáng)化學(xué)習(xí)結(jié)構(gòu)對駕駛策略學(xué)習(xí)的影響,得到的駕駛策略在多項交通指標(biāo)上超越了傳統(tǒng)的駕駛策略;基于實驗和分析,對未來如何開發(fā)更好的駕駛學(xué)習(xí)算法提出了建設(shè)性的意見。本文創(chuàng)新點有兩個,一是設(shè)計了駕駛策略的狀態(tài)空間,提出了相應(yīng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和獎勵函數(shù)來進(jìn)行深度強(qiáng)化學(xué)習(xí)訓(xùn)練;二是研究、分析了整個算法中,神經(jīng)網(wǎng)絡(luò)因素和交通環(huán)境因素對最終學(xué)習(xí)結(jié)果的影響。本文的駕駛仿真環(huán)境可以與不同的底層仿真...
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 傳統(tǒng)駕駛模型
1.2.2 深度強(qiáng)化學(xué)習(xí)
1.2.3 無人駕駛與深度學(xué)習(xí)的結(jié)合
1.3 研究目的
1.4 論文工作
1.5 文章結(jié)構(gòu)
1.6 本章小結(jié)
第2章 理論基礎(chǔ)
2.1 神經(jīng)網(wǎng)絡(luò)
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.2 遞歸神經(jīng)網(wǎng)絡(luò)
2.2 深度強(qiáng)化學(xué)習(xí)
2.2.1 強(qiáng)化學(xué)習(xí)
2.2.2 基于Q學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)
2.2.3 基于策略梯度的深度強(qiáng)化學(xué)習(xí)
2.2.4 異步的優(yōu)勢觀察者-行為者算法
2.2.5 深度強(qiáng)化學(xué)習(xí)中的策略優(yōu)化算法
2.3 相關(guān)開源項目
2.3.1 SUMO
2.3.2 Ray
2.4 本章小結(jié)
第3章 基于交通仿真系統(tǒng)的強(qiáng)化學(xué)習(xí)環(huán)境
3.1 設(shè)計目標(biāo)
3.2 設(shè)計方案
3.2.1 整體結(jié)構(gòu)
3.2.2 交通場景生成
3.2.3 交通車輛生成
3.2.4 環(huán)境類
3.3 實現(xiàn)方式
3.4 本章小結(jié)
第4章 駕駛策略學(xué)習(xí)的整體結(jié)構(gòu)
4.1 駕駛模型
4.2 環(huán)境狀態(tài)定義
4.3 駕駛動作定義
4.4 環(huán)境Reward定義
4.5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
4.6 訓(xùn)練策略與訓(xùn)練細(xì)節(jié)
4.6.1 訓(xùn)練算法
4.6.2 單Agent與多Agent
4.6.3 場景重置
4.6.4 動作控制
4.6.5 訓(xùn)練優(yōu)化
4.7 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗?zāi)繕?biāo)
5.2 場景準(zhǔn)備
5.2.1 對手車輛定義
5.2.2 場景設(shè)計
5.3 獎勵函數(shù)與量化指標(biāo)
5.4 訓(xùn)練準(zhǔn)備
5.5 實驗設(shè)計
5.6 實驗結(jié)果與分析
5.6.1 不同的輸入空間和網(wǎng)絡(luò)模型
5.6.2 算法的有效性
5.6.3 算法改進(jìn)策略
5.7 與傳統(tǒng)駕駛策略的對比
5.8 實驗結(jié)論
5.9 本章小結(jié)
第6章 總結(jié)展望
6.1 工作總結(jié)
6.2 對無人駕駛的建議
6.3 工作展望
參考文獻(xiàn)
附錄A
致謝
本文編號:3182387
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:85 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 課題背景
1.2 國內(nèi)外的研究現(xiàn)狀
1.2.1 傳統(tǒng)駕駛模型
1.2.2 深度強(qiáng)化學(xué)習(xí)
1.2.3 無人駕駛與深度學(xué)習(xí)的結(jié)合
1.3 研究目的
1.4 論文工作
1.5 文章結(jié)構(gòu)
1.6 本章小結(jié)
第2章 理論基礎(chǔ)
2.1 神經(jīng)網(wǎng)絡(luò)
2.1.1 卷積神經(jīng)網(wǎng)絡(luò)
2.1.2 遞歸神經(jīng)網(wǎng)絡(luò)
2.2 深度強(qiáng)化學(xué)習(xí)
2.2.1 強(qiáng)化學(xué)習(xí)
2.2.2 基于Q學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)
2.2.3 基于策略梯度的深度強(qiáng)化學(xué)習(xí)
2.2.4 異步的優(yōu)勢觀察者-行為者算法
2.2.5 深度強(qiáng)化學(xué)習(xí)中的策略優(yōu)化算法
2.3 相關(guān)開源項目
2.3.1 SUMO
2.3.2 Ray
2.4 本章小結(jié)
第3章 基于交通仿真系統(tǒng)的強(qiáng)化學(xué)習(xí)環(huán)境
3.1 設(shè)計目標(biāo)
3.2 設(shè)計方案
3.2.1 整體結(jié)構(gòu)
3.2.2 交通場景生成
3.2.3 交通車輛生成
3.2.4 環(huán)境類
3.3 實現(xiàn)方式
3.4 本章小結(jié)
第4章 駕駛策略學(xué)習(xí)的整體結(jié)構(gòu)
4.1 駕駛模型
4.2 環(huán)境狀態(tài)定義
4.3 駕駛動作定義
4.4 環(huán)境Reward定義
4.5 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
4.6 訓(xùn)練策略與訓(xùn)練細(xì)節(jié)
4.6.1 訓(xùn)練算法
4.6.2 單Agent與多Agent
4.6.3 場景重置
4.6.4 動作控制
4.6.5 訓(xùn)練優(yōu)化
4.7 本章小結(jié)
第5章 實驗結(jié)果與分析
5.1 實驗?zāi)繕?biāo)
5.2 場景準(zhǔn)備
5.2.1 對手車輛定義
5.2.2 場景設(shè)計
5.3 獎勵函數(shù)與量化指標(biāo)
5.4 訓(xùn)練準(zhǔn)備
5.5 實驗設(shè)計
5.6 實驗結(jié)果與分析
5.6.1 不同的輸入空間和網(wǎng)絡(luò)模型
5.6.2 算法的有效性
5.6.3 算法改進(jìn)策略
5.7 與傳統(tǒng)駕駛策略的對比
5.8 實驗結(jié)論
5.9 本章小結(jié)
第6章 總結(jié)展望
6.1 工作總結(jié)
6.2 對無人駕駛的建議
6.3 工作展望
參考文獻(xiàn)
附錄A
致謝
本文編號:3182387
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3182387.html
最近更新
教材專著