基于強(qiáng)化學(xué)習(xí)的多無(wú)人車(chē)智能決策方法研究
發(fā)布時(shí)間:2024-03-14 03:58
近年來(lái),以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)算法在目標(biāo)識(shí)別和檢測(cè)等多種任務(wù)中表現(xiàn)出顯著的性能,成為許多研究問(wèn)題的解決方案。然而,復(fù)雜任務(wù)的學(xué)習(xí)能力對(duì)人工智能的發(fā)展至關(guān)重要,一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)難以做到這一點(diǎn),人們普遍認(rèn)為災(zāi)難性遺忘是連接主義模型的一個(gè)不可避免的特征,目前基于深度神經(jīng)網(wǎng)絡(luò)的人工智能系統(tǒng)是為學(xué)習(xí)狹小范圍任務(wù)而設(shè)計(jì)的,這樣訓(xùn)練的智能體是不具有持續(xù)學(xué)習(xí)能力的,實(shí)現(xiàn)通用人工智能的關(guān)鍵步驟是獲得連續(xù)學(xué)習(xí)的能力,也就是說(shuō),一個(gè)智能體(agent)必須能在不遺忘舊任務(wù)的執(zhí)行方法的同時(shí)習(xí)得如何執(zhí)行新任務(wù)。為了訓(xùn)練可持續(xù)學(xué)習(xí)的智能體,亟待解決的問(wèn)題是解決災(zāi)難性遺忘問(wèn)題。無(wú)人車(chē)需要在各種復(fù)雜場(chǎng)景下行駛,并需要在不同場(chǎng)景中保證車(chē)輛的安全性。因此我們希望無(wú)人車(chē)能夠在各種場(chǎng)景下執(zhí)行任務(wù)時(shí)不斷的獲得新的技能,而不要忘記已經(jīng)訓(xùn)練掌握的技能。本文以多無(wú)人車(chē)為測(cè)試環(huán)境,通過(guò)添加記憶機(jī)制來(lái)解決災(zāi)難性遺忘問(wèn)題,防止車(chē)輛由于不同場(chǎng)景間知識(shí)遺忘所帶了的安全隱患。在這里我們給出了一種多車(chē)場(chǎng)景學(xué)習(xí)框架,允許無(wú)人車(chē)對(duì)不同場(chǎng)景進(jìn)行記憶。防止無(wú)人車(chē)在新場(chǎng)景學(xué)習(xí)過(guò)程中產(chǎn)生原有場(chǎng)景所學(xué)知識(shí)的遺忘,從而使無(wú)人車(chē)更好地學(xué)習(xí)新任務(wù)...
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 強(qiáng)化學(xué)習(xí)現(xiàn)狀
1.3.2 自動(dòng)駕駛
1.3.3 無(wú)人車(chē)研究現(xiàn)狀
1.4 論文的主要內(nèi)容與組織結(jié)構(gòu)
2 相關(guān)研究基礎(chǔ)
2.1 強(qiáng)化學(xué)習(xí)
2.1.1 強(qiáng)化學(xué)習(xí)主要內(nèi)容
2.1.2 TD差分
2.1.3 強(qiáng)化學(xué)習(xí)策略選擇
2.2 自適應(yīng)共振網(wǎng)絡(luò)
2.2.1 自適應(yīng)共振網(wǎng)絡(luò)ART1
2.2.2 Fuzzy ART神經(jīng)網(wǎng)絡(luò)
2.2.3 Fuzzy ART學(xué)習(xí)過(guò)程
2.3 深度學(xué)習(xí)
2.3.1 前饋網(wǎng)絡(luò)及反向傳播
2.3.2 激活函數(shù)
2.4 本章小結(jié)
3 基于經(jīng)驗(yàn)共享的多車(chē)加速學(xué)習(xí)
3.1 Deep Q-Learning與經(jīng)驗(yàn)共享
3.1.1 Deep Q-Learning
3.1.2 共享經(jīng)驗(yàn)
3.2 基于經(jīng)驗(yàn)共享的加速訓(xùn)練
3.3 仿真環(huán)境
3.4 仿真實(shí)驗(yàn)及結(jié)果
3.5 本章小結(jié)
4 多車(chē)場(chǎng)景學(xué)習(xí)
4.1 TD-FALCON框架
4.1.1 FALCON框架
4.1.2 TD-FALCON網(wǎng)絡(luò)學(xué)習(xí)過(guò)程
4.2 多車(chē)場(chǎng)景模型
4.3 仿真實(shí)驗(yàn)及結(jié)果
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3928029
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.3.1 強(qiáng)化學(xué)習(xí)現(xiàn)狀
1.3.2 自動(dòng)駕駛
1.3.3 無(wú)人車(chē)研究現(xiàn)狀
1.4 論文的主要內(nèi)容與組織結(jié)構(gòu)
2 相關(guān)研究基礎(chǔ)
2.1 強(qiáng)化學(xué)習(xí)
2.1.1 強(qiáng)化學(xué)習(xí)主要內(nèi)容
2.1.2 TD差分
2.1.3 強(qiáng)化學(xué)習(xí)策略選擇
2.2 自適應(yīng)共振網(wǎng)絡(luò)
2.2.1 自適應(yīng)共振網(wǎng)絡(luò)ART1
2.2.2 Fuzzy ART神經(jīng)網(wǎng)絡(luò)
2.2.3 Fuzzy ART學(xué)習(xí)過(guò)程
2.3 深度學(xué)習(xí)
2.3.1 前饋網(wǎng)絡(luò)及反向傳播
2.3.2 激活函數(shù)
2.4 本章小結(jié)
3 基于經(jīng)驗(yàn)共享的多車(chē)加速學(xué)習(xí)
3.1 Deep Q-Learning與經(jīng)驗(yàn)共享
3.1.1 Deep Q-Learning
3.1.2 共享經(jīng)驗(yàn)
3.2 基于經(jīng)驗(yàn)共享的加速訓(xùn)練
3.3 仿真環(huán)境
3.4 仿真實(shí)驗(yàn)及結(jié)果
3.5 本章小結(jié)
4 多車(chē)場(chǎng)景學(xué)習(xí)
4.1 TD-FALCON框架
4.1.1 FALCON框架
4.1.2 TD-FALCON網(wǎng)絡(luò)學(xué)習(xí)過(guò)程
4.2 多車(chē)場(chǎng)景模型
4.3 仿真實(shí)驗(yàn)及結(jié)果
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝
本文編號(hào):3928029
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3928029.html
最近更新
教材專(zhuān)著