當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于強(qiáng)化學(xué)習(xí)的多無(wú)人車(chē)智能決策方法研究

發(fā)布時(shí)間：2024-03-14 03:58

　　近年來(lái),以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為代表的深度學(xué)習(xí)算法在目標(biāo)識(shí)別和檢測(cè)等多種任務(wù)中表現(xiàn)出顯著的性能,成為許多研究問(wèn)題的解決方案。然而,復(fù)雜任務(wù)的學(xué)習(xí)能力對(duì)人工智能的發(fā)展至關(guān)重要,一般來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)難以做到這一點(diǎn),人們普遍認(rèn)為災(zāi)難性遺忘是連接主義模型的一個(gè)不可避免的特征,目前基于深度神經(jīng)網(wǎng)絡(luò)的人工智能系統(tǒng)是為學(xué)習(xí)狹小范圍任務(wù)而設(shè)計(jì)的,這樣訓(xùn)練的智能體是不具有持續(xù)學(xué)習(xí)能力的,實(shí)現(xiàn)通用人工智能的關(guān)鍵步驟是獲得連續(xù)學(xué)習(xí)的能力,也就是說(shuō),一個(gè)智能體(agent)必須能在不遺忘舊任務(wù)的執(zhí)行方法的同時(shí)習(xí)得如何執(zhí)行新任務(wù)。為了訓(xùn)練可持續(xù)學(xué)習(xí)的智能體,亟待解決的問(wèn)題是解決災(zāi)難性遺忘問(wèn)題。無(wú)人車(chē)需要在各種復(fù)雜場(chǎng)景下行駛,并需要在不同場(chǎng)景中保證車(chē)輛的安全性。因此我們希望無(wú)人車(chē)能夠在各種場(chǎng)景下執(zhí)行任務(wù)時(shí)不斷的獲得新的技能,而不要忘記已經(jīng)訓(xùn)練掌握的技能。本文以多無(wú)人車(chē)為測(cè)試環(huán)境,通過(guò)添加記憶機(jī)制來(lái)解決災(zāi)難性遺忘問(wèn)題,防止車(chē)輛由于不同場(chǎng)景間知識(shí)遺忘所帶了的安全隱患。在這里我們給出了一種多車(chē)場(chǎng)景學(xué)習(xí)框架,允許無(wú)人車(chē)對(duì)不同場(chǎng)景進(jìn)行記憶。防止無(wú)人車(chē)在新場(chǎng)景學(xué)習(xí)過(guò)程中產(chǎn)生原有場(chǎng)景所學(xué)知識(shí)的遺忘,從而使無(wú)人車(chē)更好地學(xué)習(xí)新任務(wù)...

【文章頁(yè)數(shù)】：59 頁(yè)

【學(xué)位級(jí)別】：碩士

【文章目錄】：
摘要
Abstract
1 緒論
    1.1 研究背景
    1.2 研究目的與意義
    1.3 國(guó)內(nèi)外研究現(xiàn)狀
        1.3.1 強(qiáng)化學(xué)習(xí)現(xiàn)狀
        1.3.2 自動(dòng)駕駛
        1.3.3 無(wú)人車(chē)研究現(xiàn)狀
    1.4 論文的主要內(nèi)容與組織結(jié)構(gòu)
2 相關(guān)研究基礎(chǔ)
    2.1 強(qiáng)化學(xué)習(xí)
        2.1.1 強(qiáng)化學(xué)習(xí)主要內(nèi)容
        2.1.2 TD差分
        2.1.3 強(qiáng)化學(xué)習(xí)策略選擇
    2.2 自適應(yīng)共振網(wǎng)絡(luò)
        2.2.1 自適應(yīng)共振網(wǎng)絡(luò)ART1
        2.2.2 Fuzzy ART神經(jīng)網(wǎng)絡(luò)
        2.2.3 Fuzzy ART學(xué)習(xí)過(guò)程
    2.3 深度學(xué)習(xí)
        2.3.1 前饋網(wǎng)絡(luò)及反向傳播
        2.3.2 激活函數(shù)
    2.4 本章小結(jié)
3 基于經(jīng)驗(yàn)共享的多車(chē)加速學(xué)習(xí)
    3.1 Deep Q-Learning與經(jīng)驗(yàn)共享
        3.1.1 Deep Q-Learning
        3.1.2 共享經(jīng)驗(yàn)
    3.2 基于經(jīng)驗(yàn)共享的加速訓(xùn)練
    3.3 仿真環(huán)境
    3.4 仿真實(shí)驗(yàn)及結(jié)果
    3.5 本章小結(jié)
4 多車(chē)場(chǎng)景學(xué)習(xí)
    4.1 TD-FALCON框架
        4.1.1 FALCON框架
        4.1.2 TD-FALCON網(wǎng)絡(luò)學(xué)習(xí)過(guò)程
    4.2 多車(chē)場(chǎng)景模型
    4.3 仿真實(shí)驗(yàn)及結(jié)果
    4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
致謝

本文編號(hào)：3928029

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3928029.html

上一篇：基于深度學(xué)習(xí)的高血壓患者血壓預(yù)測(cè)模型研究
下一篇：深度學(xué)習(xí)在文章編輯中智能語(yǔ)義檢查算法的研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的多無(wú)人車(chē)智能決策方法研究