天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類博士論文 >

深度強(qiáng)化學(xué)習(xí)算法及應(yīng)用研究

發(fā)布時間:2022-12-06 02:56
  目前機(jī)器人技術(shù)的研究已經(jīng)從傳統(tǒng)的機(jī)械動力學(xué)開始向智能化控制方向進(jìn)行轉(zhuǎn)變,特別是綜合吸收了控制理論、人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等領(lǐng)域的研究成果后,機(jī)器人技術(shù)已經(jīng)逐漸成為了人工智能領(lǐng)域的核心之一。如何賦予機(jī)器人自主學(xué)習(xí)的能力是機(jī)器人技術(shù)發(fā)展的關(guān)鍵之一,也是當(dāng)前機(jī)器人技術(shù)領(lǐng)域研究和關(guān)注的重點(diǎn),機(jī)器人只有具備了自主學(xué)習(xí)能力才能稱之為智能機(jī)器人。因此,如何設(shè)計更好的機(jī)器學(xué)習(xí)算法并用來提升機(jī)器人智能化水平具有重大與深遠(yuǎn)的意義。強(qiáng)化學(xué)習(xí)作為近年來機(jī)器學(xué)習(xí)領(lǐng)域中的重要算法之一,其最大的特點(diǎn)是可以在不給定標(biāo)簽訓(xùn)練數(shù)據(jù)的情況下,通過與環(huán)境的不斷交互自主的進(jìn)行學(xué)習(xí),是提高機(jī)器人智能化水平的核心技術(shù)之一,尤其是近年來強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合的深度強(qiáng)化學(xué)習(xí)展現(xiàn)了極強(qiáng)的學(xué)習(xí)能力。雖然當(dāng)前深度強(qiáng)化學(xué)習(xí)算法在機(jī)器人智能化提升方面得到了長足的發(fā)展,并且也獲得了許多成功,但是深度強(qiáng)化學(xué)習(xí)的研究仍然處于初級階段,在實(shí)際應(yīng)用中仍舊存在著一些問題和挑戰(zhàn),比如獎賞黑客問題、數(shù)據(jù)利用效率問題和運(yùn)動平滑性問題等。這些缺點(diǎn)直接影響了強(qiáng)化學(xué)習(xí)在現(xiàn)實(shí)環(huán)境中的性能表現(xiàn),甚至?xí)䦟χ悄荏w帶來一定的損害。因此,本文以這些問題和挑戰(zhàn)作為出發(fā)點(diǎn),對現(xiàn)有的強(qiáng)... 

【文章頁數(shù)】:117 頁

【學(xué)位級別】:博士

【文章目錄】:
摘要
Abstract
符號說明表
第一章 緒論
    1.1 研究背景和意義
    1.2 強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
        1.2.1 經(jīng)典強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
        1.2.2 深度強(qiáng)化學(xué)習(xí)方法研究現(xiàn)狀
        1.2.3 問題與挑戰(zhàn)
    1.3 本文主要工作
    1.4 論文組織結(jié)構(gòu)
    1.5 本章小結(jié)
第二章 強(qiáng)化學(xué)習(xí)的原理和常用算法概述
    2.1 引言
    2.2 強(qiáng)化學(xué)習(xí)的原理
        2.2.1 SARSA算法
        2.2.2 Q-learning算法
        2.2.3 確定性策略梯度算法
    2.3 深度強(qiáng)化學(xué)習(xí)原理
        2.3.1 深度Q網(wǎng)絡(luò)算法
        2.3.2 雙重深度Q網(wǎng)絡(luò)算法
        2.3.3 深度確定性策略梯度算法
    2.4 本章小結(jié)
第三章 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法設(shè)計
    3.1 引言
    3.2 基于在線策略的多步強(qiáng)化學(xué)習(xí)算法
        3.2.1 基于On-Policy的TD強(qiáng)化學(xué)習(xí)算法
        3.2.2 基于On-Policy的多步強(qiáng)化學(xué)習(xí)算法
    3.3 仿真實(shí)驗(yàn)及結(jié)果分析
        3.3.1 貓捉老鼠問題
        3.3.2 山地車爬坡問題
    3.4 討論
    3.5 本章小結(jié)
第四章 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法設(shè)計
    4.1 引言
    4.2 基于離線策略的多步深度強(qiáng)化學(xué)習(xí)算法
        4.2.1 基于Off-Policy的TD強(qiáng)化學(xué)習(xí)算法
        4.2.2 基于Off-Policy的多步強(qiáng)化學(xué)習(xí)算法
        4.2.3 多步深度強(qiáng)化學(xué)習(xí)算法
    4.3 仿真實(shí)驗(yàn)及結(jié)果分析
        4.3.1 仿真實(shí)驗(yàn)平臺設(shè)計
        4.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
        4.3.3 實(shí)驗(yàn)數(shù)據(jù)分析
        4.3.4 算法擴(kuò)展性分析
    4.4 討論
    4.5 本章小結(jié)
第五章 基于動態(tài)運(yùn)動基元的深度強(qiáng)化學(xué)習(xí)算法設(shè)計
    5.1 引言
    5.2 基于動態(tài)運(yùn)動基元的深度強(qiáng)化學(xué)習(xí)算法
        5.2.1 分層動態(tài)運(yùn)動基元框架結(jié)構(gòu)設(shè)計
        5.2.2 低級控制器學(xué)習(xí)層次結(jié)構(gòu)
        5.2.3 高級策略學(xué)習(xí)層次結(jié)構(gòu)
    5.3 仿真實(shí)驗(yàn)及結(jié)果分析
        5.3.1 仿真實(shí)驗(yàn)平臺設(shè)計
        5.3.2 仿真實(shí)驗(yàn)參數(shù)設(shè)置
        5.3.3 實(shí)驗(yàn)結(jié)果分析
    5.4 討論
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 論文工作總結(jié)
    6.2 未來工作展望
附錄1
附錄2
參考文獻(xiàn)
攻讀博士學(xué)位期間取得的研究成果
致謝
附件



本文編號:3710914

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/3710914.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b5370***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com