針對機器人運動規(guī)劃的深度強化學(xué)習(xí)方法的研究
發(fā)布時間:2023-03-11 17:08
機器人在工業(yè)制造和人們的生活中發(fā)揮著重要的作用,在全自動化工廠(fullyautomatic factory)和無人駕駛(the driverless car)等領(lǐng)域都離不開機器人和相關(guān)機器人技術(shù)的支持。近年來,機器人運動規(guī)劃已經(jīng)成為了機器人學(xué)、自動化控制和人工智能等領(lǐng)域的研究熱點之一。不過,機器人運動規(guī)劃大多是基于精確的環(huán)境模型,無法處理不確定條件下的運動規(guī)劃問題。該文針對不確定條件下機器人運動規(guī)劃問題,提出使用深度強化學(xué)習(xí)的方法進行研究。概述運動規(guī)劃相關(guān)知識,并分析傳統(tǒng)運動規(guī)劃方法所存在的問題;介紹強化學(xué)習(xí)和深度學(xué)習(xí),分析強化學(xué)習(xí)應(yīng)用在機器人運動規(guī)劃上所存在的問題,并提出將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合以解決傳統(tǒng)強化學(xué)習(xí)的高維度問題;分析深度強化學(xué)習(xí)方法應(yīng)用在機器人運動規(guī)劃上所存在的關(guān)鍵性問題,即獎勵值模型、探索策略和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并給出相應(yīng)的解決方法。該文主要內(nèi)容如下:1.對強化學(xué)習(xí)中的獎勵值模型進行研究。分析獎勵值模型的影響因素及存在的問題,為更快速的訓(xùn)練系統(tǒng),該文提出基于系統(tǒng)收斂速度的獎勵值模型,并開展不同獎勵值模型之間的對比實驗。2.對強化學(xué)習(xí)中探索與開發(fā)的平衡問題進行研究。分析...
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 機器人定義及發(fā)展
1.2 課題背景及意義
1.3 課題研究現(xiàn)狀
1.3.1 運動規(guī)劃的研究現(xiàn)狀
1.3.2 強化學(xué)習(xí)的研究現(xiàn)狀
1.4 論文的主要內(nèi)容
1.5 論文的組織結(jié)構(gòu)
第2章 課題相關(guān)理論基礎(chǔ)
2.1 運動規(guī)劃概述
2.1.1 構(gòu)型空間
2.1.2 自由空間
2.1.3 運動規(guī)劃定義
2.1.4 不確定條件下的運動規(guī)劃
2.1.5 約束準(zhǔn)則
2.2 強化學(xué)習(xí)概述
2.2.1 有限馬爾科夫決策過程
2.2.2 動態(tài)規(guī)劃
2.2.3 蒙特卡洛方法
2.2.4 時序差分學(xué)習(xí)
2.3 深度學(xué)習(xí)概述
2.3.1 人工神經(jīng)元
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)組成
2.4 本章小結(jié)
第3章 基于深度強化學(xué)習(xí)的機器人運動規(guī)劃研究
3.1 函數(shù)逼近
3.2 深度強化學(xué)習(xí)
3.3 訓(xùn)練樣本
3.4 獎勵值模型
3.5 探索策略
3.5.1 ?-greedy
3.5.2 N?-greedy
3.6 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分析與設(shè)計
3.7 基于深度強化學(xué)習(xí)的機器人運動規(guī)劃流程分析
3.8 本章小結(jié)
第4章 深度強化學(xué)習(xí)算法在機器人運動規(guī)劃中的應(yīng)用研究
4.1 網(wǎng)絡(luò)優(yōu)化算法
4.2 算法描述
4.3 實驗結(jié)果與分析
4.3.1 實驗環(huán)境
4.3.2 實驗仿真結(jié)果
4.3.3 獎勵模型實驗對比
4.3.4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實驗對比
4.3.5 探索策略實驗對比
4.4 本章小結(jié)
第5章 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號:3759911
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
注釋表
第1章 緒論
1.1 機器人定義及發(fā)展
1.2 課題背景及意義
1.3 課題研究現(xiàn)狀
1.3.1 運動規(guī)劃的研究現(xiàn)狀
1.3.2 強化學(xué)習(xí)的研究現(xiàn)狀
1.4 論文的主要內(nèi)容
1.5 論文的組織結(jié)構(gòu)
第2章 課題相關(guān)理論基礎(chǔ)
2.1 運動規(guī)劃概述
2.1.1 構(gòu)型空間
2.1.2 自由空間
2.1.3 運動規(guī)劃定義
2.1.4 不確定條件下的運動規(guī)劃
2.1.5 約束準(zhǔn)則
2.2 強化學(xué)習(xí)概述
2.2.1 有限馬爾科夫決策過程
2.2.2 動態(tài)規(guī)劃
2.2.3 蒙特卡洛方法
2.2.4 時序差分學(xué)習(xí)
2.3 深度學(xué)習(xí)概述
2.3.1 人工神經(jīng)元
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)組成
2.4 本章小結(jié)
第3章 基于深度強化學(xué)習(xí)的機器人運動規(guī)劃研究
3.1 函數(shù)逼近
3.2 深度強化學(xué)習(xí)
3.3 訓(xùn)練樣本
3.4 獎勵值模型
3.5 探索策略
3.5.1 ?-greedy
3.5.2 N?-greedy
3.6 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分析與設(shè)計
3.7 基于深度強化學(xué)習(xí)的機器人運動規(guī)劃流程分析
3.8 本章小結(jié)
第4章 深度強化學(xué)習(xí)算法在機器人運動規(guī)劃中的應(yīng)用研究
4.1 網(wǎng)絡(luò)優(yōu)化算法
4.2 算法描述
4.3 實驗結(jié)果與分析
4.3.1 實驗環(huán)境
4.3.2 實驗仿真結(jié)果
4.3.3 獎勵模型實驗對比
4.3.4 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實驗對比
4.3.5 探索策略實驗對比
4.4 本章小結(jié)
第5章 結(jié)論與展望
5.1 結(jié)論
5.2 展望
參考文獻
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果
本文編號:3759911
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3759911.html
最近更新
教材專著