基于強(qiáng)化Q學(xué)習(xí)和BP神經(jīng)網(wǎng)絡(luò)的移動(dòng)機(jī)器人局部路徑規(guī)劃行為研究
發(fā)布時(shí)間:2021-10-27 20:10
移動(dòng)機(jī)器人導(dǎo)航技術(shù)是當(dāng)今人工智能領(lǐng)域的研究熱點(diǎn),包括建立地圖、定位、路徑規(guī)劃等。為了賦予智能移動(dòng)機(jī)器人自主學(xué)習(xí)的能力,實(shí)現(xiàn)和增強(qiáng)移動(dòng)機(jī)器人局部路徑規(guī)劃功能,需要結(jié)合具有學(xué)習(xí)能力的機(jī)器學(xué)習(xí)方法進(jìn)行移動(dòng)機(jī)器人的局部路徑規(guī)劃行為研究。本文基于強(qiáng)化Q學(xué)習(xí)算法和BP神經(jīng)網(wǎng)絡(luò)模型,研究移動(dòng)機(jī)器人局部路徑規(guī)劃行為。根據(jù)路徑規(guī)劃行為的任務(wù)要求,設(shè)計(jì)學(xué)習(xí)策略和控制規(guī)則,針對(duì)環(huán)境感知信息,提出了相應(yīng)的控制策略,并進(jìn)行了仿真驗(yàn)證。主要研究?jī)?nèi)容包括:基于柵格地圖環(huán)境,提出了基于CM-Q學(xué)習(xí)的移動(dòng)機(jī)器人局部路徑規(guī)劃算法。該算法首先根據(jù)強(qiáng)化Q學(xué)習(xí)算法和柵格地圖,設(shè)計(jì)了移動(dòng)機(jī)器人狀態(tài)和動(dòng)作,建立了Q矩陣;其次設(shè)計(jì)了一種坐標(biāo)匹配(CM)的避障控制規(guī)則,以提高移動(dòng)機(jī)器人避障效率;然后針對(duì)動(dòng)作執(zhí)行的評(píng)估問(wèn)題,設(shè)計(jì)了回報(bào)函數(shù);最后對(duì)CM-Q局部路徑規(guī)劃算法的有效性進(jìn)行實(shí)驗(yàn)驗(yàn)證。對(duì)于規(guī)劃路徑中可能出現(xiàn)的冗余問(wèn)題,通過(guò)增加學(xué)習(xí)次數(shù)和調(diào)整學(xué)習(xí)率等措施消除,使移動(dòng)機(jī)器人在離散和連續(xù)障礙物環(huán)境中移動(dòng)時(shí)不再出現(xiàn)冗余現(xiàn)象,運(yùn)行效果良好;谧杂煽臻g的地圖環(huán)境和BP神經(jīng)網(wǎng)絡(luò)的泛化能力,提出了基于BPNN-Q學(xué)習(xí)的移動(dòng)機(jī)器人局部路徑規(guī)劃算法...
【文章來(lái)源】:山東理工大學(xué)山東省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃研究現(xiàn)狀
1.2.2 基于神經(jīng)網(wǎng)絡(luò)的路徑規(guī)劃研究現(xiàn)狀
1.3 論文主要研究?jī)?nèi)容及創(chuàng)新點(diǎn)
1.3.1 論文主要研究?jī)?nèi)容
1.3.2 論文主要?jiǎng)?chuàng)新點(diǎn)
1.4 論文組織結(jié)構(gòu)
第二章 強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)理論背景知識(shí)
2.1 強(qiáng)化學(xué)習(xí)理論概述
2.1.1 馬爾科夫決策過(guò)程
2.1.2 狀態(tài)值函數(shù)與動(dòng)作值函數(shù)
2.1.3 探索與利用
2.2 基于模型的強(qiáng)化學(xué)習(xí)方法
2.2.1 策略迭代
2.2.2 值迭代
2.3 基于無(wú)模型的強(qiáng)化學(xué)習(xí)方法
2.3.1 蒙特卡羅方法
2.3.2 時(shí)間差分方法
2.4 神經(jīng)網(wǎng)絡(luò)理論概述
2.4.1 神經(jīng)網(wǎng)絡(luò)基本組成
2.4.2 誤差逆?zhèn)鞑ニ惴?br> 2.5 本章小結(jié)
第三章 基于CM-Q學(xué)習(xí)的局部路徑規(guī)劃
3.1 CM算法
3.2 基于CM-Q學(xué)習(xí)的路徑規(guī)劃
3.2.1 柵格地圖的建立
3.2.2 狀態(tài)和動(dòng)作設(shè)計(jì)
3.2.3 Q矩陣建立
3.2.4 回報(bào)函數(shù)設(shè)計(jì)
3.2.5 CM避障設(shè)計(jì)
3.2.6 基于柵格地圖的CM-Q算法
3.3 基于CM-Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃仿真實(shí)驗(yàn)
3.3.1 CM-Q算法有效性驗(yàn)證
3.3.2 路徑規(guī)劃冗余問(wèn)題處理
3.4 本章小結(jié)
第四章 基于BPNN-Q學(xué)習(xí)的局部路徑規(guī)劃研究
4.1 基于BPNN-Q學(xué)習(xí)的路徑規(guī)劃算法
4.1.1 環(huán)境和狀態(tài)空間描述
4.1.2 動(dòng)作空間描述及動(dòng)作選擇策略
4.1.3 三次震蕩后退避障規(guī)則建立
4.1.4 回報(bào)函數(shù)設(shè)計(jì)
4.1.5 基于BPNN的Q值函數(shù)預(yù)測(cè)模型設(shè)計(jì)
4.1.6 確定收斂條件
4.1.7 基于BPNN-Q學(xué)習(xí)的局部路徑規(guī)劃算法描述及流程
4.2 仿真實(shí)驗(yàn)與結(jié)果分析
4.2.1 仿真實(shí)驗(yàn)環(huán)境設(shè)計(jì)
4.2.2 仿真實(shí)驗(yàn)過(guò)程及結(jié)果分析
4.3 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
在讀期間取得的科研成果
致謝
本文編號(hào):3462249
【文章來(lái)源】:山東理工大學(xué)山東省
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃研究現(xiàn)狀
1.2.2 基于神經(jīng)網(wǎng)絡(luò)的路徑規(guī)劃研究現(xiàn)狀
1.3 論文主要研究?jī)?nèi)容及創(chuàng)新點(diǎn)
1.3.1 論文主要研究?jī)?nèi)容
1.3.2 論文主要?jiǎng)?chuàng)新點(diǎn)
1.4 論文組織結(jié)構(gòu)
第二章 強(qiáng)化學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)理論背景知識(shí)
2.1 強(qiáng)化學(xué)習(xí)理論概述
2.1.1 馬爾科夫決策過(guò)程
2.1.2 狀態(tài)值函數(shù)與動(dòng)作值函數(shù)
2.1.3 探索與利用
2.2 基于模型的強(qiáng)化學(xué)習(xí)方法
2.2.1 策略迭代
2.2.2 值迭代
2.3 基于無(wú)模型的強(qiáng)化學(xué)習(xí)方法
2.3.1 蒙特卡羅方法
2.3.2 時(shí)間差分方法
2.4 神經(jīng)網(wǎng)絡(luò)理論概述
2.4.1 神經(jīng)網(wǎng)絡(luò)基本組成
2.4.2 誤差逆?zhèn)鞑ニ惴?br> 2.5 本章小結(jié)
第三章 基于CM-Q學(xué)習(xí)的局部路徑規(guī)劃
3.1 CM算法
3.2 基于CM-Q學(xué)習(xí)的路徑規(guī)劃
3.2.1 柵格地圖的建立
3.2.2 狀態(tài)和動(dòng)作設(shè)計(jì)
3.2.3 Q矩陣建立
3.2.4 回報(bào)函數(shù)設(shè)計(jì)
3.2.5 CM避障設(shè)計(jì)
3.2.6 基于柵格地圖的CM-Q算法
3.3 基于CM-Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃仿真實(shí)驗(yàn)
3.3.1 CM-Q算法有效性驗(yàn)證
3.3.2 路徑規(guī)劃冗余問(wèn)題處理
3.4 本章小結(jié)
第四章 基于BPNN-Q學(xué)習(xí)的局部路徑規(guī)劃研究
4.1 基于BPNN-Q學(xué)習(xí)的路徑規(guī)劃算法
4.1.1 環(huán)境和狀態(tài)空間描述
4.1.2 動(dòng)作空間描述及動(dòng)作選擇策略
4.1.3 三次震蕩后退避障規(guī)則建立
4.1.4 回報(bào)函數(shù)設(shè)計(jì)
4.1.5 基于BPNN的Q值函數(shù)預(yù)測(cè)模型設(shè)計(jì)
4.1.6 確定收斂條件
4.1.7 基于BPNN-Q學(xué)習(xí)的局部路徑規(guī)劃算法描述及流程
4.2 仿真實(shí)驗(yàn)與結(jié)果分析
4.2.1 仿真實(shí)驗(yàn)環(huán)境設(shè)計(jì)
4.2.2 仿真實(shí)驗(yàn)過(guò)程及結(jié)果分析
4.3 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
在讀期間取得的科研成果
致謝
本文編號(hào):3462249
本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3462249.html
最近更新
教材專著