基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃研究

發(fā)布時間：2017-05-08 11:16

本文關(guān)鍵詞：基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃研究，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著移動機器人技術(shù)的飛速發(fā)展,應(yīng)用于未知環(huán)境下的移動機器人路徑規(guī)劃技術(shù)得到了越來越多專家的關(guān)注與研究。強化學(xué)習(xí)是一種重要的機器學(xué)習(xí)方法,通過不斷試錯與環(huán)境交互尋找最優(yōu)策略。針對未知環(huán)境下的移動機器人路徑規(guī)劃問題,研究基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃。首先,針對強化學(xué)習(xí)機器人面臨的探索與利用間的權(quán)衡問題,設(shè)計一種基于近似動作空間模型策略選擇的Q-學(xué)習(xí)算法。該方法根據(jù)機器人運動過程中周圍的環(huán)境信息,降低機器人真實動作空間模型的復(fù)雜程度,提高計算效率。與傳統(tǒng)的動作選擇策略相比,基于近似動作模型的策略選擇方法能夠得到一條更加優(yōu)化的路徑,且提高了機器人路徑規(guī)劃的成功率。然后,針對復(fù)雜動態(tài)環(huán)境下的機器人路徑規(guī)劃問題,采用分層強化學(xué)習(xí)的方法,將路徑規(guī)劃系統(tǒng)從上至下分為根任務(wù)協(xié)作層、子任務(wù)選擇層和環(huán)境交互層三層結(jié)構(gòu),并將路徑規(guī)劃任務(wù)劃分為靜態(tài)障礙物避障、動態(tài)障礙物避障及趨向目標點運動三個基本子任務(wù),減小狀態(tài)空間以及系統(tǒng)學(xué)習(xí)的難度。最后,搭建移動機器人系統(tǒng)的軟硬件平臺,在Ubuntu操作系統(tǒng)和ROS(Robot Operating System,機器人操作系統(tǒng))軟件框架下,實現(xiàn)數(shù)據(jù)通信,并設(shè)計Pioneer3-AT移動機器人的三維仿真模型和三維仿真環(huán)境,實現(xiàn)基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃的三維仿真實驗,然后結(jié)合Pioneer3-AT移動機器人進行實物實驗。實驗結(jié)果證明移動機器人在未知環(huán)境下通過自主學(xué)習(xí)能夠自主運動到達目標點。
【關(guān)鍵詞】：移動機器人 路徑規(guī)劃 強化學(xué)習(xí) 近似動作模型 ROS
【學(xué)位授予單位】：西南交通大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2016
【分類號】：TP242
【目錄】：

摘要6-7
Abstract7-10
第1章緒論10-15
1.1 課題背景與意義10-11
1.2 移動機器人路徑技術(shù)研究現(xiàn)狀11-12
1.3 強化學(xué)習(xí)方法研究現(xiàn)狀12-13
1.4 課題的主要工作與內(nèi)容安排13-15
第2章強化學(xué)習(xí)理論及算法15-25
2.1 強化學(xué)習(xí)原理15-21
2.1.1 馬爾可夫決策過程15-16
2.1.2 強化學(xué)習(xí)模型與基本要素16-18
2.1.3 強化學(xué)習(xí)的基本算法18-21
2.2 分層強化學(xué)習(xí)基本原理21-24
2.2.1 半馬爾可夫決策過程21-22
2.2.2 分層強化學(xué)習(xí)的最優(yōu)策略22
2.2.3 分層強化學(xué)習(xí)基本算法22-24
2.3 本章小結(jié)24-25
第3章基于近似動作空間模型的Q-學(xué)習(xí)算法25-36
3.1 動作選擇策略的主要方法25-27
3.1.1 ε-greedy策略25
3.1.2 Boltzmann分布策略25-26
3.1.3 模擬退火策略26-27
3.2 基于近似動作模型策略選擇的Q-學(xué)習(xí)算法27-28
3.3 仿真實驗設(shè)計28-30
3.3.1 環(huán)境模型28-29
3.3.2 動作空間的表示29-30
3.3.3 獎賞函數(shù)的設(shè)計30
3.3.4 動作選擇策略30
3.4 仿真結(jié)果與分析30-35
3.5 本章小結(jié)35-36
第4章基于分層強化學(xué)習(xí)的移動機器人路徑規(guī)劃36-46
4.1 分層強化學(xué)習(xí)結(jié)構(gòu)設(shè)計36-37
4.2 移動機器人運動學(xué)模型37-38
4.3 環(huán)境信息的獲取38-40
4.4 靜態(tài)避障模塊設(shè)計40-41
4.4.1 輸入和輸出狀態(tài)空間設(shè)計40-41
4.4.2 獎賞函數(shù)的設(shè)計41
4.4.3 動作選擇策略41
4.5 動態(tài)避障模塊設(shè)計41-43
4.5.1 輸入和輸出狀態(tài)空間設(shè)計41-42
4.5.2 獎賞函數(shù)的設(shè)計42-43
4.6 仿真實驗及結(jié)果分析43-45
4.7 本章小結(jié)45-46
第5章移動機器人系統(tǒng)設(shè)計及路徑規(guī)劃實驗46-58
5.1 機器人硬件平臺46-47
5.1.1 Pioneer3-AT機器人46
5.1.2 激光掃描測距儀46-47
5.2 機器人軟件框架ROS47-49
5.2.1 ROS系統(tǒng)簡介47-48
5.2.2 ROS系統(tǒng)結(jié)構(gòu)48-49
5.3 基于ROS與Gazebo的機器人仿真49-52
5.3.1 Gazebo簡介49-50
5.3.2 機器人仿真模型設(shè)計50-52
5.4 實驗結(jié)果與分析52-57
5.4.1 三維仿真實驗52-55
5.4.2 實物實驗55-57
5.5 本章小結(jié)57-58
總結(jié)與展望58-59
致謝59-60
參考文獻60-64
攻讀碩士學(xué)位期間的論文及科研情況64

【參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 劉金國;張學(xué)賓;曲艷麗;;歐盟“SPARC”機器人研發(fā)計劃解析[J];機器人技術(shù)與應(yīng)用;2015年02期

2 馬磊;張文旭;戴朝華;;多機器人系統(tǒng)強化學(xué)習(xí)研究綜述[J];西南交通大學(xué)學(xué)報;2014年06期

3 朱大奇;顏明重;;移動機器人路徑規(guī)劃技術(shù)綜述[J];控制與決策;2010年07期

4 原魁;李園;房立新;;多移動機器人系統(tǒng)研究發(fā)展近況[J];自動化學(xué)報;2007年08期

5 譚冠政;賀歡;Aaron Sloman;;Global optimal path planning for mobile robot based onimproved Dijkstra algorithm and ant system algorithm[J];Journal of Central South University of Technology(English Edition);2006年01期

6 陳春林;陳宗海;卓睿;周光明;;基于分層式強化學(xué)習(xí)的移動機器人導(dǎo)航控制[J];南京航空航天大學(xué)學(xué)報;2006年01期

7 沈晶;顧國昌;劉海波;;分層強化學(xué)習(xí)中的Option自動生成算法[J];計算機工程與應(yīng)用;2005年34期

8 王學(xué)寧,賀漢根,徐昕;求解部分可觀測馬氏決策過程的強化學(xué)習(xí)算法[J];控制與決策;2004年11期

9 高陽,陳世福,陸鑫;強化學(xué)習(xí)研究綜述[J];自動化學(xué)報;2004年01期

10 李磊,葉濤,譚民,陳細軍;移動機器人技術(shù)研究現(xiàn)狀與未來[J];機器人;2002年05期

中國博士學(xué)位論文全文數(shù)據(jù)庫前1條

1 鄭宇;分層強化學(xué)習(xí)算法及其應(yīng)用研究[D];北京交通大學(xué);2009年

本文關(guān)鍵詞：基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃研究，由筆耕文化傳播整理發(fā)布。

本文編號：351033

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/351033.html

上一篇：卷積神經(jīng)網(wǎng)絡(luò)在車標識別技術(shù)中的研究及其小樣本下的處理策略
下一篇：基于改進蟻群算法的多機器人任務(wù)分配

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強化學(xué)習(xí)的移動機器人路徑規(guī)劃研究