基于強(qiáng)化學(xué)習(xí)的RoboCup 2D高層搶球策略研究

發(fā)布時(shí)間：2017-05-25 01:08

本文關(guān)鍵詞：基于強(qiáng)化學(xué)習(xí)的RoboCup 2D高層搶球策略研究，由筆耕文化傳播整理發(fā)布。

【摘要】：RoboCup,機(jī)器人足球世界杯,是一個(gè)國際性的綜合賽事,其中的2D項(xiàng)目提出了一個(gè)復(fù)雜的實(shí)時(shí)多主體環(huán)境下的智能體決策問題。當(dāng)前人工智能正處在由“單主體靜態(tài)可預(yù)測環(huán)境中的問題求解”向“多主體動(dòng)態(tài)不可預(yù)測環(huán)境中的問題求解”過渡的階段,RoboCup2D問題中的智能決策研究代表人工智能的最新理論方向,同時(shí)RoboCup2D問題的解決可以助力當(dāng)前信息時(shí)代的深入發(fā)展和革新。 RoboCup2D問題的重點(diǎn)是高層決策,目前處理高層決策問題的方法有手工策略和各種人工智能的方法。傳統(tǒng)的高層決策采用手工策略,手工策略具有很大的主觀性,相關(guān)參數(shù)的選取多根據(jù)經(jīng)驗(yàn),不能保證很優(yōu)化；同時(shí)手工策略無法考慮所有的比賽情形,對(duì)比賽情形動(dòng)態(tài)變化的適應(yīng)能力差,從而導(dǎo)致球員達(dá)成目標(biāo)的效率底下�；谌斯ぶ悄艿姆椒▌t包括強(qiáng)化學(xué)習(xí)、決策樹學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)等,它們由于具有學(xué)習(xí)能力,優(yōu)于簡單的手工策略。在強(qiáng)化學(xué)習(xí)過程中,智能體通過不斷進(jìn)行動(dòng)作嘗試并觀察動(dòng)作的回報(bào),逐漸學(xué)會(huì)在各種情形下選擇對(duì)其有利的動(dòng)作,以使自身在與環(huán)境交互過程中獲得高的累積回報(bào)值。強(qiáng)化學(xué)習(xí)的環(huán)境交互特點(diǎn)和RoboCup2D的客戶-服務(wù)器交互模式一致；強(qiáng)化學(xué)習(xí)的連續(xù)決策特點(diǎn)和RoboCup2D的周期性決策特點(diǎn)也十分一致；并且強(qiáng)化學(xué)習(xí)模型對(duì)動(dòng)態(tài)不確定環(huán)境的適應(yīng)能力,使得強(qiáng)化學(xué)習(xí)方法十分適于解決RoboCup2D的高層決策問題,所以本文基于強(qiáng)化學(xué)習(xí)方法進(jìn)行RoboCup2D問題研究。 Keepaway,即小規(guī)�？厍驌屒蛴�(xùn)練問題,是RoboCup2D中的典型子問題。目前有人使用強(qiáng)化學(xué)習(xí)的方法對(duì)Keepaway的高層控球策略進(jìn)行研究,優(yōu)化了控球球隊(duì)中持球球員的高層動(dòng)作決策。然而目將強(qiáng)化學(xué)習(xí)應(yīng)用于Keepaway問題中搶球球員的動(dòng)作決策尚無文獻(xiàn)研究。在Keepaway中,搶球任務(wù)和控球任務(wù)的任務(wù)目標(biāo)相反,任務(wù)特點(diǎn)也有所不同,因而球隊(duì)策略也存在區(qū)別�？厍虻奶攸c(diǎn)是要求無球球員進(jìn)行合理的無球跑動(dòng),同時(shí)持球球員選擇合理的傳球路線；搶球的特點(diǎn)是則要求搶球球員分工對(duì)控球球員進(jìn)行壓迫和逼搶�？厍蛉蝿�(wù)對(duì)無球球員的跑動(dòng)要求相對(duì)較低,研究重點(diǎn)是持球球員的傳球決策；而對(duì)于搶球,離球最近的搶球球員的決策比較固定(他必須上前逼搶持球球員,否則球隊(duì)很難搶下球),剩下的負(fù)責(zé)攔截傳球路線的搶球球員的決策則具有研究價(jià)值。本文針對(duì)Keepaway中搶球任務(wù)的上述特點(diǎn),研究將強(qiáng)化學(xué)習(xí)應(yīng)用于搶球球員高層動(dòng)作決策的問題,主要做了以下工作： (1)針對(duì)傳統(tǒng)手工策略效率低的問題,通過對(duì)Keepaway中搶球任務(wù)特點(diǎn)的分析,合理設(shè)計(jì)了搶球球員強(qiáng)化學(xué)習(xí)模型的狀態(tài)空間、動(dòng)作空間及回報(bào)值,并給出了搶球球員的強(qiáng)化學(xué)習(xí)算法,使球員的決策隨著訓(xùn)練的進(jìn)行得到優(yōu)化,搶球任務(wù)完成時(shí)間縮短,搶斷成功率提高。 (2)針對(duì)較大規(guī)模Keepaway任務(wù)進(jìn)行普通強(qiáng)化學(xué)習(xí)耗時(shí)太長的問題,利用策略遷移技術(shù),通過合理設(shè)計(jì)從較小規(guī)模到較大規(guī)模Keepaway搶球任務(wù)的遷移學(xué)習(xí)方案,以及定義兩個(gè)規(guī)模的任務(wù)間狀態(tài)及動(dòng)作空間映射,并給出搶球球員的遷移學(xué)習(xí)算法,使搶球球員在較大規(guī)模Keepaway訓(xùn)練中重用在較小規(guī)模Keepaway中通過普通強(qiáng)化學(xué)習(xí)得到的高層策略,實(shí)現(xiàn)遷移學(xué)習(xí)。實(shí)驗(yàn)表明遷移學(xué)習(xí)在訓(xùn)練開始時(shí)就表現(xiàn)出較高的決策效率,并且比從零開始的普通強(qiáng)化學(xué)習(xí)更快地收斂到理想的策略水平,大大縮短了訓(xùn)練時(shí)間。本文的研究成果表明強(qiáng)化學(xué)習(xí)方法在Keepaway高層搶球決策中的有效性。傳統(tǒng)意義上,強(qiáng)化學(xué)習(xí)一般只應(yīng)用于底層動(dòng)作決策。本研究則證明了通過合理的高層回報(bào)值模型設(shè)計(jì),強(qiáng)化學(xué)習(xí)也可以用來解決高層動(dòng)作決策問題,體現(xiàn)了強(qiáng)化學(xué)習(xí)更廣泛的應(yīng)用能力。
【關(guān)鍵詞】：機(jī)器人足球 Keepaway 強(qiáng)化學(xué)習(xí) 搶球策略 策略重用 遷移學(xué)習(xí)
【學(xué)位授予單位】：安徽大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2014
【分類號(hào)】：TP242
【目錄】：

摘要3-5
Abstract5-9
第一章緒論9-13
1.1 研究背景及選題意義9-10
1.2 國內(nèi)外研究現(xiàn)狀10-11
1.3 本論文的主要內(nèi)容11-13
第二章 ROBOCUP 2D平臺(tái)13-21
2.1 ROBOCUP比賽13
2.2 ROBOCUP 2D平臺(tái)架構(gòu)13-16
2.3 ROBOCUP 2D問題模型16-17
2.4 ROBOCUP 2D問題特點(diǎn)17-18
2.5 ROBOCUP 2D子問題18-20
2.6 本章小結(jié)20-21
第三章強(qiáng)化學(xué)習(xí)21-34
3.1 強(qiáng)化學(xué)習(xí)概述21-22
3.2 強(qiáng)化學(xué)習(xí)問題22-24
3.3 MDP模型求解強(qiáng)化學(xué)習(xí)問題24-27
3.4 強(qiáng)化學(xué)習(xí)算法27-33
3.5 本章小結(jié)33-34
第四章高層搶球策略的強(qiáng)化學(xué)習(xí)34-43
4.1 問題描述34
4.2 KEEPAWAY的高層動(dòng)作和總體策略34-36
4.3 KEEPAWAY中高層搶球策略的強(qiáng)化學(xué)習(xí)36-39
4.4 實(shí)驗(yàn)分析39-42
4.5 本章小結(jié)42-43
第五章高層搶球策略的任務(wù)間遷移學(xué)習(xí)43-51
5.1 問題描述43
5.2 遷移學(xué)習(xí)和策略重用43-46
5.3 KEEPAWAY中高層搶球策略的任務(wù)間遷移學(xué)習(xí)46-48
5.4 實(shí)驗(yàn)分析48-50
5.5 本章小結(jié)50-51
第六章總結(jié)和展望51-53
6.1 全文工作總結(jié)51-52
6.2 未來展望52-53
參考文獻(xiàn)53-57
致謝57-58
攻讀碩士學(xué)位期間的學(xué)術(shù)論文、科研項(xiàng)目與相關(guān)獎(jiǎng)項(xiàng)58

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 郝曉云;;多智能主體系統(tǒng)的社會(huì)規(guī)范[J];重慶工學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版);2009年06期

2 劉春陽;譚應(yīng)清;柳長安;馬瑩巍;;多智能體強(qiáng)化學(xué)習(xí)在足球機(jī)器人中的研究與應(yīng)用[J];電子學(xué)報(bào);2010年08期

3 殷鋒社;;基于知識(shí)的Agent強(qiáng)化學(xué)習(xí)算法分析與研究[J];電子設(shè)計(jì)工程;2011年11期

4 程顯毅;朱倩;;一種改進(jìn)的強(qiáng)化學(xué)習(xí)方法在RoboCup中應(yīng)用研究[J];廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期

5 連曉峰;張_";劉載文;蘇維鈞;;RoboCup中型組機(jī)器人足球相關(guān)技術(shù)研究[J];機(jī)器人技術(shù)與應(yīng)用;2009年03期

6 李實(shí),徐旭明,葉榛,孫增圻;國際機(jī)器人足球比賽及其相關(guān)技術(shù)[J];機(jī)器人;2000年05期

7 何澤宇,付莊,曹其新,陳衛(wèi)東;具有輸入飽和特性的中型足球機(jī)器人運(yùn)動(dòng)控制研究[J];計(jì)算機(jī)工程與應(yīng)用;2003年18期

8 毛俊杰;劉國棟;;基于先驗(yàn)知識(shí)的改進(jìn)強(qiáng)化學(xué)習(xí)及其在MAS中應(yīng)用[J];計(jì)算機(jī)工程與應(yīng)用;2008年24期

9 陳學(xué)松;楊宜民;;強(qiáng)化學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2010年08期

10 張汝波,顧國昌,劉照德,王醒策;強(qiáng)化學(xué)習(xí)理論、算法及應(yīng)用[J];控制理論與應(yīng)用;2000年05期

中國博士學(xué)位論文全文數(shù)據(jù)庫前2條

1 覃姜維;遷移學(xué)習(xí)方法研究及其在跨領(lǐng)域數(shù)據(jù)分類中的應(yīng)用[D];華南理工大學(xué);2011年

2 范長杰;基于馬爾可夫決策理論的規(guī)劃問題的研究[D];中國科學(xué)技術(shù)大學(xué);2008年

本文關(guān)鍵詞：基于強(qiáng)化學(xué)習(xí)的RoboCup 2D高層搶球策略研究，，由筆耕文化傳播整理發(fā)布。

本文編號(hào)：392390

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/rengongzhinen/392390.html

上一篇：基于粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)的衛(wèi)星故障預(yù)測方法
下一篇：壓電陶瓷驅(qū)動(dòng)器的滑模神經(jīng)網(wǎng)絡(luò)控制

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的RoboCup 2D高層搶球策略研究