多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究
發(fā)布時(shí)間:2017-04-27 14:04
本文關(guān)鍵詞:多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】: 強(qiáng)化學(xué)習(xí),因其不需要環(huán)境模型、通過(guò)Agent和所在環(huán)境的自主交互進(jìn)行學(xué)習(xí)的特點(diǎn),現(xiàn)已成為多Agent系統(tǒng)和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。多Agent系統(tǒng)常被應(yīng)用于開(kāi)放、復(fù)雜、動(dòng)態(tài)變化的環(huán)境,單個(gè)Agent的能力已不能勝任所面臨的任務(wù),尤其是具有相同目標(biāo)的系統(tǒng),Agent之間必須協(xié)同求解。同時(shí),Agent還必須具備學(xué)習(xí)能力以適應(yīng)環(huán)境的動(dòng)態(tài)變化。但傳統(tǒng)的單Agent學(xué)習(xí)原理并不適用于多Agent環(huán)境,因此亟待根據(jù)多Agent系統(tǒng)的協(xié)同性,提出新的學(xué)習(xí)方法。 Pursuit Game問(wèn)題常用于來(lái)測(cè)試人工智能領(lǐng)域的學(xué)習(xí)算法,本文就此問(wèn)題提出了兩種多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法:基于承諾和約定的方法和基于聯(lián)合行為優(yōu)先序列的方法。 文章首先介紹了Agent和多Agent系統(tǒng)、以及多Agent學(xué)習(xí)的一些基本概念,然后介紹了強(qiáng)化學(xué)習(xí)和多Agent強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和未來(lái)發(fā)展方向。第二部分對(duì)強(qiáng)化學(xué)習(xí)理論和多Agent強(qiáng)化學(xué)習(xí)理論進(jìn)行了簡(jiǎn)要介紹。在對(duì)Pursuit Game問(wèn)題進(jìn)行初步分析的基礎(chǔ)上,針對(duì)獨(dú)立行為學(xué)習(xí)者,擴(kuò)展了單Agent強(qiáng)化學(xué)習(xí)算法,提出了基于承諾和約定的多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法MACRL-CC。針對(duì)聯(lián)合行為學(xué)習(xí)者,給出了多Agent協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架,并解決了多最優(yōu)均衡解問(wèn)題,提出了基于聯(lián)合行為優(yōu)先序列的多Agent協(xié)同強(qiáng)化學(xué)習(xí)方法MACRL-JAPS。文中對(duì)上述兩種方法都進(jìn)行了實(shí)驗(yàn)驗(yàn)證。 本文的主要成果及創(chuàng)新是,提出了兩種多Agent協(xié)同強(qiáng)化學(xué)習(xí)算法,并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。MACRL-CC在對(duì)系統(tǒng)目標(biāo)的特性進(jìn)行分析的基礎(chǔ)上,將系統(tǒng)目標(biāo)進(jìn)行分解,并采用基于承諾和約定的協(xié)作方法實(shí)現(xiàn)Agent的協(xié)作求解;考慮到狀態(tài)行為空間可能很大的問(wèn)題,提出了狀態(tài)和行為的泛化的概念,對(duì)狀態(tài)空間進(jìn)行了縮減;針對(duì)Agent在求解過(guò)程中學(xué)習(xí)到的經(jīng)驗(yàn)知識(shí)的相似性,提出了經(jīng)驗(yàn)知識(shí)共享的方法以提高學(xué)習(xí)效率。MACRL-JAPS針對(duì)多Agent協(xié)同強(qiáng)化學(xué)習(xí)的特點(diǎn),提出了多Agent協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架;針對(duì)博弈問(wèn)題的多最優(yōu)均衡解難題,提出了基于聯(lián)合行為優(yōu)先序列的方法,確保Agent能夠準(zhǔn)確預(yù)測(cè)其他Agent的行為,從而選擇一致的最優(yōu)均衡解。
【關(guān)鍵詞】:多Agent系統(tǒng) 強(qiáng)化學(xué)習(xí) Pursuit Game 承諾和約定 協(xié)同博弈 團(tuán)隊(duì)隨機(jī)博弈 納什均衡 聯(lián)合行為優(yōu)先序列
【學(xué)位授予單位】:國(guó)防科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2005
【分類號(hào)】:C936;F224
【目錄】:
- 摘要7-8
- Abstract8-10
- 第一章 緒論10-24
- 1.1 研究背景10-13
- 1.2 多Agent 學(xué)習(xí)概述13-17
- 1.2.1 Agent 與多Agent 系統(tǒng)13-15
- 1.2.2 多Agent 學(xué)習(xí)的研究?jī)?nèi)容15-17
- 1.3 多Agent 強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀和未來(lái)研究方向17-22
- 1.4 本文的研究?jī)?nèi)容與結(jié)構(gòu)22-24
- 1.4.1 本文的研究?jī)?nèi)容22-23
- 1.4.2 本文的結(jié)構(gòu)23-24
- 第二章 相關(guān)的研究工作24-44
- 2.1 強(qiáng)化學(xué)習(xí)簡(jiǎn)介24-33
- 2.1.1 強(qiáng)化學(xué)習(xí)模型24-26
- 2.1.2 優(yōu)化行為模型26-27
- 2.1.3 馬爾可夫決策過(guò)程27-30
- 2.1.4 Q-學(xué)習(xí)算法30-33
- 2.2 多Agent 強(qiáng)化學(xué)習(xí)基本理論33-41
- 2.2.1 隨機(jī)博弈框架簡(jiǎn)介35-39
- 2.2.2 相關(guān)算法39-41
- 2.3 與本文相關(guān)的研究工作41-43
- 2.4 本章小結(jié)43-44
- 第三章 基于承諾和約定的多 Agent 協(xié)同強(qiáng)化學(xué)習(xí)44-60
- 3.1 預(yù)備知識(shí)45-50
- 3.1.1 多Agent 協(xié)作團(tuán)隊(duì)45-47
- 3.1.2 任務(wù)的分解與分配47-48
- 3.1.3 承諾和約定48-50
- 3.2 狀態(tài)行為空間的縮減50-51
- 3.3 Pursuit Game 問(wèn)題51-53
- 3.3.1 Pursuit Game 問(wèn)題的相關(guān)研究51-52
- 3.3.2 Pursuit Game 的問(wèn)題描述52-53
- 3.4 基于承諾和約定的多Agent 協(xié)同強(qiáng)化學(xué)習(xí)算法53-56
- 3.5 算法設(shè)計(jì)及實(shí)驗(yàn)結(jié)果56-59
- 3.5.1 算法設(shè)計(jì)56-57
- 3.5.2 實(shí)驗(yàn)及結(jié)論57-59
- 3.6 本章小結(jié)59-60
- 第四章 基于聯(lián)合行為優(yōu)先序列的多 Agent 協(xié)同強(qiáng)化學(xué)習(xí)60-77
- 4.1 多Agent 協(xié)同強(qiáng)化學(xué)習(xí)的團(tuán)隊(duì)隨機(jī)博弈框架60-64
- 4.1.1 基本概念60-61
- 4.1.2 團(tuán)隊(duì)隨機(jī)博弈框架61-64
- 4.2 對(duì)接問(wèn)題描述64-67
- 4.3 多最優(yōu)均衡解問(wèn)題67-70
- 4.3.1 多最優(yōu)均衡解問(wèn)題的研究現(xiàn)狀67
- 4.3.2 基于聯(lián)合行為優(yōu)先序列的多最優(yōu)均衡問(wèn)題解決方法67-70
- 4.4 基于聯(lián)合行為優(yōu)先序列的多Agent 協(xié)同強(qiáng)化學(xué)習(xí)算法70-71
- 4.5 對(duì)接問(wèn)題的實(shí)驗(yàn)設(shè)定及結(jié)果71-73
- 4.6 Pursuit Game 問(wèn)題的實(shí)驗(yàn)設(shè)定及結(jié)果73-76
- 4.7 本章小結(jié)76-77
- 第五章 總結(jié)與展望77-79
- 5.1 主要工作與創(chuàng)新77-78
- 5.2 進(jìn)一步的工作78-79
- 致謝79-80
- 參考文獻(xiàn)80-89
- 附錄89
【引證文獻(xiàn)】
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 李?yuàn)?基于視覺(jué)聽(tīng)覺(jué)語(yǔ)義相干性的強(qiáng)化學(xué)習(xí)系統(tǒng)的研究[D];太原理工大學(xué);2012年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 劉飛;強(qiáng)化學(xué)習(xí)在足球機(jī)器人仿真中的應(yīng)用[D];長(zhǎng)沙理工大學(xué);2012年
2 劉嘉;非常規(guī)突發(fā)事件應(yīng)對(duì)決策行為研究[D];武漢理工大學(xué);2012年
本文關(guān)鍵詞:多Agent協(xié)作團(tuán)隊(duì)的強(qiáng)化學(xué)習(xí)方法研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):330731
本文鏈接:http://www.sikaile.net/guanlilunwen/yunyingzuzhiguanlilunwen/330731.html
最近更新
教材專著