多智能體博弈強(qiáng)化學(xué)習(xí)算法及其均衡研究
發(fā)布時間:2024-01-27 13:22
人工智能和多智能體系統(tǒng)在實(shí)際應(yīng)用中會遇到諸如無人駕駛、無人機(jī)編隊、機(jī)器人對抗等智能體與環(huán)境交互、智能體與智能體交互的場景。圍繞多智能體博弈模型,以馬爾科夫博弈或者隨機(jī)博弈的框架為基礎(chǔ),討論基于強(qiáng)化學(xué)習(xí)方法與環(huán)境交互尋找納什均衡的多智能體強(qiáng)化學(xué)習(xí)算法、基于均衡理論計算納什均衡的群智能算法兩個方面存在的問題,開展以下研究:為改善多智能體納什Q學(xué)習(xí)算法適應(yīng)性不好,條件苛刻,運(yùn)算復(fù)雜,且沒有通用的方法更新策略價值等問題,提出算法改進(jìn)思路。首先,引入聯(lián)合動作向量簡化算法,引入?yún)?shù),通過參數(shù)近似控制狀態(tài)-行為值函數(shù),轉(zhuǎn)化訓(xùn)練目標(biāo),給出參數(shù)逼近的值函數(shù)更新方程;其次,理論分析了算法的收斂性及可行性;最后,通過實(shí)驗(yàn)驗(yàn)證了算法的有效性。仿真結(jié)果表明,基于參數(shù)逼近的多智能體強(qiáng)化學(xué)習(xí)算法,能夠使智能體100%達(dá)到納什均衡,且能夠提高算法性能,簡化算法復(fù)雜性,比起傳統(tǒng)的納什Q學(xué)習(xí)算法能夠較快收斂。針對智能體參與個數(shù)多或者維度稍高的矩陣博弈納什均衡計算困難,對現(xiàn)有的納什均衡求解理論進(jìn)行分析,將求解納什均衡問題轉(zhuǎn)化為可以利用群智能算法求解的單目標(biāo)優(yōu)化問題。為改善現(xiàn)有的粒子群算法計算納什均衡時精度不高,迭代繁瑣,提...
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 選題背景及研究意義
1.1.1 選題背景
1.1.2 研究意義
1.2 研究現(xiàn)狀及發(fā)展趨勢
1.2.1 多智能體強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀及發(fā)展趨勢
1.2.2 博弈均衡的研究現(xiàn)狀及發(fā)展趨勢
1.3 本文研究內(nèi)容和技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線
2 相關(guān)基本理論
2.1 強(qiáng)化學(xué)習(xí)
2.1.1 強(qiáng)化學(xué)習(xí)模型與基本要素
2.1.2 馬爾科夫決策過程概述
2.2 多智能體強(qiáng)化學(xué)習(xí)
2.2.1 多智能體強(qiáng)化學(xué)習(xí)模型
2.2.2 馬爾科夫博弈中的多智能體強(qiáng)化學(xué)習(xí)
2.3 博弈均衡理論
2.3.1 納什均衡的數(shù)學(xué)描述
2.3.2 純策略博弈
2.3.3 混合策略博弈
2.4 小結(jié)
3 參數(shù)逼近的多智能體強(qiáng)化學(xué)習(xí)算法
3.1 多智能體納什Q學(xué)習(xí)
3.1.1 策略迭代與時間差分學(xué)習(xí)
3.1.2 納什Q學(xué)習(xí)算法
3.2 基于參數(shù)逼近的強(qiáng)化學(xué)習(xí)算法
3.2.1 算法改進(jìn)
3.2.2 算法描述
3.3 算法的收斂性與可行性分析
3.3.1 算法收斂性分析
3.3.2 算法可行性分析
3.4 實(shí)驗(yàn)與結(jié)果分析
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 結(jié)果分析
3.5 本章小結(jié)
4 基于粒子群算法求解納什均衡
4.1 納什均衡問題轉(zhuǎn)化
4.1.1 雙人策略博弈中的納什均衡
4.1.2 雙人策略博弈的優(yōu)化問題
4.2 改進(jìn)的粒子群算法設(shè)計思想
4.2.1 標(biāo)準(zhǔn)粒子群算法思想
4.2.2 參數(shù)的分析與修正
4.2.3 改進(jìn)的粒子群算法步驟
4.2.4 數(shù)值測試
4.3 改進(jìn)的粒子群算法求解納什均衡
4.3.1 求解納什均衡優(yōu)化模型
4.3.2 算法描述
4.3.3 算法流程圖
4.3.4 算法可行性分析與性能評價
4.4 仿真算例
4.5 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
致謝
參考文獻(xiàn)
附錄
攻讀碩士學(xué)位期間獲獎
本文編號:3887043
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 選題背景及研究意義
1.1.1 選題背景
1.1.2 研究意義
1.2 研究現(xiàn)狀及發(fā)展趨勢
1.2.1 多智能體強(qiáng)化學(xué)習(xí)的研究現(xiàn)狀及發(fā)展趨勢
1.2.2 博弈均衡的研究現(xiàn)狀及發(fā)展趨勢
1.3 本文研究內(nèi)容和技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 技術(shù)路線
2 相關(guān)基本理論
2.1 強(qiáng)化學(xué)習(xí)
2.1.1 強(qiáng)化學(xué)習(xí)模型與基本要素
2.1.2 馬爾科夫決策過程概述
2.2 多智能體強(qiáng)化學(xué)習(xí)
2.2.1 多智能體強(qiáng)化學(xué)習(xí)模型
2.2.2 馬爾科夫博弈中的多智能體強(qiáng)化學(xué)習(xí)
2.3 博弈均衡理論
2.3.1 納什均衡的數(shù)學(xué)描述
2.3.2 純策略博弈
2.3.3 混合策略博弈
2.4 小結(jié)
3 參數(shù)逼近的多智能體強(qiáng)化學(xué)習(xí)算法
3.1 多智能體納什Q學(xué)習(xí)
3.1.1 策略迭代與時間差分學(xué)習(xí)
3.1.2 納什Q學(xué)習(xí)算法
3.2 基于參數(shù)逼近的強(qiáng)化學(xué)習(xí)算法
3.2.1 算法改進(jìn)
3.2.2 算法描述
3.3 算法的收斂性與可行性分析
3.3.1 算法收斂性分析
3.3.2 算法可行性分析
3.4 實(shí)驗(yàn)與結(jié)果分析
3.4.1 實(shí)驗(yàn)設(shè)置
3.4.2 結(jié)果分析
3.5 本章小結(jié)
4 基于粒子群算法求解納什均衡
4.1 納什均衡問題轉(zhuǎn)化
4.1.1 雙人策略博弈中的納什均衡
4.1.2 雙人策略博弈的優(yōu)化問題
4.2 改進(jìn)的粒子群算法設(shè)計思想
4.2.1 標(biāo)準(zhǔn)粒子群算法思想
4.2.2 參數(shù)的分析與修正
4.2.3 改進(jìn)的粒子群算法步驟
4.2.4 數(shù)值測試
4.3 改進(jìn)的粒子群算法求解納什均衡
4.3.1 求解納什均衡優(yōu)化模型
4.3.2 算法描述
4.3.3 算法流程圖
4.3.4 算法可行性分析與性能評價
4.4 仿真算例
4.5 本章小結(jié)
5 結(jié)論與展望
5.1 結(jié)論
5.2 展望
致謝
參考文獻(xiàn)
附錄
攻讀碩士學(xué)位期間獲獎
本文編號:3887043
本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3887043.html
最近更新
教材專著