基于強(qiáng)化學(xué)習(xí)與博弈樹搜索的非完備信息博弈算法的研究與應(yīng)用
發(fā)布時(shí)間:2024-03-15 19:45
博弈問題存在于人們生活的各個(gè)方面,根據(jù)參與者對(duì)博弈信息掌握程度的不同,可以把博弈問題分為完備信息博弈和非完備信息博弈兩類。在現(xiàn)實(shí)生活中,人們往往很難獲取到所有的博弈信息,因此很多博弈問題,比如商業(yè)談判、廣告定價(jià)、軍事推演、網(wǎng)絡(luò)安全等都可以歸結(jié)為非完備信息博弈。隨著人工智能相關(guān)技術(shù)的不斷發(fā)展,利用人工智能技術(shù)來解決非完備信息博弈已經(jīng)成為了當(dāng)前的研究熱點(diǎn),具有十分重要的現(xiàn)實(shí)意義。本文主要研究關(guān)于麻將的機(jī)器博弈問題。在麻將游戲中,對(duì)手的手牌信息以及牌庫中的信息對(duì)于每位參與者來說都是不可見的,因此麻將游戲是典型的非完備信息博弈問題。以往的麻將程序主要是通過Expectimax搜索算法來進(jìn)行設(shè)計(jì)的。目前關(guān)于Expectimax搜索算法的研究主要集中在兩個(gè)方面。一方面是研究如何合理地對(duì)搜索樹的分支進(jìn)行剪枝,另一方面是研究如何設(shè)計(jì)合理的估值函數(shù)。然而,在麻將博弈問題上,目前Expectimax搜索算法的剪枝策略與估值函數(shù)的設(shè)計(jì)還依賴于人工先驗(yàn)知識(shí),而沒有結(jié)合強(qiáng)化學(xué)習(xí)等算法來進(jìn)行改進(jìn)。為了解決這個(gè)問題,本文提出了一種結(jié)合Double DQN與Expectimax搜索的非完備信息博弈算法。該算法使用強(qiáng)化...
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 本文研究?jī)?nèi)容
1.5 本文章節(jié)結(jié)構(gòu)
第2章 非完備信息機(jī)器博弈
2.1 非完備信息博弈概述
2.2 博弈樹與搜索
2.2.1 Expectimax搜索
2.3 基于深度強(qiáng)化學(xué)習(xí)的博弈方法
2.3.1 深度學(xué)習(xí)
2.3.2 強(qiáng)化學(xué)習(xí)
2.3.3 深度強(qiáng)化學(xué)習(xí)
2.4 本章小結(jié)
第3章 基于Double DQN與Expectimax搜索的非完備信息博弈算法
3.1 基于麻將先驗(yàn)知識(shí)的特征編碼
3.2 基于Expectimax搜索的麻將決策過程
3.3 基于Double DQN的麻將模型訓(xùn)練過程
3.4 關(guān)于麻將吃碰杠決策的設(shè)計(jì)
3.5 本章小結(jié)
第4章 非完備信息博弈智能決策系統(tǒng)的實(shí)現(xiàn)與實(shí)驗(yàn)分析
4.1 麻將智能決策系統(tǒng)
4.2 數(shù)據(jù)描述和數(shù)據(jù)預(yù)處理
4.3 實(shí)驗(yàn)結(jié)果與分析
4.4 討論參數(shù)α的設(shè)置對(duì)模型的影響
4.5 麻將比賽數(shù)據(jù)分析
4.6 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
附錄A 麻將博弈規(guī)則介紹
攻讀學(xué)位期間的研究成果
本文編號(hào):3928778
【文章頁數(shù)】:64 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究目的與意義
1.3 國(guó)內(nèi)外研究現(xiàn)狀
1.4 本文研究?jī)?nèi)容
1.5 本文章節(jié)結(jié)構(gòu)
第2章 非完備信息機(jī)器博弈
2.1 非完備信息博弈概述
2.2 博弈樹與搜索
2.2.1 Expectimax搜索
2.3 基于深度強(qiáng)化學(xué)習(xí)的博弈方法
2.3.1 深度學(xué)習(xí)
2.3.2 強(qiáng)化學(xué)習(xí)
2.3.3 深度強(qiáng)化學(xué)習(xí)
2.4 本章小結(jié)
第3章 基于Double DQN與Expectimax搜索的非完備信息博弈算法
3.1 基于麻將先驗(yàn)知識(shí)的特征編碼
3.2 基于Expectimax搜索的麻將決策過程
3.3 基于Double DQN的麻將模型訓(xùn)練過程
3.4 關(guān)于麻將吃碰杠決策的設(shè)計(jì)
3.5 本章小結(jié)
第4章 非完備信息博弈智能決策系統(tǒng)的實(shí)現(xiàn)與實(shí)驗(yàn)分析
4.1 麻將智能決策系統(tǒng)
4.2 數(shù)據(jù)描述和數(shù)據(jù)預(yù)處理
4.3 實(shí)驗(yàn)結(jié)果與分析
4.4 討論參數(shù)α的設(shè)置對(duì)模型的影響
4.5 麻將比賽數(shù)據(jù)分析
4.6 本章小結(jié)
第5章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
附錄A 麻將博弈規(guī)則介紹
攻讀學(xué)位期間的研究成果
本文編號(hào):3928778
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3928778.html
最近更新
教材專著