非完備信息機(jī)器博弈算法及對(duì)手模型的研究
發(fā)布時(shí)間:2021-11-09 05:53
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人工智能領(lǐng)域產(chǎn)生了一系列杰出的成果。尤其是在完備信息博弈方面,計(jì)算機(jī)通過(guò)博弈樹(shù)搜索、動(dòng)態(tài)規(guī)劃、α-β減枝算法等經(jīng)典方法已經(jīng)可以解決大多數(shù)完備信息博弈問(wèn)題。但是與完備信息博弈不同,在非完備信息博弈中參與者無(wú)法獲取對(duì)手的全部信息,而且在博弈中的不確定性因素(例如隨機(jī)風(fēng)險(xiǎn)、對(duì)手策略的調(diào)整、對(duì)手欺詐行為等)給研究工作帶來(lái)了不少難題。本文以德州撲克為實(shí)驗(yàn)對(duì)象,研究非完備信息機(jī)器博弈中的算法,主要研究?jī)?nèi)容如下:首先,從德州撲克的博弈特性出發(fā),分析了其博弈過(guò)程中的狀態(tài)空間復(fù)雜度,介紹了經(jīng)典的機(jī)器博弈算法,分析得出經(jīng)典的博弈算法難以應(yīng)用到德州撲克機(jī)的機(jī)器博弈中。針對(duì)現(xiàn)代主流的研究方法進(jìn)行了歸類(lèi),一類(lèi)是基于納什均衡策略的算法,另一類(lèi)是對(duì)手建模方法。前者主要側(cè)重于計(jì)算博弈中的納什均衡策略,其中虛擬遺憾最小化算法是目前最主流的算法之一。后者旨在在博弈中利用對(duì)手的弱點(diǎn),實(shí)現(xiàn)收益最大化。然后,深入研究了虛擬遺憾最小化算法,利用時(shí)序差分學(xué)習(xí)改進(jìn)了該算法旨在提高算法的效率。針對(duì)德州撲克機(jī)器博弈中狀態(tài)空間規(guī)模過(guò)于巨大的問(wèn)題,提出了底牌抽象化技術(shù)與手牌評(píng)估算法簡(jiǎn)化了狀態(tài)空間并基于改進(jìn)的算法建立了機(jī)...
【文章來(lái)源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
某一信息集下2人德州撲克博弈的樹(shù)形圖
弈樹(shù)因?yàn)榈玫綌U(kuò)展,規(guī)模逐漸增大,隨著模擬運(yùn)算的次數(shù)增加,計(jì)算出收益值結(jié)果也越來(lái)越逼近真實(shí)值。另一方面博弈樹(shù)的擴(kuò)展部分包含了大量可供分析信息,計(jì)算收益值的函數(shù)可以依靠這些信息做進(jìn)一步優(yōu)化。在德州撲克中的蒙特卡洛搜索樹(shù)方法包含有 4 個(gè)階段:子節(jié)點(diǎn)優(yōu)選階段、博樹(shù)擴(kuò)展階段、模擬計(jì)算階段和回溯更新階段。德州撲克中蒙特卡洛搜索樹(shù)方法模擬過(guò)程如圖 2-2 所示。
形的方法來(lái)表示隨機(jī)變量之間的概率關(guān)系,性問(wèn)題的有力手段。貝葉斯網(wǎng)絡(luò),由一個(gè)有一個(gè)有向無(wú)環(huán)圖來(lái)表示一組隨機(jī)變量跟它過(guò)條件概率分布來(lái)參數(shù)化,每個(gè)節(jié)點(diǎn)的定,其中 Pa ( node )表示網(wǎng)絡(luò)中的父節(jié)點(diǎn),
本文編號(hào):3484755
【文章來(lái)源】:武漢理工大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:81 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
某一信息集下2人德州撲克博弈的樹(shù)形圖
弈樹(shù)因?yàn)榈玫綌U(kuò)展,規(guī)模逐漸增大,隨著模擬運(yùn)算的次數(shù)增加,計(jì)算出收益值結(jié)果也越來(lái)越逼近真實(shí)值。另一方面博弈樹(shù)的擴(kuò)展部分包含了大量可供分析信息,計(jì)算收益值的函數(shù)可以依靠這些信息做進(jìn)一步優(yōu)化。在德州撲克中的蒙特卡洛搜索樹(shù)方法包含有 4 個(gè)階段:子節(jié)點(diǎn)優(yōu)選階段、博樹(shù)擴(kuò)展階段、模擬計(jì)算階段和回溯更新階段。德州撲克中蒙特卡洛搜索樹(shù)方法模擬過(guò)程如圖 2-2 所示。
形的方法來(lái)表示隨機(jī)變量之間的概率關(guān)系,性問(wèn)題的有力手段。貝葉斯網(wǎng)絡(luò),由一個(gè)有一個(gè)有向無(wú)環(huán)圖來(lái)表示一組隨機(jī)變量跟它過(guò)條件概率分布來(lái)參數(shù)化,每個(gè)節(jié)點(diǎn)的定,其中 Pa ( node )表示網(wǎng)絡(luò)中的父節(jié)點(diǎn),
本文編號(hào):3484755
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3484755.html
最近更新
教材專(zhuān)著