機(jī)器自學(xué)習(xí)博弈策略研究與實現(xiàn)
發(fā)布時間:2021-01-13 05:10
人工智能是近年來很活躍的研究領(lǐng)域之一。機(jī)器學(xué)習(xí)和博弈是人工智能研究的重要分支。國內(nèi)外對博弈的研究已經(jīng)較為廣泛,特別是IBM的國際象棋程序“深藍(lán)”,已經(jīng)達(dá)到了人類的世界冠軍水平。但是這些程序或者需要經(jīng)過大量訓(xùn)練,或者采用死記硬背的學(xué)習(xí)方法,或者是采用大規(guī)模搜索算法實現(xiàn),難以避免“組合爆炸”的危機(jī),因此,一個真正“智能”的,有學(xué)習(xí)能力的高效率的博弈策略還有待進(jìn)一步研究。本文將TD(Temporal Difference)預(yù)測與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,得到一種用于博弈的強(qiáng)化學(xué)習(xí)法,以博弈中常用的極小極大搜索法和NegeScout搜索法為基礎(chǔ),并應(yīng)用它實現(xiàn)了一個能自學(xué)習(xí)的五子棋博弈程序。該方法克服了使用靜態(tài)估值函數(shù)的不足,實踐證明,該方法是成功的,使用該方法的程序經(jīng)過較短時間的訓(xùn)練后達(dá)到了較好的下棋水平。本文首先研究了五子棋在計算機(jī)中的表示問題,討論了計算機(jī)中存貯棋局和識別下棋次序,局勢狀態(tài)變化及局勢特征的等方法。其次研究了博弈樹的極小極大搜索技術(shù)及在此基礎(chǔ)上的α-β剪枝過程和剪枝優(yōu)化問題。實現(xiàn)將候選的后繼節(jié)點按位置鄰近順序排序,使剪枝過程得到優(yōu)化。此外還研究了α-β剪枝的改進(jìn)算法NegeScou...
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:46 頁
【學(xué)位級別】:碩士
【部分圖文】:
-5優(yōu)先搜索空點1
如“五子連”,在棋盤上有四種出現(xiàn)形式。如圖某路上有此特征。如(a)圖稱為橫 x 路上有五子連特征特征,(c)圖稱為左斜 x 路上有五子連特征,(d)圖稱它特征也是同樣。中,程序使用的主要特征有:(1) “OOOOO” (2) “+OOOO+”(3) “+OOO++” (4) “++OOO+”5) “+OO+O+” (6) “+O+OO+”7) “OOOO+’ (8) “+OOOO”9) “OO+OO” (10) “O+OOO”11) “OOO+O” (12) “++OO++”13) “++O+O+” (14) “+O+O++”(c) (d)圖 4-2 棋盤特征形式
所以局勢 n 的總得分為:的不足及實踐結(jié)果采用極小極大搜索加靜態(tài)估值技術(shù),實的業(yè)余人員時常也會負(fù)于此程序。用固定的估值法,為設(shè)計這個估值函數(shù)能充分判斷棋局局面中的某一特征在形勢給整個局面比較準(zhǔn)確的評分。但是面對精確的形勢判斷,特別是在對局的開始量的棋局狀態(tài)進(jìn)行存儲,就要求有大的函數(shù)不可能有很大的準(zhǔn)確性。“智力”較低,而且固定的賦值方式使圖 4-3 局勢特征例
【參考文獻(xiàn)】:
期刊論文
[1]基于 PDC-PROLOG 自學(xué)習(xí)機(jī)器博弈[J]. 廖家平,舒軍,王粟. 湖北工學(xué)院學(xué)報. 1997(04)
[2]博弈樹搜索與靜態(tài)估值函數(shù)[J]. 肖齊英,王正志. 計算機(jī)應(yīng)用研究. 1997(04)
[3]在計算機(jī)圍棋中形象思維的研究[J]. 王魯明,戴汝為. 自動化學(xué)報. 1997(04)
本文編號:2974281
【文章來源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁數(shù)】:46 頁
【學(xué)位級別】:碩士
【部分圖文】:
-5優(yōu)先搜索空點1
如“五子連”,在棋盤上有四種出現(xiàn)形式。如圖某路上有此特征。如(a)圖稱為橫 x 路上有五子連特征特征,(c)圖稱為左斜 x 路上有五子連特征,(d)圖稱它特征也是同樣。中,程序使用的主要特征有:(1) “OOOOO” (2) “+OOOO+”(3) “+OOO++” (4) “++OOO+”5) “+OO+O+” (6) “+O+OO+”7) “OOOO+’ (8) “+OOOO”9) “OO+OO” (10) “O+OOO”11) “OOO+O” (12) “++OO++”13) “++O+O+” (14) “+O+O++”(c) (d)圖 4-2 棋盤特征形式
所以局勢 n 的總得分為:的不足及實踐結(jié)果采用極小極大搜索加靜態(tài)估值技術(shù),實的業(yè)余人員時常也會負(fù)于此程序。用固定的估值法,為設(shè)計這個估值函數(shù)能充分判斷棋局局面中的某一特征在形勢給整個局面比較準(zhǔn)確的評分。但是面對精確的形勢判斷,特別是在對局的開始量的棋局狀態(tài)進(jìn)行存儲,就要求有大的函數(shù)不可能有很大的準(zhǔn)確性。“智力”較低,而且固定的賦值方式使圖 4-3 局勢特征例
【參考文獻(xiàn)】:
期刊論文
[1]基于 PDC-PROLOG 自學(xué)習(xí)機(jī)器博弈[J]. 廖家平,舒軍,王粟. 湖北工學(xué)院學(xué)報. 1997(04)
[2]博弈樹搜索與靜態(tài)估值函數(shù)[J]. 肖齊英,王正志. 計算機(jī)應(yīng)用研究. 1997(04)
[3]在計算機(jī)圍棋中形象思維的研究[J]. 王魯明,戴汝為. 自動化學(xué)報. 1997(04)
本文編號:2974281
本文鏈接:http://www.sikaile.net/kejilunwen/rengongzhinen/2974281.html
最近更新
教材專著