天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于深度強(qiáng)化學(xué)習(xí)機(jī)制的棋盤類游戲算法的設(shè)計與實現(xiàn)

發(fā)布時間:2024-02-26 03:57
  隨著人工智能的不斷發(fā)展,深度強(qiáng)化學(xué)習(xí)以其獨(dú)特的優(yōu)勢越來越多地受到研究者的關(guān)注。通過將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)有機(jī)地結(jié)合起來,深度強(qiáng)化學(xué)習(xí)不僅賦予強(qiáng)化學(xué)習(xí)智能體在高維環(huán)境下端對端的學(xué)習(xí)能力,而且為其他機(jī)器學(xué)習(xí)任務(wù)在超越缺乏訓(xùn)練樣本的情況下進(jìn)一步挖掘模型潛力提供了可能。盡管如此,由于從深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)繼承而來的雙重復(fù)雜性,在面臨諸如棋盤類游戲、視頻游戲等復(fù)雜學(xué)習(xí)任務(wù)時,深度強(qiáng)化學(xué)習(xí)還存在著諸如訓(xùn)練不穩(wěn)定、樣本利用率低、成果難以復(fù)現(xiàn)、依賴準(zhǔn)確的超參數(shù)以及難以擺脫局部最優(yōu)等困難。本文以棋盤類游戲為切入點(diǎn),設(shè)計實現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(luò)與Upper Confidence Bound Applied to Trees(UCT)算法的深度強(qiáng)化學(xué)習(xí)算法,并針對上述問題,從以下三個方面加以改進(jìn):(1)為了提升訓(xùn)練過程中采樣的質(zhì)量,提出一種利用UCT算法的搜索結(jié)果訓(xùn)練棋盤類游戲智能體的方法。該方法使用使用UCT算法對神經(jīng)網(wǎng)絡(luò)采樣軌跡進(jìn)行重新的評估,以此修正神經(jīng)網(wǎng)絡(luò)偏差。(2)結(jié)合神經(jīng)網(wǎng)絡(luò)與蒙特卡洛樹搜索的方法不僅需要大量的訓(xùn)練樣本,而且難以擺脫避免訓(xùn)練過程中的偏差對搜索軌跡的誤導(dǎo)。針對此問題,提出一種結(jié)合集成學(xué)習(xí)...

【文章頁數(shù)】:85 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2.2?A3C總體結(jié)構(gòu)??所謂“異步”,是指該算法的交互過程與更新過程是多線程異步進(jìn)行的

圖2.2?A3C總體結(jié)構(gòu)??所謂“異步”,是指該算法的交互過程與更新過程是多線程異步進(jìn)行的

?第二章深度強(qiáng)化學(xué)習(xí)概述??訓(xùn)練效率。圖2.2描述了?A3C算法的總體結(jié)構(gòu)。??全局網(wǎng)絡(luò)??動作|?價值??分布?估計??個?7j\??行動者?i?平論家??網(wǎng)絡(luò)?網(wǎng)絡(luò)?? ̄/K ̄? ̄7R ̄??菊入?輸入??工人1?工人2?|?工人N??|行?|評?|行?|評?丨行?|評??動論....


圖3.1多維循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖[Schaul,?etal.,?2008]??傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的后一個循環(huán)單元僅接收前一個循環(huán)單元的輸出作為??先驗信息,而這一模式顯然不能滿足多維度的掃描空間的情況

圖3.1多維循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖[Schaul,?etal.,?2008]??傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)的后一個循環(huán)單元僅接收前一個循環(huán)單元的輸出作為??先驗信息,而這一模式顯然不能滿足多維度的掃描空間的情況

,,.,,維循環(huán)神經(jīng)網(wǎng)絡(luò),發(fā)展出了一套新的狀態(tài)-動作函數(shù)評估器。多維循環(huán)祌經(jīng)網(wǎng)絡(luò)??的訓(xùn)練數(shù)據(jù)同樣通過智能體自我對弈的方法實現(xiàn)。同時,文章創(chuàng)造性地利用了神??經(jīng)演化算法,開創(chuàng)了將演化算法應(yīng)用于強(qiáng)化學(xué)習(xí)領(lǐng)域的先河。??多維循環(huán)神經(jīng)網(wǎng)絡(luò)??循環(huán)神經(jīng)網(wǎng)絡(luò)己在諸如語音識別、語義分析、機(jī)器....


圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??

圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??

?(|)????ai??圖3.3基本的蒙特卡洛樹搜索流程[Abramson,?1987]??一個基本的蒙特卡洛樹搜索流程如圖3.3所示,包含以下四個步驟:??選擇(Selection):從根節(jié)點(diǎn)出發(fā),向下選擇訪問具有最大Q值的子節(jié)點(diǎn),直??到抵達(dá)葉節(jié)點(diǎn)或最深層數(shù)限制為止。值的定義....


圖3.4祌經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)??

圖3.4祌經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)??

這里的神經(jīng)網(wǎng)絡(luò)總體上采用類似于谷歌公司在2015年發(fā)布的De印??Q-network的結(jié)構(gòu)。不過,由于本棋盤類游戲環(huán)境的狀態(tài)空間遠(yuǎn)遠(yuǎn)不及視頻游戲,??因此也在一定程度上做出了適應(yīng)性調(diào)整。如圖3.4所示,神經(jīng)網(wǎng)絡(luò)輸入層由3通??道的尺寸為size?x?size的棋局信息構(gòu)成。接下來....



本文編號:3911297

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3911297.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶46e88***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com