天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于強(qiáng)化學(xué)習(xí)的蘇拉卡爾塔博弈算法

發(fā)布時(shí)間:2021-01-17 22:54
  本文探討了基于蒙特卡洛方法的強(qiáng)化學(xué)習(xí)博弈程序的原理,基于該原理結(jié)合BP算法設(shè)計(jì)了一個(gè)進(jìn)行自學(xué)習(xí)的蘇拉卡爾塔博弈程序。實(shí)驗(yàn)證明,該方法能讓智能體不斷的學(xué)習(xí)提高棋力,避免了繁瑣的手工構(gòu)建靜態(tài)評(píng)估函數(shù)過程。 

【文章來源】:智能計(jì)算機(jī)與應(yīng)用. 2020,10(04)

【文章頁數(shù)】:4 頁

【部分圖文】:

基于強(qiáng)化學(xué)習(xí)的蘇拉卡爾塔博弈算法


蘇拉卡爾塔棋盤、棋子以及開局布局

架構(gòu)圖,架構(gòu),服務(wù)器,權(quán)重


為了加快自對(duì)弈速度,本文使用了根并行方法[10],如圖2所示。當(dāng)自對(duì)弈需要評(píng)估和擴(kuò)展節(jié)點(diǎn)時(shí),程序把當(dāng)前局面發(fā)送到評(píng)估隊(duì)列中,評(píng)估服務(wù)器按批進(jìn)行前向推理并返回相應(yīng)的自對(duì)弈程序。當(dāng)一局自對(duì)弈程序完成后,對(duì)弈程序?qū)⒕謿v史發(fā)送到訓(xùn)練服務(wù)器,訓(xùn)練服務(wù)器維護(hù)一個(gè)訓(xùn)練數(shù)據(jù)集池,訓(xùn)練服務(wù)器將數(shù)據(jù)加入到數(shù)據(jù)集池后,從數(shù)據(jù)池中采樣進(jìn)行一次反向傳播計(jì)算更新權(quán)重。同時(shí)每1 min,訓(xùn)練服務(wù)器和評(píng)估服務(wù)器進(jìn)行一次權(quán)重的同步,以保證評(píng)估服務(wù)器的權(quán)重是最新的。3 實(shí)驗(yàn)


本文編號(hào):2983746

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2983746.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9e3a5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com