基于強(qiáng)化學(xué)習(xí)的蘇拉卡爾塔博弈算法
發(fā)布時(shí)間:2021-01-17 22:54
本文探討了基于蒙特卡洛方法的強(qiáng)化學(xué)習(xí)博弈程序的原理,基于該原理結(jié)合BP算法設(shè)計(jì)了一個(gè)進(jìn)行自學(xué)習(xí)的蘇拉卡爾塔博弈程序。實(shí)驗(yàn)證明,該方法能讓智能體不斷的學(xué)習(xí)提高棋力,避免了繁瑣的手工構(gòu)建靜態(tài)評(píng)估函數(shù)過程。
【文章來源】:智能計(jì)算機(jī)與應(yīng)用. 2020,10(04)
【文章頁數(shù)】:4 頁
【部分圖文】:
蘇拉卡爾塔棋盤、棋子以及開局布局
為了加快自對(duì)弈速度,本文使用了根并行方法[10],如圖2所示。當(dāng)自對(duì)弈需要評(píng)估和擴(kuò)展節(jié)點(diǎn)時(shí),程序把當(dāng)前局面發(fā)送到評(píng)估隊(duì)列中,評(píng)估服務(wù)器按批進(jìn)行前向推理并返回相應(yīng)的自對(duì)弈程序。當(dāng)一局自對(duì)弈程序完成后,對(duì)弈程序?qū)⒕謿v史發(fā)送到訓(xùn)練服務(wù)器,訓(xùn)練服務(wù)器維護(hù)一個(gè)訓(xùn)練數(shù)據(jù)集池,訓(xùn)練服務(wù)器將數(shù)據(jù)加入到數(shù)據(jù)集池后,從數(shù)據(jù)池中采樣進(jìn)行一次反向傳播計(jì)算更新權(quán)重。同時(shí)每1 min,訓(xùn)練服務(wù)器和評(píng)估服務(wù)器進(jìn)行一次權(quán)重的同步,以保證評(píng)估服務(wù)器的權(quán)重是最新的。3 實(shí)驗(yàn)
本文編號(hào):2983746
【文章來源】:智能計(jì)算機(jī)與應(yīng)用. 2020,10(04)
【文章頁數(shù)】:4 頁
【部分圖文】:
蘇拉卡爾塔棋盤、棋子以及開局布局
為了加快自對(duì)弈速度,本文使用了根并行方法[10],如圖2所示。當(dāng)自對(duì)弈需要評(píng)估和擴(kuò)展節(jié)點(diǎn)時(shí),程序把當(dāng)前局面發(fā)送到評(píng)估隊(duì)列中,評(píng)估服務(wù)器按批進(jìn)行前向推理并返回相應(yīng)的自對(duì)弈程序。當(dāng)一局自對(duì)弈程序完成后,對(duì)弈程序?qū)⒕謿v史發(fā)送到訓(xùn)練服務(wù)器,訓(xùn)練服務(wù)器維護(hù)一個(gè)訓(xùn)練數(shù)據(jù)集池,訓(xùn)練服務(wù)器將數(shù)據(jù)加入到數(shù)據(jù)集池后,從數(shù)據(jù)池中采樣進(jìn)行一次反向傳播計(jì)算更新權(quán)重。同時(shí)每1 min,訓(xùn)練服務(wù)器和評(píng)估服務(wù)器進(jìn)行一次權(quán)重的同步,以保證評(píng)估服務(wù)器的權(quán)重是最新的。3 實(shí)驗(yàn)
本文編號(hào):2983746
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2983746.html
最近更新
教材專著