天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于A3C模型的帶預判游戲智能體研究

發(fā)布時間:2021-04-13 06:24
  目前,常見的游戲內(nèi)置機器人在進行對抗時都是根據(jù)事先編寫好的腳本進行決策,采取行動,而且可以獲取利用一些不平等信息,并不是像人類玩家一樣只根據(jù)游戲畫面(或者再結合聲音)進行分析決策,靈活多變。本課題主要研究深度學習和強化學習在游戲智能體領域的應用,以及相關算法的改進,使游戲智能體的決策過程更像人類,并使其擺脫對不公平信息的依賴。首先,本文采用VizDoom作為游戲智能體的研究平臺,該游戲是一款第一人稱視角的射擊游戲。根據(jù)A3C算法設計實現(xiàn)了一個游戲智能體(即卷積神經(jīng)網(wǎng)絡),該智能體以原始的實時游戲畫面作為網(wǎng)絡輸入,輸出為對應的離散動作(即決策)。智能體會和VizDoom進行交互,讀取實時游戲畫面,然后進行決策,控制游戲中的角色行動。其次,本文對A3C算法做了一個改進,在其原有的基礎上加入了一個預判網(wǎng)絡,預判網(wǎng)絡的目的是使智能體可以像人類玩家一樣,在進行決策前做出一個預判,然后將實時游戲畫面和預判畫面一起作為A3C算法的網(wǎng)絡輸入,進行決策,輸出對應的離散動作。由于這個改動僅僅改變了A3C算法的網(wǎng)絡輸入的數(shù)據(jù)結構,因此是一個模型無關的方法,易于移植到其他算法上。最后,本文分析比較了A3C算法... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:65 頁

【學位級別】:碩士

【部分圖文】:

基于A3C模型的帶預判游戲智能體研究


視頻畫面預測模型網(wǎng)絡結構圖

畫面,研究平臺,感知機,評估方法


圖 2-15 VizDoom 真實游戲畫面截圖章小結章主要介紹了本研究課題相關的技術和平臺,首先介紹了深度最基本的感知機切入,講解了神經(jīng)網(wǎng)絡的本質(zhì)及學習的原理;瘜W習的研究問題以及如何利用馬爾科夫決策過程對其進行建然后講解了圖像預測的相關原理及其評估方法。最后簡單介紹到的開發(fā)框架和研究平臺。

交互圖,交互圖


圖 3-1 Agent-Environment 交互圖具體的講,agent 和 environment 的交互發(fā)生在每個離散時間點 。在每個時間點 t,agent 接收到 environment 的當前狀態(tài)St(前的畫面),St S,其中 S 代表可能的狀態(tài)集合,然后在此基動作t,t (St),其中 (St)表示在狀態(tài)St下可選的動作集合nment 根據(jù) agent 的動作發(fā)生改變,轉移到新的狀態(tài) ,agent Rt R。了解了整個過程之后,那么 agent 的目標直觀的講就是決策后得到的累積獎勵最大,如公式(3-1)所示:Gt= Rt Rt Rt RTGt 代表目標,T 代表結束時間點(如游戲結束)。接下來我們需( §),計算每個狀態(tài) s 映射到 a 的概率,agent 要學習的就是如何優(yōu)的策略 使得Gt最大。上面對于Gt的定義是一種特殊情況,實考慮累積獎勵(reward)的時候會在每一項上加上衰減因子γ,同時間點的獎懲對目標的影響大小,如公式(3-2)所示。Gt= t tRt Tt t式(3-2)中 。根據(jù)G的定義,那么給定狀態(tài) s 下它的期望

【參考文獻】:
期刊論文
[1]基于深度學習的軍事智能決策支持系統(tǒng)[J]. 張曉海,操新文.  指揮控制與仿真. 2018(02)
[2]基于深度學習的視頻預測研究綜述[J]. 莫凌飛,蔣紅亮,李煊鵬.  智能系統(tǒng)學報. 2018(01)
[3]深度強化學習進展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒.  控制理論與應用. 2017(12)
[4]基于深度Q值網(wǎng)絡的自動小車控制方法[J]. 王立群,朱舜,韓笑,何軍.  電子測量技術. 2017(11)
[5]基于深度增強學習的自動游戲方法[J]. 袁月,馮濤,阮青青,趙銀明,鄒健.  長江大學學報(自科版). 2017(21)
[6]深度學習的研究現(xiàn)狀與發(fā)展[J]. 何曉萍,沈雅云.  現(xiàn)代情報. 2017(02)
[7]基于幀內(nèi)幀間聯(lián)合預測的深度視頻編碼方法[J]. 朱濤.  信息技術. 2016(10)
[8]Discrete-time dynamic graphical games:model-free reinforcement learning solution[J]. Mohammed I.ABOUHEAF,Frank L.LEWIS,Magdi S.MAHMOUD,Dariusz G.MIKULSKI.  Control Theory and Technology. 2015(01)
[9]多Agent系統(tǒng)中強化學習的研究現(xiàn)狀和發(fā)展趨勢[J]. 趙志宏,高陽,駱斌,陳世福.  計算機科學. 2004(03)

博士論文
[1]視頻壓縮中的高效幀內(nèi)編碼技術研究[D]. 張濤.哈爾濱工業(yè)大學 2017

碩士論文
[1]基于強化學習的開放領域聊天機器人對話生成算法[D]. 曹東巖.哈爾濱工業(yè)大學 2017
[2]基于強化學習的路徑規(guī)劃問題研究[D]. 趙英男.哈爾濱工業(yè)大學 2017



本文編號:3134793

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3134793.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶129b4***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com