聚焦對象的Q值學(xué)習(xí)算法改進(jìn)研究

發(fā)布時間：2021-07-09 03:47

　　本論文主要研究聚焦對象的Q值學(xué)習(xí)算法改進(jìn)。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中一大分支,其中Q值學(xué)習(xí)算法是一個經(jīng)典的算法。Q值學(xué)習(xí)算法缺點之一是無法應(yīng)用于狀態(tài)較多的場景。聚焦對象的Q值學(xué)習(xí)算法是Q值學(xué)習(xí)算法的一種改進(jìn)算法,可以應(yīng)用于特定的狀態(tài)更多的場景。通過人為分類場景中的對象,分解場景的狀態(tài)空間,指數(shù)級減少了該場景的狀態(tài)空間的規(guī)模,使算法可以在一定時間內(nèi)訓(xùn)練出結(jié)果。本論文將從穩(wěn)定性、收斂速度等角度研究改進(jìn)聚焦對象的Q值學(xué)習(xí)算法。論文主要內(nèi)容如下:首先將傳統(tǒng)的聚焦對象的Q值學(xué)習(xí)算法與基于模型的學(xué)習(xí)算法相結(jié)合,在原算法的流程中結(jié)合了Prioritized Sweeping算法。算法在訓(xùn)練的同時增加了對模型采樣學(xué)習(xí)的步驟。通過實驗驗證該改進(jìn)加快收斂速度。第二,嘗試改變聚焦對象的Q值學(xué)習(xí)算法使用的控制策略,通過場景測試不同控制策略對收斂的影響。原算法改進(jìn)了控制策略,再結(jié)合基于模型的學(xué)習(xí)算法后,減少了原算法的參數(shù)數(shù)量,內(nèi)存開銷更低,收斂更加穩(wěn)定。第三,論文嘗試從提高計算資源利用的角度改進(jìn)聚焦對象的Q值學(xué)習(xí)算法。將傳統(tǒng)的結(jié)合基于模型學(xué)習(xí)的算法步驟中,模型學(xué)習(xí)的部分通過異步方式實現(xiàn)。本論文參考已有的Actor-C...

【文章來源】：東南大學(xué)江蘇省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：55 頁

【學(xué)位級別】：碩士

【部分圖文】：

馬爾可夫決策過程下agent環(huán)境交互馬爾可夫決策過程給出了一種簡潔的框架，即agent從交互中學(xué)習(xí)，實現(xiàn)目標(biāo)

框架圖,無模型,框架,模型

東南大學(xué)碩士學(xué)位論文2.4 模型學(xué)習(xí)和無模型學(xué)習(xí)結(jié)合的算法基于模型的方法主要是以規(guī)劃為重心，而無模型方法主要依賴于探索學(xué)習(xí)。規(guī)劃和學(xué)習(xí)相結(jié)合是是多年來逐漸發(fā)展起來的一種方法[39][40][41][42][43]。Equation Section (Next)2.4.1 模型和無模型結(jié)合的方法模型方法和無模型方法有著共通點，即都是關(guān)于值函數(shù)計算的方法。所有的方法都是基于對未來事件的預(yù)測，用這個值來更新值函數(shù)。不斷的做值函數(shù)近似值。因此，可以將二者相結(jié)合。如圖 2-1 就是一種模型和無模型相結(jié)合的典型框架。

界面圖,界面,閾值,像素

估的兩個相鄰的值，這樣 T 集合中每個類的閾值小個候選值。閾值集 T 運(yùn)行固定周期數(shù)，分別比較這三個值得到的期得到最高期望獎賞的那個值。下次更新就取新閾值為 10%時算法在不同的應(yīng)用場景下都有不錯的效果[17]，。例像素游戲 Space Invader 為例，簡單介紹一下聚焦對象算法的區(qū)別。der 是經(jīng)典的像素游戲之一，界面如圖 3-1：

本文編號：3272957

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3272957.html

上一篇：基于遺傳粒子群融合算法的大型泵站優(yōu)化調(diào)度研究
下一篇：概率圖模型推理算法及其并行化研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

聚焦對象的Q值學(xué)習(xí)算法改進(jìn)研究