天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于一般化斜投影的異策略時(shí)序差分學(xué)習(xí)算法

發(fā)布時(shí)間:2019-07-30 15:55
【摘要】:在強(qiáng)化學(xué)習(xí)的值函數(shù)線性估計(jì)問題中,時(shí)序差分不動(dòng)點(diǎn)解和貝爾曼殘差的方法都是對真實(shí)值函數(shù)的斜投影,然而這兩種解經(jīng)證明都不是最優(yōu)解.通過對兩種投影進(jìn)行加權(quán)平均,提出了一種一般化的斜投影算子.基于此推導(dǎo)出兩種殘差時(shí)序差分學(xué)習(xí)算法,并給出了這兩種算法在異策略下的收斂性證明.在著名的Baird的異策略反例實(shí)驗(yàn)上,與相關(guān)算法進(jìn)行了對比,實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法的正確性和有效性.
【圖文】:

基于一般化斜投影的異策略時(shí)序差分學(xué)習(xí)算法


L1Φ=D(I-wγP)Φ=DL2Φ其中L2=I-wγP,權(quán)重w是一個(gè)實(shí)數(shù).顯然,當(dāng)w取0和1時(shí),XR就等于XTD和XBR.由于TD和BR的方法各有優(yōu)點(diǎn)(TD的方法收斂速度快,但無法保證收斂性,而BR的方法具有很好的收斂性,收斂的速度卻很慢),所以通過將兩者加權(quán)得到RTD的方法,能夠綜合TD和BR的優(yōu)點(diǎn),在收斂的速度和穩(wěn)定性之間做一個(gè)權(quán)衡,因此本文中。鲗儆冢暗剑敝g的實(shí)數(shù).圖1幾種方法投影的幾何關(guān)系Fig.1Geometricrelationshipsbetweenseveralmethodsfromtheprojectionview圖1描述了最佳投影方向和TD、BR的投影方向的關(guān)系,其中:ΠTD=ΠLT1XTD=ΠLT1DΦΠBR=ΠLT1XBR=ΠLT1DL1ΦΠR=ΠLT1XR=ΠLT1DL2ΦΠ=ΠLT1X*=ΠDΦ盡管采用了加權(quán)求和的方法,從幾何角度來看,新的投影方向仍然不是與span(Φ)正交的,即最優(yōu)投影方向,但是通過選取合適的權(quán)值w,新的投影點(diǎn)與最優(yōu)投影點(diǎn)間的距離會(huì)更近,也就是說估計(jì)的值函數(shù)精確度更高.2目標(biāo)函數(shù)和一般化投影的時(shí)序差分學(xué)習(xí)算法2.1RTD算法用加權(quán)求和的方法得出一般的XR=DL2Φ后,就可以得到目標(biāo)函數(shù):J(θ)=‖XTR(Vθ-TVθ)‖22=E[δ(φ-γwφ′)]TE[δ(φ-γw

基于一般化斜投影的異策略時(shí)序差分學(xué)習(xí)算法


第6期吳毓雙等:基于一般化斜投影的異策略時(shí)序差分學(xué)習(xí)算法續(xù)圖3圖3權(quán)值w在不同參數(shù)值下的性能曲線Fig.3Performancecomparisonswithotheralgorithmsfordifferentweightvalues對取不同權(quán)值(-1~5)的RTD算法進(jìn)行相同條件下的實(shí)驗(yàn)效果比對如圖4.圖4選取不同權(quán)值的RTD算法在相同實(shí)驗(yàn)下效果曲線圖Fig.4Performancefiguresfordifferentweightvalues圖4給出了不同權(quán)值的RTD算法的實(shí)驗(yàn)效果對比圖.從該圖中可以看出,w落在絕對收斂范圍內(nèi)時(shí)能穩(wěn)定收斂,但速度一般,而落入相對收斂范圍內(nèi)時(shí),算法能夠保證較好收斂性和較快收斂速度,且當(dāng)w。埃担ɑ疑┖停保常S色)時(shí),算法的效果最佳.5總結(jié)與展望本文從投影的角度出發(fā),,對TD和BR的投影空間加權(quán)求和,將投影方向一般化,然后基于得到的一般化斜投影方向推導(dǎo)出兩種異策略的殘差時(shí)序差分學(xué)習(xí)算法,并給出了這兩種算法在異策略下的收斂性證明.本文通過Baird的異策略反例實(shí)驗(yàn),證實(shí)了本文提出的算法具有穩(wěn)定的收斂性,同時(shí)分析了權(quán)值不同對算法性能的影響,并且在收斂速度上與相關(guān)算法進(jìn)行了對比.后續(xù)工作將從以下幾方面展開:(1)本文選取權(quán)值是通過人為設(shè)定的,而接下來將考慮利用自適應(yīng)的方法選取最優(yōu)權(quán)值;(2)理論分析權(quán)值w選取在相對收斂范圍時(shí)能夠很快收斂的原因;(3)用有限樣本分析的方法分析算法的收斂性和性能界.參考文獻(xiàn)[1]SuttonRS,SzepesváriC,
【作者單位】: 南京郵電大學(xué)貝爾英才學(xué)院;南京郵電大學(xué)計(jì)算機(jī)學(xué)院;南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室;
【基金】:國家自然科學(xué)基金(61403208) 南京大學(xué)計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室開放課題(KFKT2016B04) 南京郵電大學(xué)引進(jìn)人才科研啟動(dòng)基金(NY214014)
【分類號】:TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 任慶生,葉中行,曾進(jìn);進(jìn)化算法的收斂速度[J];上海交通大學(xué)學(xué)報(bào);1999年06期

2 齊潔;汪定偉;;極值優(yōu)化算法綜述[J];控制與決策;2007年10期

3 孫騫;張進(jìn);王宇翔;;蟻群算法優(yōu)化策略綜述[J];信息安全與技術(shù);2014年02期

4 胡娟,王常青,韓偉,全智;蟻群算法及其實(shí)現(xiàn)方法研究[J];計(jì)算機(jī)仿真;2004年07期

5 李金漢;杜德生;;一種改進(jìn)蟻群算法的仿真研究[J];自動(dòng)化技術(shù)與應(yīng)用;2008年02期

6 李修琳;魯建廈;柴國鐘;湯洪濤;;混合蜂群算法求解柔性作業(yè)車間調(diào)度問題[J];計(jì)算機(jī)集成制造系統(tǒng);2011年07期

7 秦全德;程適;李麗;史玉回;;人工蜂群算法研究綜述[J];智能系統(tǒng)學(xué)報(bào);2014年02期

8 李豆豆;邵世煌;齊金鵬;;生存遷移算法[J];系統(tǒng)仿真學(xué)報(bào);2008年08期

9 曹炬;賈紅;李婷婷;;煙花爆炸優(yōu)化算法[J];計(jì)算機(jī)工程與科學(xué);2011年01期

10 劉曉勇;付輝;;一種快速AP聚類算法[J];山東大學(xué)學(xué)報(bào)(工學(xué)版);2011年04期

相關(guān)博士學(xué)位論文 前1條

1 王可心;大規(guī)模過程系統(tǒng)非線性優(yōu)化的簡約空間理論與算法研究[D];浙江大學(xué);2008年

相關(guān)碩士學(xué)位論文 前10條

1 馬英鈞;基于人工蜂群算法的約束優(yōu)化問題研究[D];華中師范大學(xué);2015年

2 孫方亮;基于粒子群與中心引力的一種新混合算法及應(yīng)用[D];西安電子科技大學(xué);2014年

3 張德祥;基于改進(jìn)蟻群算法的機(jī)器人三維路徑規(guī)劃研究[D];青島科技大學(xué);2015年

4 盧協(xié)平;聯(lián)盟競賽算法的研究與應(yīng)用[D];福州大學(xué);2014年

5 代水芹;基于種群分解的進(jìn)化超多目標(biāo)算法及其應(yīng)用[D];廣東工業(yè)大學(xué);2016年

6 李倩;支持張量機(jī)的切平面算法研究[D];華南理工大學(xué);2016年

7 姚洪曼;基于改進(jìn)人工蜂群算法的模糊聚類研究[D];廣西大學(xué);2016年

8 丁亞英;基于局部搜索和二進(jìn)制的改進(jìn)人工蜂群算法[D];南京師范大學(xué);2016年

9 楊杰;基于粒子群優(yōu)化算法的不確定聚類技術(shù)研究[D];北方民族大學(xué);2016年

10 周雨鵬;基于鴿群算法的函數(shù)優(yōu)化問題求解[D];東北師范大學(xué);2016年



本文編號:2520993

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2520993.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶597b1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com