基函數(shù)自適應(yīng)的強(qiáng)化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的研究
發(fā)布時(shí)間:2020-12-26 20:17
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中一個(gè)重要的方向,是智能體通過(guò)與環(huán)境交互來(lái)學(xué)習(xí)如何行為的方法。強(qiáng)化學(xué)習(xí)過(guò)程是一個(gè)以尋找最優(yōu)策略為最終目標(biāo)的過(guò)程。策略評(píng)價(jià)是對(duì)策略好壞的評(píng)定,是強(qiáng)化學(xué)習(xí)重要的研究?jī)?nèi)容之一。一般策略評(píng)價(jià)算法是基于值函數(shù)進(jìn)行的。值函數(shù)通常是通過(guò)線性參數(shù)化的值函數(shù)逼近器估計(jì)的。以往的函數(shù)逼近方法僅僅通過(guò)調(diào)節(jié)網(wǎng)絡(luò)權(quán)值來(lái)改進(jìn)近似精度,而沒(méi)有考慮網(wǎng)絡(luò)中基函數(shù)的參數(shù)。事實(shí)上,值函數(shù)逼近器的基函數(shù)對(duì)算法的性能也有很大的影響。一般來(lái)說(shuō),基函數(shù)中的中心點(diǎn)可以根據(jù)所要解決的問(wèn)題確定,而基函數(shù)的寬度則較難選擇,經(jīng)常要經(jīng)過(guò)多次實(shí)驗(yàn),通過(guò)經(jīng)驗(yàn)設(shè)定。本研究利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法,使網(wǎng)絡(luò)中基函數(shù)的寬度可以自適應(yīng)選取,論文的主要研究?jī)?nèi)容包括:1、提出了一種基函數(shù)自適應(yīng)的帶有梯度修正作用的強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)算法。在本算法中,值函數(shù)逼近器中的基函數(shù)的參數(shù)(主要是指基函數(shù)的寬度)是自動(dòng)調(diào)節(jié)直到最優(yōu)的。其中時(shí)域差分誤差和值函數(shù)由函數(shù)逼近器和帶有梯度修正作用的遞推最小二乘時(shí)域差分算法進(jìn)行估計(jì)。同時(shí),時(shí)域差分誤差反傳來(lái)更新值函數(shù)逼近器的參數(shù),也就是網(wǎng)絡(luò)權(quán)值和基函數(shù)寬度。這樣就可以通過(guò)一個(gè)自適應(yīng)的方法,使算法在學(xué)習(xí)的過(guò)程中...
【文章來(lái)源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1強(qiáng)化學(xué)習(xí)結(jié)構(gòu)框圖??Fig.1-1?Block?diagram?of?reinforcement?learning??
另一部分是策略提升,一般來(lái)說(shuō)策略提升利用貪婪法則,也就是尋找最大值函數(shù),??這個(gè)值函數(shù)所對(duì)應(yīng)的策略就是提升的策略。這一步相對(duì)較簡(jiǎn)單。策略評(píng)價(jià)和策略提升??依次迭代進(jìn)行,直到算法收斂,我們就得到了最優(yōu)的策略,其過(guò)程如圖2-2。??'??^提升的策略????JT??^?r??策略提升?策略評(píng)價(jià)??i?k??值函數(shù)????^???Q1??圖2-2強(qiáng)化學(xué)習(xí)策略迭代示意圖??Fig.2-2?Policy?iteration?for?reinforcement?learning??總的來(lái)說(shuō),策略if價(jià)給策略迭代提供了對(duì)于給定的策略的值函數(shù)。而策略提升保??證了選出的策略比原始策略更好。??2.2.4強(qiáng)化學(xué)習(xí)中目標(biāo)函數(shù)??在強(qiáng)化學(xué)習(xí)中,一些目標(biāo)函數(shù)用來(lái)實(shí)現(xiàn)梯度下降作用,使得參數(shù)得到修正。最常??見(jiàn)的目標(biāo)函數(shù)就是均方誤差(Mean-square?Error,?MSE)。均方誤差是指通過(guò)值函數(shù)逼??近器得到的值函數(shù)的估計(jì)值和它的真實(shí)值的差的二范數(shù),表示如下:??MSE(0)?=?||F,-F||^vtjDv?(2-6)??其中DeRis|x|s|是對(duì)角陣,表示向量二范數(shù)的平方。由于在強(qiáng)化學(xué)習(xí)中,真實(shí)的值??函數(shù)是不知道的。因此,上式的計(jì)算無(wú)法真正實(shí)現(xiàn)。??但是我們知道值函數(shù)滿(mǎn)足貝爾曼方程
我們提出一種自適應(yīng)的帶有梯度修正作用的遞推最小二乘時(shí)域差分算法??的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在本算法中我們利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)RC算法,稱(chēng)為自適應(yīng)RC??網(wǎng)絡(luò)。自適應(yīng)的RC網(wǎng)絡(luò)的結(jié)構(gòu)如圖3-1所示,在本算法中主要由兩部分組成,一部??分是強(qiáng)化學(xué)習(xí)部分,在強(qiáng)化學(xué)習(xí)部分使用RC算法,通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)的形式來(lái)求解值函??數(shù)和TD誤差中的線性參數(shù)向量,對(duì)值函數(shù)和TD誤差進(jìn)行近似求。涣硪徊糠志褪??網(wǎng)絡(luò)學(xué)習(xí)部分,主要是指網(wǎng)絡(luò)中的參數(shù)學(xué)習(xí),包括網(wǎng)絡(luò)中基函數(shù)的寬度以及網(wǎng)絡(luò)權(quán)值??的更新。在這部分中,TD誤差反傳來(lái)調(diào)節(jié)網(wǎng)絡(luò)參數(shù)。本算法使用的網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)??三層RBF祌經(jīng)網(wǎng)絡(luò),具體各層結(jié)構(gòu)如圖3-1。??第一層是輸入層。在本層,每個(gè)輸入節(jié)點(diǎn)為輸入的狀態(tài)或者狀態(tài)動(dòng)作的集合以及??回報(bào)值,同時(shí),輸入節(jié)點(diǎn)數(shù)等于輸入特征狀態(tài)的維數(shù)。輸入數(shù)據(jù)直接傳到下一層。??19??
【參考文獻(xiàn)】:
期刊論文
[1]Approximate policy iteration:a survey and somenew methods[J]. Dimitri P.BERTSEKAS. Journal of Control Theory and Applications. 2011(03)
[2]基于狀態(tài)-動(dòng)作圖測(cè)地高斯基的策略迭代強(qiáng)化學(xué)習(xí)[J]. 程玉虎,馮渙婷,王雪松. 自動(dòng)化學(xué)報(bào). 2011(01)
碩士論文
[1]正則化快速最小二乘時(shí)域差分算法的研究[D]. 李論通.北京化工大學(xué) 2016
本文編號(hào):2940395
【文章來(lái)源】:北京化工大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:82 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖1-1強(qiáng)化學(xué)習(xí)結(jié)構(gòu)框圖??Fig.1-1?Block?diagram?of?reinforcement?learning??
另一部分是策略提升,一般來(lái)說(shuō)策略提升利用貪婪法則,也就是尋找最大值函數(shù),??這個(gè)值函數(shù)所對(duì)應(yīng)的策略就是提升的策略。這一步相對(duì)較簡(jiǎn)單。策略評(píng)價(jià)和策略提升??依次迭代進(jìn)行,直到算法收斂,我們就得到了最優(yōu)的策略,其過(guò)程如圖2-2。??'??^提升的策略????JT??^?r??策略提升?策略評(píng)價(jià)??i?k??值函數(shù)????^???Q1??圖2-2強(qiáng)化學(xué)習(xí)策略迭代示意圖??Fig.2-2?Policy?iteration?for?reinforcement?learning??總的來(lái)說(shuō),策略if價(jià)給策略迭代提供了對(duì)于給定的策略的值函數(shù)。而策略提升保??證了選出的策略比原始策略更好。??2.2.4強(qiáng)化學(xué)習(xí)中目標(biāo)函數(shù)??在強(qiáng)化學(xué)習(xí)中,一些目標(biāo)函數(shù)用來(lái)實(shí)現(xiàn)梯度下降作用,使得參數(shù)得到修正。最常??見(jiàn)的目標(biāo)函數(shù)就是均方誤差(Mean-square?Error,?MSE)。均方誤差是指通過(guò)值函數(shù)逼??近器得到的值函數(shù)的估計(jì)值和它的真實(shí)值的差的二范數(shù),表示如下:??MSE(0)?=?||F,-F||^vtjDv?(2-6)??其中DeRis|x|s|是對(duì)角陣,表示向量二范數(shù)的平方。由于在強(qiáng)化學(xué)習(xí)中,真實(shí)的值??函數(shù)是不知道的。因此,上式的計(jì)算無(wú)法真正實(shí)現(xiàn)。??但是我們知道值函數(shù)滿(mǎn)足貝爾曼方程
我們提出一種自適應(yīng)的帶有梯度修正作用的遞推最小二乘時(shí)域差分算法??的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在本算法中我們利用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)RC算法,稱(chēng)為自適應(yīng)RC??網(wǎng)絡(luò)。自適應(yīng)的RC網(wǎng)絡(luò)的結(jié)構(gòu)如圖3-1所示,在本算法中主要由兩部分組成,一部??分是強(qiáng)化學(xué)習(xí)部分,在強(qiáng)化學(xué)習(xí)部分使用RC算法,通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)的形式來(lái)求解值函??數(shù)和TD誤差中的線性參數(shù)向量,對(duì)值函數(shù)和TD誤差進(jìn)行近似求。涣硪徊糠志褪??網(wǎng)絡(luò)學(xué)習(xí)部分,主要是指網(wǎng)絡(luò)中的參數(shù)學(xué)習(xí),包括網(wǎng)絡(luò)中基函數(shù)的寬度以及網(wǎng)絡(luò)權(quán)值??的更新。在這部分中,TD誤差反傳來(lái)調(diào)節(jié)網(wǎng)絡(luò)參數(shù)。本算法使用的網(wǎng)絡(luò)結(jié)構(gòu)是一個(gè)??三層RBF祌經(jīng)網(wǎng)絡(luò),具體各層結(jié)構(gòu)如圖3-1。??第一層是輸入層。在本層,每個(gè)輸入節(jié)點(diǎn)為輸入的狀態(tài)或者狀態(tài)動(dòng)作的集合以及??回報(bào)值,同時(shí),輸入節(jié)點(diǎn)數(shù)等于輸入特征狀態(tài)的維數(shù)。輸入數(shù)據(jù)直接傳到下一層。??19??
【參考文獻(xiàn)】:
期刊論文
[1]Approximate policy iteration:a survey and somenew methods[J]. Dimitri P.BERTSEKAS. Journal of Control Theory and Applications. 2011(03)
[2]基于狀態(tài)-動(dòng)作圖測(cè)地高斯基的策略迭代強(qiáng)化學(xué)習(xí)[J]. 程玉虎,馮渙婷,王雪松. 自動(dòng)化學(xué)報(bào). 2011(01)
碩士論文
[1]正則化快速最小二乘時(shí)域差分算法的研究[D]. 李論通.北京化工大學(xué) 2016
本文編號(hào):2940395
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2940395.html
最近更新
教材專(zhuān)著