一種不穩(wěn)定環(huán)境下的策略搜索及遷移方法
發(fā)布時間:2019-09-26 18:30
【摘要】:強化學(xué)習(xí)是一種Agent在與環(huán)境交互過程中,通過累計獎賞最大化來尋求最優(yōu)策略的在線學(xué)習(xí)方法.由于在不穩(wěn)定環(huán)境中,某一時刻的MDP模型在與Agent交互之后就發(fā)生了變化,導(dǎo)致基于穩(wěn)定MDP模型傳統(tǒng)的強化學(xué)習(xí)方法無法完成不穩(wěn)定環(huán)境下的最優(yōu)策略求解問題.針對不穩(wěn)定環(huán)境下的策略求解問題,利用MDP分布對不穩(wěn)定環(huán)境進行建模,提出一種基于公式集的策略搜索算法——FSPS.FSPS算法在學(xué)習(xí)過程中搜集所獲得的歷史樣本信息,并對其進行特征信息的提取,利用這些特征信息來構(gòu)造不同的用于動作選擇的公式,采取策略搜索算法求解最優(yōu)公式.在此基礎(chǔ)之上,給出所求解策略的最優(yōu)性邊界,并從理論上證明了遷移到新MDP分布中策略的最優(yōu)性主要依賴于MDP分布之間的距離以及所求解策略在原始MDP分布中的性能.最后,將FSPS算法用于經(jīng)典的Markov Chain問題,實驗結(jié)果表明,所求解的策略具有較好的性能.
【圖文】:
264邐電子學(xué)邋報邐2017年逡逑右1邋-的概座儲彳曰I邋-嚴.I邐R、_尺",…邐'邋用于求解最優(yōu)策略,而戶,,用于遷移所學(xué)習(xí)的最優(yōu)策略’逡逑’邋-T日、]慨半守心“+邐,邋_r邐并測試所遷移策略的性能?在解決其他問題時,可以根據(jù)實逡逑/邋^邋_2_邐際情況設(shè)置為其他概率分布,如泊松分布(Poisson邋distribu-逡逑/邐—邋+邋S邋(邋h邋*邋h*邋)成立邐lion)、高斯分布(Gaussian邋distribution)等.逡逑^邋n邋,,u邐'邋A,"邐在實驗過程中,設(shè)定每個MDP分布包含200個子逡逑根據(jù)定理3,我們可以發(fā)現(xiàn)策略/!;.從/\(邋?)遷移邋MDP,即《=200;MDP分布之間距離的閾值(=0.01,折扣逡逑到 ̄(邋?)后,當MDP樣本足夠大時,其性能主要依賴因子y=0.9,T=0.0丨,CR=0.3,Cp=0.7,,e—貪心策略中^逡逑于P?,(邋?)和P,,:(邋?)之間的距離,?)以及W邋0.7;從MDP分布中采樣得到的子MDP的數(shù)量默認是200;逡逑在P?,(邋?)中的,/i;邋)?因此,如果當兩個MDP分邐根據(jù)算法2,求解P,,和之間的距離是34.54.逡逑布足夠接近時,我們可以直接將策略從一個MDP分布邐在不穩(wěn)定MDP環(huán)境下,包括貪心策略(Greedy邋Poli-逡逑直接遷移到另一個MDP分布,實現(xiàn)策略的遷移,并保證邐cy)、&貪心策略或者模擬退火策略等在內(nèi)的傳統(tǒng)強化逡逑所遷移策略在新分布中具有較好的性能.另外,當我們邐學(xué)習(xí)無法很好地平衡算法執(zhí)行過程中的探索和利用問逡逑固定t的值,邐題_例如,貪心策略在算法執(zhí)行過程中僅利用Agem已逡逑^29邐邐邋/In2(2/r)邐
第2期邐朱斐:一種不穩(wěn)定環(huán)境下的策略搜索及遷移方法邐265逡逑接著,我們通過實驗比較各策略在不同MDP樣本邐邐逡逑數(shù)量下的性能.在實驗中,我們設(shè)定MDP樣本的數(shù)量分逡逑趙邋400邋-邋\逡逑另丨丨是丨0、20、40、80、150以及200.圖2是在不同吣叩采邋g邐邐邐邐邐逡逑樣情況下,與各策略的性目匕比較圖.從圖2中1丨丨以行出邐2000邋500邋1000邋1500邋2000邋2500邋3000邋3500邋4000邋4500邋5000逡逑在不同MDP樣本情況下,相比與貪心策略、心貪心策略邐i90|邐逡逑,邐邋蝴丨80-逡逑以及隨機策略,13邋-、/pU,u)邋I對應(yīng)的策略始終能夠取邐趣?-邐^_____逡逑S邋160-邐邐逡逑得較優(yōu)的實驗結(jié)果.同時,觀察i3邋_邋/pu,“)I在同邐邐逡逑MDP樣本情況下累計獎賞值,可以發(fā)現(xiàn)丨3邋-邐140。5。。丨_邋_邋:漂。的^恀循棚5_逡逑的曲線相對是比較穩(wěn)定的,這也是由于該策略能夠較邐圖3不同MDP樣本數(shù)《下遷移策略的最優(yōu)性邊界逡逑好的平衡學(xué)習(xí)過程中的探索和利用問題.另外,相對于邐7邋結(jié)束語逡逑基于制數(shù)的3作選.擇【策略,?二¥(二U加f易邐*文主要針對傳統(tǒng)強化學(xué)習(xí)算法無法求解非穩(wěn)定逡逑計界,這也可財栛」’加Pㄓ剩眨輳ⅲ停模衻w下灥測及控}碧,提出灀DP分布来脴E義希常擔埃危卞問霾晃榷ǎ停模謝肪常⑸杓屏艘恢只詮郊牟唄運彥義細猓
本文編號:2542285
【圖文】:
264邐電子學(xué)邋報邐2017年逡逑右1邋-的概座儲彳曰I邋-嚴.I邐R、_尺",…邐'邋用于求解最優(yōu)策略,而戶,,用于遷移所學(xué)習(xí)的最優(yōu)策略’逡逑’邋-T日、]慨半守心“+邐,邋_r邐并測試所遷移策略的性能?在解決其他問題時,可以根據(jù)實逡逑/邋^邋_2_邐際情況設(shè)置為其他概率分布,如泊松分布(Poisson邋distribu-逡逑/邐—邋+邋S邋(邋h邋*邋h*邋)成立邐lion)、高斯分布(Gaussian邋distribution)等.逡逑^邋n邋,,u邐'邋A,"邐在實驗過程中,設(shè)定每個MDP分布包含200個子逡逑根據(jù)定理3,我們可以發(fā)現(xiàn)策略/!;.從/\(邋?)遷移邋MDP,即《=200;MDP分布之間距離的閾值(=0.01,折扣逡逑到 ̄(邋?)后,當MDP樣本足夠大時,其性能主要依賴因子y=0.9,T=0.0丨,CR=0.3,Cp=0.7,,e—貪心策略中^逡逑于P?,(邋?)和P,,:(邋?)之間的距離,?)以及W邋0.7;從MDP分布中采樣得到的子MDP的數(shù)量默認是200;逡逑在P?,(邋?)中的,/i;邋)?因此,如果當兩個MDP分邐根據(jù)算法2,求解P,,和之間的距離是34.54.逡逑布足夠接近時,我們可以直接將策略從一個MDP分布邐在不穩(wěn)定MDP環(huán)境下,包括貪心策略(Greedy邋Poli-逡逑直接遷移到另一個MDP分布,實現(xiàn)策略的遷移,并保證邐cy)、&貪心策略或者模擬退火策略等在內(nèi)的傳統(tǒng)強化逡逑所遷移策略在新分布中具有較好的性能.另外,當我們邐學(xué)習(xí)無法很好地平衡算法執(zhí)行過程中的探索和利用問逡逑固定t的值,邐題_例如,貪心策略在算法執(zhí)行過程中僅利用Agem已逡逑^29邐邐邋/In2(2/r)邐
第2期邐朱斐:一種不穩(wěn)定環(huán)境下的策略搜索及遷移方法邐265逡逑接著,我們通過實驗比較各策略在不同MDP樣本邐邐逡逑數(shù)量下的性能.在實驗中,我們設(shè)定MDP樣本的數(shù)量分逡逑趙邋400邋-邋\逡逑另丨丨是丨0、20、40、80、150以及200.圖2是在不同吣叩采邋g邐邐邐邐邐逡逑樣情況下,與各策略的性目匕比較圖.從圖2中1丨丨以行出邐2000邋500邋1000邋1500邋2000邋2500邋3000邋3500邋4000邋4500邋5000逡逑在不同MDP樣本情況下,相比與貪心策略、心貪心策略邐i90|邐逡逑,邐邋蝴丨80-逡逑以及隨機策略,13邋-、/pU,u)邋I對應(yīng)的策略始終能夠取邐趣?-邐^_____逡逑S邋160-邐邐逡逑得較優(yōu)的實驗結(jié)果.同時,觀察i3邋_邋/pu,“)I在同邐邐逡逑MDP樣本情況下累計獎賞值,可以發(fā)現(xiàn)丨3邋-邐140。5。。丨_邋_邋:漂。的^恀循棚5_逡逑的曲線相對是比較穩(wěn)定的,這也是由于該策略能夠較邐圖3不同MDP樣本數(shù)《下遷移策略的最優(yōu)性邊界逡逑好的平衡學(xué)習(xí)過程中的探索和利用問題.另外,相對于邐7邋結(jié)束語逡逑基于制數(shù)的3作選.擇【策略,?二¥(二U加f易邐*文主要針對傳統(tǒng)強化學(xué)習(xí)算法無法求解非穩(wěn)定逡逑計界,這也可財栛」’加Pㄓ剩眨輳ⅲ停模衻w下灥測及控}碧,提出灀DP分布来脴E義希常擔埃危卞問霾晃榷ǎ停模謝肪常⑸杓屏艘恢只詮郊牟唄運彥義細猓
本文編號:2542285
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2542285.html
最近更新
教材專著