最小二乘時序差分中的正則化:罰函數(shù)和貝葉斯的比較
【學位授予單位】:武漢大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:O212
【圖文】:
21,32).在這些實驗中,環(huán)境設(shè)定為一個包含20個狀態(tài),2個動作的MDP,如圖4.1邋.這些逡逑狀態(tài)連成鏈狀,在每個狀態(tài)上,agent可以采取”左”或”右”這兩個動作的其中一個,結(jié)果是有一逡逑定的概率成功轉(zhuǎn)移到所選定的方向,失敗則移到所選定方向的反方向.即agent在狀態(tài)&上,采逡逑取”左”的動作時,有p的概率轉(zhuǎn)移到狀態(tài)Sh,有1邋-p的概率轉(zhuǎn)移到狀態(tài)si+1,同樣”右”的動逡逑作的轉(zhuǎn)移結(jié)果也是類似的設(shè)定.當agent在邊界狀態(tài)上,且所轉(zhuǎn)移的方向不存在狀態(tài)時,則保持現(xiàn)逡逑
number邋of邋noise邋features逡逑圖4.2:實驗人?噪聲特征個數(shù)fc,lafae從0到㈨變化時近似狀態(tài)價值函數(shù)與真值的誤差逡逑圖4.2是噪聲特征個數(shù)fcn(5ise從0到1000變化時近似狀態(tài)價值函數(shù)與真值的誤差.該實驗設(shè)逡逑定Avbf邋=邋9,噪聲數(shù)fcn()ise從0到1000依次變化.每次實驗的樣本數(shù)n邋=邋500.每種方法同樣的實逡逑驗重復(fù)100次,以得到均值和標準差.為了圖表的簡潔性,這里選取了兩種最優(yōu)化帶罰函數(shù)的方法逡逑LSTD-L邋(2.5)和邋LSTD-k邋(2.10),以及兩種貝葉斯推斷方法邋bLSTD-w邋(3.5)和邋bLSTD-w邋(3.6)作逡逑為代表.這里未畫出結(jié)果的LSTD-/22方法的效果與LSTD七幾乎相同,而LSTD七和帶非凸懲逡逑罰的LSTD方法估計所得到的狀態(tài)價值函數(shù)的近似結(jié)果,則與LSTD-i21相差無幾.逡逑從中可以看到,當無關(guān)的噪聲個數(shù)逐漸增加時,LSTD七估計對狀態(tài)價值函數(shù)的近似誤差很高,逡逑且方差隨著無關(guān)特征個數(shù)的增多而變大,表明該方法越來越不穩(wěn)定;而帶稀疏約束的LSTD-;21和逡逑帶有稀疏拉普拉斯先驗的貝葉斯推斷方法bLSTD-w和bLSTD-w都有較高的近似精度
邐30逡逑圖4.3:實驗人?估計系數(shù)w的稀疏程度逡逑圖4.3由上至下是真實的系數(shù)u;和LSTD42,邋LSTD-L邋bLSTD-u;所得到的估計,橫軸表示系逡逑數(shù)向量的指標.該實驗設(shè)定樣本數(shù)n邋=邋50;相關(guān)特征包括hbf邋=邋9個徑向基函數(shù)和一個常數(shù),無關(guān)逡逑噪聲特征數(shù)Arnc)ise邋=邋20,總共30個特征;真實的系數(shù)逡逑w邋=邋(10,...,邋10,邋-10,...,-10,邋0邐0)T.逡逑v邐v邐,邋v邐V邐"邋vV?'逡逑5邋個邋10邐5邋個-10邐20邋個邋0逡逑從圖中可以看到,LSTD七估計無法識別出這些噪聲特征;LSTD-/,能將大部分噪聲特征的系逡逑數(shù)完全收縮到0,但對于相關(guān)特征的系數(shù),由于徑向基函數(shù)造成的特征之間的相關(guān)性,沒有Z2懲罰逡逑均勻分配系數(shù)質(zhì)量,LSTD4估計將許多的相關(guān)特征的系數(shù)也收縮到0,只是將正負質(zhì)量完全分配逡逑給一正一負兩個相關(guān)的系數(shù);貝葉斯推斷方法bLSTD-W雖然沒有將噪聲特征的系數(shù)完全收縮到逡逑0
【相似文獻】
相關(guān)期刊論文 前10條
1 吳聰偉;張輝;;非線性約束優(yōu)化問題的乘子罰函數(shù)方法[J];數(shù)學學習與研究;2013年23期
2 陳祖浩;最優(yōu)過程罰函數(shù)方法的數(shù)學理論[J];數(shù)學年刊A輯(中文版);1982年03期
3 房月華;;非線性方程組的一個不使用罰函數(shù)和filter的算法[J];西南師范大學學報(自然科學版);2018年05期
4 連淑君;唐加會;杜愛華;;帶等式約束的光滑優(yōu)化問題的一類新的精確罰函數(shù)[J];運籌學學報;2018年04期
5 程曉良;連續(xù)壓力空間的有限元罰方法[J];杭州大學學報(自然科學版);1991年01期
6 吳聰偉;曹繼平;朱亞紅;;基于約束優(yōu)化問題乘子罰函數(shù)方法的全局收斂性分析[J];萍鄉(xiāng)高等?茖W校學報;2013年03期
7 陳靜靜;劉三陽;丁毓;;基于罰函數(shù)方法的Leach協(xié)議[J];數(shù)學的實踐與認識;2019年07期
8 赫振華;白富生;;二次罰函數(shù)的可分化方法[J];重慶師范大學學報(自然科學版);2010年01期
9 田占強;馬志壘;李成;;復(fù)合材料纖維疊層織物彈道侵徹數(shù)值分析[J];機械設(shè)計與制造;2011年12期
10 田大鋼;郭俐;;線性規(guī)劃問題罰函數(shù)方法的一種統(tǒng)一形式[J];數(shù)學的實踐與認識;2008年05期
相關(guān)會議論文 前1條
1 薛毅;姚富玲;;求解等式約束問題的一類修正罰函數(shù)方法[A];中國運籌學會第七屆學術(shù)交流會論文集(上卷)[C];2004年
相關(guān)博士學位論文 前1條
1 韓伯順;非線性規(guī)劃中的罰函數(shù)及填充函數(shù)方法[D];上海大學;2006年
相關(guān)碩士學位論文 前10條
1 嚴博宇;最小二乘時序差分中的正則化:罰函數(shù)和貝葉斯的比較[D];武漢大學;2018年
2 楊書濤(TOUNA YANG);約束優(yōu)化問題的罰函數(shù)光滑化方法[D];大連理工大學;2018年
3 唐加會;等式約束優(yōu)化與極大極小化問題的罰函數(shù)研究[D];曲阜師范大學;2017年
4 程桂香;非線性最優(yōu)化問題的一族新的罰函數(shù)方法研究[D];首都師范大學;2006年
5 李秀慧;非凸規(guī)劃的同倫—罰函數(shù)方法及其在稀疏投資組合優(yōu)化中的應(yīng)用[D];大連理工大學;2017年
6 劉佛祥;基于動態(tài)罰函數(shù)和多目標的人工蜂群算法求解約束優(yōu)化問題的研究[D];南京師范大學;2017年
7 劉俊梅;混合差分進化算法及應(yīng)用研究[D];北方民族大學;2010年
8 李會榮;融合粒子群的全局優(yōu)化混合智能算法研究[D];北方民族大學;2009年
9 雷翻翻;非線性規(guī)劃問題的粒子群優(yōu)化算法研究[D];北方民族大學;2011年
10 杜愛華;約束優(yōu)化問題的精確罰函數(shù)研究[D];曲阜師范大學;2017年
本文編號:2745400
本文鏈接:http://www.sikaile.net/kejilunwen/yysx/2745400.html