學(xué)習(xí)引導(dǎo)的高維優(yōu)化方法研究
發(fā)布時間:2021-02-10 21:47
在求解黑盒優(yōu)化問題時,演化算法可以被看作是一類通用的優(yōu)化器。不過隨著待優(yōu)化問題維度的增加,演化算法會遇到所謂的“維數(shù)災(zāi)難”問題。目前針對高維優(yōu)化問題的研究仍是演化領(lǐng)域的難點(diǎn)和熱點(diǎn)之一。本論文從學(xué)習(xí)的角度出發(fā),試圖通過學(xué)得關(guān)于問題的先驗知識來幫助算法在高維優(yōu)化中取得更好的效果。具體而言,本論文的研究工作和成果主要包含如下兩個方面:1.針對大規(guī)模全局優(yōu)化問題中CMA-ES算法計算代價大、優(yōu)化效果差的問題,利用基于相關(guān)系數(shù)的分組(CCG)策略和模型復(fù)雜度控制(MCC)框架來移除高斯模型中冗余的自由度,以降低建模和采樣的代價,提升優(yōu)化效果。2.針對序列決策問題中規(guī)劃長度選取的困境,引入策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)來從歷史的經(jīng)驗中學(xué)習(xí),進(jìn)而指導(dǎo)搜索,使得智能體能以較短的規(guī)劃長度和較少的搜索代價取得更好的規(guī)劃結(jié)果。在CEC 2010大規(guī)模全局優(yōu)化測試集上,本論文提出的MCC-CCG-CMAES算法統(tǒng)計顯著地優(yōu)于所對比的十種最先進(jìn)的算法。在OpenAI Gym的運(yùn)動控制測試環(huán)境中,本論文提出的p-RHEA算法的得分也統(tǒng)計顯著地高于在線規(guī)劃方法和強(qiáng)化學(xué)習(xí)方法。本論文的兩個主要工作都具有普適的應(yīng)用價值,對更加合理...
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2智能體與環(huán)境交互過程??
?第1章緒?論???v?‘1:'?“‘丨士—“二'‘?>??丨?^?二,',卜心馨^:遠(yuǎn)-.??rir?]?F?mIC?^??(a)?Ant-v2?(b)?Humanoid-v2?(c)?HalfCheetah-v2??m_m-^??■ri^^5'3?■論??(d)?Hopper-v2?(e)?Swimmer-v2?(f)?Walker2d-v2??(g)?InvertedPendulum-v2?(h)?InvertedDoublePendulum-v2??圖1.3?MuJoCo運(yùn)動仿真環(huán)境??1.4研究難點(diǎn)及創(chuàng)新之處??高維的實(shí)值優(yōu)化問題出現(xiàn)在很多現(xiàn)實(shí)世界的場景中[11,13_141它們在演化領(lǐng)??域一直是一類非常具有挑戰(zhàn)性的任務(wù)。近些年,眾多學(xué)者們做了一系列嘗試來將??演化算法應(yīng)用在高維優(yōu)化問題中,并取得了一些重要的成果[151。考慮到CMA-ES??算法在低維優(yōu)化中表現(xiàn)優(yōu)異,但在高維優(yōu)化中往往由于0(D2)的計算復(fù)雜度而??難以直接應(yīng)用,本論文試圖從以下兩個角度做出一些改進(jìn),以期其能在高維優(yōu)化??中同樣有出色的表現(xiàn)。??1.在大規(guī)模全局優(yōu)化問題中,待優(yōu)化的問題的維度固定為D=?1000。要想準(zhǔn)??確估計CMA-ES算法中協(xié)方差矩陣的參數(shù),需要采樣更多的個體,這樣會??6??
?第2章相關(guān)工作綜述???特殊形式,即所有的子空間的大小均為^?=?1。雖然只使用了協(xié)方差矩陣的對角??線元素,即變量間所有的相關(guān)性都被丟棄了,但它們在高維優(yōu)化問題中往往比全??相關(guān)的模型表現(xiàn)地更好,這是因為準(zhǔn)確估計一個可靠的全相關(guān)模型需要更大的??樣本數(shù)量,這會很快地消耗完適應(yīng)度評估次數(shù)。??W?f(x)?W?W?f(s2)?W??圖2.1高斯分布PDF的簡化,/(x)?=?/(Sl)/(s2)??2.2序列決策??2.2.1基于模型的規(guī)劃方法??基于模型的規(guī)劃方法是一類在線的方法,智能體通過探索未來環(huán)境來進(jìn)行??當(dāng)前的決策。這類方法不需要事先訓(xùn)練,但需要一個前向模型(Forward?Model,??簡稱FM)以允許智能體直接跳轉(zhuǎn)回它經(jīng)歷過的狀態(tài)。??MCTS[3W71是一種典型的基于模型的規(guī)劃方法,它通過仿真的方式構(gòu)建起??—棵逐步增長的搜索樹。MCTS中的每個結(jié)點(diǎn)對應(yīng)一個狀態(tài)s,其孩子結(jié)點(diǎn)為下??一步可能到達(dá)的狀態(tài)/,連接結(jié)點(diǎn)的邊對應(yīng)兩狀態(tài)之間所采取的動作同時,??樹中的每個結(jié)點(diǎn)保留著仿真過程中的統(tǒng)計信息:ATG,a)表示從狀態(tài)s出發(fā)的路??徑經(jīng)過邊a的次數(shù);〇(S,4表示從狀態(tài)s出發(fā)、經(jīng)過邊a的路徑的平均累積獎??勵。在每一次仿真中,MCTS首先從根結(jié)點(diǎn)(也就是當(dāng)前狀態(tài)S()?=?s)出發(fā),按??照如下的上置信界[38]?(Upper?Confidence?Bounds?for?Tree,簡稱UCT)公式選擇??下一個動作?<,直到到達(dá)葉子結(jié)點(diǎn)V:??llnHa,N(snat)??a'=7^rs^)?+?l?(2-6)??其中參數(shù)〇可以用來平衡算法的開發(fā)性(對應(yīng)前一項)與探索性(對應(yīng)后一項)。
本文編號:3028040
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.2智能體與環(huán)境交互過程??
?第1章緒?論???v?‘1:'?“‘丨士—“二'‘?>??丨?^?二,',卜心馨^:遠(yuǎn)-.??rir?]?F?mIC?^??(a)?Ant-v2?(b)?Humanoid-v2?(c)?HalfCheetah-v2??m_m-^??■ri^^5'3?■論??(d)?Hopper-v2?(e)?Swimmer-v2?(f)?Walker2d-v2??(g)?InvertedPendulum-v2?(h)?InvertedDoublePendulum-v2??圖1.3?MuJoCo運(yùn)動仿真環(huán)境??1.4研究難點(diǎn)及創(chuàng)新之處??高維的實(shí)值優(yōu)化問題出現(xiàn)在很多現(xiàn)實(shí)世界的場景中[11,13_141它們在演化領(lǐng)??域一直是一類非常具有挑戰(zhàn)性的任務(wù)。近些年,眾多學(xué)者們做了一系列嘗試來將??演化算法應(yīng)用在高維優(yōu)化問題中,并取得了一些重要的成果[151。考慮到CMA-ES??算法在低維優(yōu)化中表現(xiàn)優(yōu)異,但在高維優(yōu)化中往往由于0(D2)的計算復(fù)雜度而??難以直接應(yīng)用,本論文試圖從以下兩個角度做出一些改進(jìn),以期其能在高維優(yōu)化??中同樣有出色的表現(xiàn)。??1.在大規(guī)模全局優(yōu)化問題中,待優(yōu)化的問題的維度固定為D=?1000。要想準(zhǔn)??確估計CMA-ES算法中協(xié)方差矩陣的參數(shù),需要采樣更多的個體,這樣會??6??
?第2章相關(guān)工作綜述???特殊形式,即所有的子空間的大小均為^?=?1。雖然只使用了協(xié)方差矩陣的對角??線元素,即變量間所有的相關(guān)性都被丟棄了,但它們在高維優(yōu)化問題中往往比全??相關(guān)的模型表現(xiàn)地更好,這是因為準(zhǔn)確估計一個可靠的全相關(guān)模型需要更大的??樣本數(shù)量,這會很快地消耗完適應(yīng)度評估次數(shù)。??W?f(x)?W?W?f(s2)?W??圖2.1高斯分布PDF的簡化,/(x)?=?/(Sl)/(s2)??2.2序列決策??2.2.1基于模型的規(guī)劃方法??基于模型的規(guī)劃方法是一類在線的方法,智能體通過探索未來環(huán)境來進(jìn)行??當(dāng)前的決策。這類方法不需要事先訓(xùn)練,但需要一個前向模型(Forward?Model,??簡稱FM)以允許智能體直接跳轉(zhuǎn)回它經(jīng)歷過的狀態(tài)。??MCTS[3W71是一種典型的基于模型的規(guī)劃方法,它通過仿真的方式構(gòu)建起??—棵逐步增長的搜索樹。MCTS中的每個結(jié)點(diǎn)對應(yīng)一個狀態(tài)s,其孩子結(jié)點(diǎn)為下??一步可能到達(dá)的狀態(tài)/,連接結(jié)點(diǎn)的邊對應(yīng)兩狀態(tài)之間所采取的動作同時,??樹中的每個結(jié)點(diǎn)保留著仿真過程中的統(tǒng)計信息:ATG,a)表示從狀態(tài)s出發(fā)的路??徑經(jīng)過邊a的次數(shù);〇(S,4表示從狀態(tài)s出發(fā)、經(jīng)過邊a的路徑的平均累積獎??勵。在每一次仿真中,MCTS首先從根結(jié)點(diǎn)(也就是當(dāng)前狀態(tài)S()?=?s)出發(fā),按??照如下的上置信界[38]?(Upper?Confidence?Bounds?for?Tree,簡稱UCT)公式選擇??下一個動作?<,直到到達(dá)葉子結(jié)點(diǎn)V:??llnHa,N(snat)??a'=7^rs^)?+?l?(2-6)??其中參數(shù)〇可以用來平衡算法的開發(fā)性(對應(yīng)前一項)與探索性(對應(yīng)后一項)。
本文編號:3028040
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3028040.html
最近更新
教材專著