基于強化學習的參數(shù)化電路優(yōu)化算法

發(fā)布時間：2021-08-16 08:53

　　本文主要致力于解決參數(shù)化形式的優(yōu)化問題,即minθf（θ,w）,其中θ是需要優(yōu)化的變量,w則是對應不同優(yōu)化問題的參數(shù),在現(xiàn)實中經常會遇到需要解決一系列不同參數(shù)下的優(yōu)化問題.在對某種特定結構的問題下,通過對不同的參數(shù)訓練一個模型來解決所有參數(shù)下的優(yōu)化問題.和傳統(tǒng)的方法不一樣,并不是通過對不同的參數(shù)多次獨立抽樣來訓練我們的模型,而是利用強化學習的方法加速訓練過程.強化學習算法中分別用策略網絡來得到優(yōu)化結果和利用價值網絡來評價策略好壞,通過迭代地訓練兩個網絡來優(yōu)化策略.在后面一些數(shù)學例子和電路優(yōu)化的例子中顯示強化學習的方法取得了比較好的效果.

【文章來源】：微電子學與計算機. 2019,36(01)北大核心

【文章頁數(shù)】：5 頁

【部分圖文】：

圖１環(huán)境與智能體的關系基于觀測量作出一個動作隨后環(huán)境更新當前狀態(tài)

框架圖,優(yōu)化器,框架,環(huán)境

ｆ：Ｓ→瓗作為強化學習任務中的環(huán)境Ｅ，目標函數(shù)中的優(yōu)化變量θｔ作為狀態(tài)ｓｔ，每次智能體從環(huán)境中觀測得到的觀測量除了狀態(tài)之外，還包括了目標函數(shù)中的參數(shù)ｗ，而智能體充當了優(yōu)化過程中的優(yōu)化器的作用，每次提供的動作作為當前狀態(tài)的更新量Δθ．最后我們定義回報函數(shù)為ｒｔ＝ｆ（θｔ＋１）－ｆ（θｔ），也就是說當優(yōu)化器使得目標函數(shù)減小的程度越多，得到的回報就越大．現(xiàn)在我們成功的將一個參數(shù)的優(yōu)化問題轉化為了一個強化學習的任務，如圖２所示．圖２轉化成強化學習任務的優(yōu)化器框架４實驗４．１實現(xiàn)細節(jié)在我們的實驗中，我們使用了簡單的淺層全連接網絡來搭建策略網絡和判定網絡．在訓練過程中，使用Ａｄａｍ優(yōu)化器來優(yōu)化網絡權重，學習率被設置為０．００１，訓練步數(shù)設置為３００００次，其中一步表示智能體作出一次動作．回報折價因子設置為０．９９，軟更新常數(shù)設置為０．００１．ＯｐｅｎＡＩＧｙｍ是一個為強化學習算法提供環(huán)境接口的工具箱，里面有許多集成的環(huán)境，包括離散動作空間和連續(xù)動作空間等，里面每個環(huán)境都有公共的接口，也可以自己實現(xiàn)環(huán)境的接口來自定義環(huán)境，只需要實現(xiàn)以下幾個接口即可：ｒｅｓｅｔ接口負責將環(huán)境內部的所有狀態(tài)初始化為原始狀態(tài)，可以是隨機初始化也可以初始化為特定值；ｓａｍｐｌｅ接口負責從動作空間（是ｇｙｍ包中的一個ｓｐａｃｅｓ對象）中隨機抽取一個動作；ｓｔｅｐ接口接收一個動作作為輸入參數(shù)，更新環(huán)境內部的狀態(tài)后，返回新的觀測量ｏｔ，回報ｒｔ，一

曲線,二次型,梯度下降,優(yōu)化算法

函數(shù)，可以表示為以下形式：ｆ（θ；Ｗ，ｂ）＝‖Ｗθ－ｂ‖２２在這個實驗中，我們利用ＤＤＰＧ算法訓練了一個簡單的優(yōu)化器來優(yōu)化一個８維的二次型函數(shù)．其中優(yōu)化變量為θ，即長度為８的向量，參數(shù)為Ｗ，｛ｂ｝，分別是８×８大小的矩陣和長度為８的向量．在優(yōu)化過程中，我們將Ｗ轉化為６４維的向量，與ｂ拼接起來作為參數(shù)．每次初始化環(huán)境時，θ和Ｗ，｛ｂ｝隨機地由高斯分布生成，用于訓練優(yōu)化器．圖３二次型函數(shù)的收斂曲線使用傳統(tǒng)的優(yōu)化算法（差分進化）、梯度下降算法和訓練好的優(yōu)化器的收斂曲線如圖３．為了定量地比較收斂情況，我們分別從收斂步數(shù)和收斂的相對誤差來比較各個算法的表現(xiàn)，相對誤差定義為如下形式：ｒｅｌａｔｉｖｅ＿ｌｏｓｓ＝ｌｏｓｓ＊ｆｉｎａｌ－ｌｏｓｓｄｄｐｇｆｉｎａｌｌｏｓｓｉｎｉｔｌｏｓｓ＊ｆｉｎａｌ為目標函數(shù)在各算法下收斂后的大�。福�

本文編號：3345369

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3345369.html

上一篇：基于神經網絡的創(chuàng)新多主體融知過程研究
下一篇：傳感網絡數(shù)據準確性評估方法的研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強化學習的參數(shù)化電路優(yōu)化算法