基于強化學習的參數(shù)化電路優(yōu)化算法
發(fā)布時間:2021-08-16 08:53
本文主要致力于解決參數(shù)化形式的優(yōu)化問題,即minθf(θ,w),其中θ是需要優(yōu)化的變量,w則是對應不同優(yōu)化問題的參數(shù),在現(xiàn)實中經常會遇到需要解決一系列不同參數(shù)下的優(yōu)化問題.在對某種特定結構的問題下,通過對不同的參數(shù)訓練一個模型來解決所有參數(shù)下的優(yōu)化問題.和傳統(tǒng)的方法不一樣,并不是通過對不同的參數(shù)多次獨立抽樣來訓練我們的模型,而是利用強化學習的方法加速訓練過程.強化學習算法中分別用策略網絡來得到優(yōu)化結果和利用價值網絡來評價策略好壞,通過迭代地訓練兩個網絡來優(yōu)化策略.在后面一些數(shù)學例子和電路優(yōu)化的例子中顯示強化學習的方法取得了比較好的效果.
【文章來源】:微電子學與計算機. 2019,36(01)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1環(huán)境與智能體的關系基于觀測量作出一個動作隨后環(huán)境更新當前狀態(tài)
f:S→瓗作為強化學習任務中的環(huán)境E,目標函數(shù)中的優(yōu)化變量θt作為狀態(tài)st,每次智能體從環(huán)境中觀測得到的觀測量除了狀態(tài)之外,還包括了目標函數(shù)中的參數(shù)w,而智能體充當了優(yōu)化過程中的優(yōu)化器的作用,每次提供的動作作為當前狀態(tài)的更新量Δθ.最后我們定義回報函數(shù)為rt=f(θt+1)-f(θt),也就是說當優(yōu)化器使得目標函數(shù)減小的程度越多,得到的回報就越大.現(xiàn)在我們成功的將一個參數(shù)的優(yōu)化問題轉化為了一個強化學習的任務,如圖2所示.圖2轉化成強化學習任務的優(yōu)化器框架4實驗4.1實現(xiàn)細節(jié)在我們的實驗中,我們使用了簡單的淺層全連接網絡來搭建策略網絡和判定網絡.在訓練過程中,使用Adam優(yōu)化器來優(yōu)化網絡權重,學習率被設置為0.001,訓練步數(shù)設置為30000次,其中一步表示智能體作出一次動作.回報折價因子設置為0.99,軟更新常數(shù)設置為0.001.OpenAIGym是一個為強化學習算法提供環(huán)境接口的工具箱,里面有許多集成的環(huán)境,包括離散動作空間和連續(xù)動作空間等,里面每個環(huán)境都有公共的接口,也可以自己實現(xiàn)環(huán)境的接口來自定義環(huán)境,只需要實現(xiàn)以下幾個接口即可:reset接口負責將環(huán)境內部的所有狀態(tài)初始化為原始狀態(tài),可以是隨機初始化也可以初始化為特定值;sample接口負責從動作空間(是gym包中的一個spaces對象)中隨機抽取一個動作;step接口接收一個動作作為輸入參數(shù),更新環(huán)境內部的狀態(tài)后,返回新的觀測量ot,回報rt,一
函數(shù),可以表示為以下形式:f(θ;W,b)=‖Wθ-b‖22在這個實驗中,我們利用DDPG算法訓練了一個簡單的優(yōu)化器來優(yōu)化一個8維的二次型函數(shù).其中優(yōu)化變量為θ,即長度為8的向量,參數(shù)為W,{b},分別是8×8大小的矩陣和長度為8的向量.在優(yōu)化過程中,我們將W轉化為64維的向量,與b拼接起來作為參數(shù).每次初始化環(huán)境時,θ和W,{b}隨機地由高斯分布生成,用于訓練優(yōu)化器.圖3二次型函數(shù)的收斂曲線使用傳統(tǒng)的優(yōu)化算法(差分進化)、梯度下降算法和訓練好的優(yōu)化器的收斂曲線如圖3.為了定量地比較收斂情況,我們分別從收斂步數(shù)和收斂的相對誤差來比較各個算法的表現(xiàn),相對誤差定義為如下形式:relative_loss=loss*final-lossddpgfinallossinitloss*final為目標函數(shù)在各算法下收斂后的大。福
本文編號:3345369
【文章來源】:微電子學與計算機. 2019,36(01)北大核心
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1環(huán)境與智能體的關系基于觀測量作出一個動作隨后環(huán)境更新當前狀態(tài)
f:S→瓗作為強化學習任務中的環(huán)境E,目標函數(shù)中的優(yōu)化變量θt作為狀態(tài)st,每次智能體從環(huán)境中觀測得到的觀測量除了狀態(tài)之外,還包括了目標函數(shù)中的參數(shù)w,而智能體充當了優(yōu)化過程中的優(yōu)化器的作用,每次提供的動作作為當前狀態(tài)的更新量Δθ.最后我們定義回報函數(shù)為rt=f(θt+1)-f(θt),也就是說當優(yōu)化器使得目標函數(shù)減小的程度越多,得到的回報就越大.現(xiàn)在我們成功的將一個參數(shù)的優(yōu)化問題轉化為了一個強化學習的任務,如圖2所示.圖2轉化成強化學習任務的優(yōu)化器框架4實驗4.1實現(xiàn)細節(jié)在我們的實驗中,我們使用了簡單的淺層全連接網絡來搭建策略網絡和判定網絡.在訓練過程中,使用Adam優(yōu)化器來優(yōu)化網絡權重,學習率被設置為0.001,訓練步數(shù)設置為30000次,其中一步表示智能體作出一次動作.回報折價因子設置為0.99,軟更新常數(shù)設置為0.001.OpenAIGym是一個為強化學習算法提供環(huán)境接口的工具箱,里面有許多集成的環(huán)境,包括離散動作空間和連續(xù)動作空間等,里面每個環(huán)境都有公共的接口,也可以自己實現(xiàn)環(huán)境的接口來自定義環(huán)境,只需要實現(xiàn)以下幾個接口即可:reset接口負責將環(huán)境內部的所有狀態(tài)初始化為原始狀態(tài),可以是隨機初始化也可以初始化為特定值;sample接口負責從動作空間(是gym包中的一個spaces對象)中隨機抽取一個動作;step接口接收一個動作作為輸入參數(shù),更新環(huán)境內部的狀態(tài)后,返回新的觀測量ot,回報rt,一
函數(shù),可以表示為以下形式:f(θ;W,b)=‖Wθ-b‖22在這個實驗中,我們利用DDPG算法訓練了一個簡單的優(yōu)化器來優(yōu)化一個8維的二次型函數(shù).其中優(yōu)化變量為θ,即長度為8的向量,參數(shù)為W,{b},分別是8×8大小的矩陣和長度為8的向量.在優(yōu)化過程中,我們將W轉化為64維的向量,與b拼接起來作為參數(shù).每次初始化環(huán)境時,θ和W,{b}隨機地由高斯分布生成,用于訓練優(yōu)化器.圖3二次型函數(shù)的收斂曲線使用傳統(tǒng)的優(yōu)化算法(差分進化)、梯度下降算法和訓練好的優(yōu)化器的收斂曲線如圖3.為了定量地比較收斂情況,我們分別從收斂步數(shù)和收斂的相對誤差來比較各個算法的表現(xiàn),相對誤差定義為如下形式:relative_loss=loss*final-lossddpgfinallossinitloss*final為目標函數(shù)在各算法下收斂后的大。福
本文編號:3345369
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3345369.html
最近更新
教材專著