基于深度強(qiáng)化學(xué)習(xí)的非線性系統(tǒng)自適應(yīng)優(yōu)化控制
發(fā)布時(shí)間:2021-10-05 16:25
本文基于深度強(qiáng)化學(xué)習(xí)技術(shù),研究了一類連續(xù)時(shí)間非線性系統(tǒng)的自適應(yīng)優(yōu)化控制問(wèn)題。對(duì)于復(fù)雜或模型未知的非線性系統(tǒng)來(lái)說(shuō),由于系統(tǒng)模型的復(fù)雜性和未知性,很難從模型的角度出發(fā)去設(shè)計(jì)優(yōu)化控制算法?紤]到強(qiáng)化學(xué)習(xí)的決策能力與深度學(xué)習(xí)的環(huán)境感知能力,本文提出了三種在線求解連續(xù)時(shí)間非線性系統(tǒng)的自適應(yīng)優(yōu)化控制器算法。本文提出的深度強(qiáng)化學(xué)習(xí)算法最大的優(yōu)點(diǎn)是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合。本文的主要工作和貢獻(xiàn)具體如下:首先,針對(duì)一類具有輸入時(shí)滯的模型部分未知的連續(xù)時(shí)間非線性系統(tǒng),研究了一種新的在線自適應(yīng)優(yōu)化控制器設(shè)計(jì)方案。利用線性微分包含技術(shù)對(duì)原系統(tǒng)進(jìn)行線性化處理,通過(guò)在線策略迭代算法得到了線性化系統(tǒng)的自適應(yīng)優(yōu)化控制器,并證明了所設(shè)計(jì)的自適應(yīng)優(yōu)化控制算法的收斂性。最后,通過(guò)兩個(gè)仿真實(shí)例驗(yàn)證了該方法的有效性。然后,研究了一類模型未知連續(xù)時(shí)間非線性系統(tǒng)的自適應(yīng)優(yōu)化控制器設(shè)計(jì)問(wèn)題。結(jié)合Q-學(xué)習(xí)算法和生成式對(duì)抗網(wǎng)絡(luò)方案,成功地設(shè)計(jì)了一種新的連續(xù)時(shí)間模型未知非線性系統(tǒng)的自適應(yīng)優(yōu)化控制算法。采用最新的生成式對(duì)抗網(wǎng)絡(luò)訓(xùn)練策略來(lái)穩(wěn)定系統(tǒng),并證明了所設(shè)計(jì)的自適應(yīng)優(yōu)化控制算法的收斂性。最后,通過(guò)仿真實(shí)例驗(yàn)證了該方法的有效性,并通過(guò)與傳...
【文章來(lái)源】:安徽大學(xué)安徽省 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Pk的參數(shù)
安徽大學(xué)碩士學(xué)位論文15圖(2.1)為算法隨著迭代過(guò)程的代價(jià)矩陣參數(shù)變化曲線。代價(jià)矩陣參數(shù)經(jīng)過(guò)一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設(shè)計(jì)的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號(hào)Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設(shè)計(jì)的優(yōu)化控制器輸入。
安徽大學(xué)碩士學(xué)位論文15圖(2.1)為算法隨著迭代過(guò)程的代價(jià)矩陣參數(shù)變化曲線。代價(jià)矩陣參數(shù)經(jīng)過(guò)一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設(shè)計(jì)的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號(hào)Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設(shè)計(jì)的優(yōu)化控制器輸入。
【參考文獻(xiàn)】:
期刊論文
[1]基于去隨機(jī)化方法的Markov跳變系統(tǒng)有限頻段控制[J]. 萬(wàn)海英,欒小麗,劉飛. 控制理論與應(yīng)用. 2018(07)
[2]多支路加熱爐分布式平衡與跟蹤控制[J]. 欒小麗,閔鴦,劉飛. 自動(dòng)化學(xué)報(bào). 2017(06)
[3]基于分布式偏差的加熱爐支路溫度一致控制[J]. 閔鴦,欒小麗,劉飛. 化工學(xué)報(bào). 2016(12)
[4]跳變系統(tǒng)在給定時(shí)間內(nèi)的有限頻段H∞控制[J]. 周超潔,欒小麗,劉飛. 控制理論與應(yīng)用. 2016(02)
[5]具有噪聲約束的時(shí)滯Markov跳變網(wǎng)絡(luò)給定時(shí)間一致性協(xié)議設(shè)計(jì)[J]. 閔鴦,欒小麗,劉飛. 控制理論與應(yīng)用. 2016(01)
本文編號(hào):3420113
【文章來(lái)源】:安徽大學(xué)安徽省 211工程院校
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Pk的參數(shù)
安徽大學(xué)碩士學(xué)位論文15圖(2.1)為算法隨著迭代過(guò)程的代價(jià)矩陣參數(shù)變化曲線。代價(jià)矩陣參數(shù)經(jīng)過(guò)一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設(shè)計(jì)的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號(hào)Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設(shè)計(jì)的優(yōu)化控制器輸入。
安徽大學(xué)碩士學(xué)位論文15圖(2.1)為算法隨著迭代過(guò)程的代價(jià)矩陣參數(shù)變化曲線。代價(jià)矩陣參數(shù)經(jīng)過(guò)一次迭代就可以收斂。圖2.2系統(tǒng)的狀態(tài)軌跡Figure2.2:Thestatetrajectoryofthesystem.圖(2.2)為所設(shè)計(jì)的優(yōu)化控制器作用下的狀態(tài)軌跡。圖2.3優(yōu)化控制器的輸入信號(hào)Figure2.3:Theinputsignaloftheoptimalcontroller.圖(2.3)為所設(shè)計(jì)的優(yōu)化控制器輸入。
【參考文獻(xiàn)】:
期刊論文
[1]基于去隨機(jī)化方法的Markov跳變系統(tǒng)有限頻段控制[J]. 萬(wàn)海英,欒小麗,劉飛. 控制理論與應(yīng)用. 2018(07)
[2]多支路加熱爐分布式平衡與跟蹤控制[J]. 欒小麗,閔鴦,劉飛. 自動(dòng)化學(xué)報(bào). 2017(06)
[3]基于分布式偏差的加熱爐支路溫度一致控制[J]. 閔鴦,欒小麗,劉飛. 化工學(xué)報(bào). 2016(12)
[4]跳變系統(tǒng)在給定時(shí)間內(nèi)的有限頻段H∞控制[J]. 周超潔,欒小麗,劉飛. 控制理論與應(yīng)用. 2016(02)
[5]具有噪聲約束的時(shí)滯Markov跳變網(wǎng)絡(luò)給定時(shí)間一致性協(xié)議設(shè)計(jì)[J]. 閔鴦,欒小麗,劉飛. 控制理論與應(yīng)用. 2016(01)
本文編號(hào):3420113
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3420113.html
最近更新
教材專著