數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)鎮(zhèn)定控制

發(fā)布時(shí)間：2020-06-02 03:52

【摘要】：由于現(xiàn)代控制理論受制于系統(tǒng)的模型復(fù)雜程度與模型假設(shè)的可行性,無法對(duì)實(shí)際生產(chǎn)應(yīng)用中越來越復(fù)雜的控制對(duì)象產(chǎn)生良好的鎮(zhèn)定效果。系統(tǒng)復(fù)雜度提高的同時(shí),由于計(jì)算機(jī)科學(xué)的發(fā)展,也使得這些復(fù)雜系統(tǒng)在生產(chǎn)運(yùn)行中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)相比較基于機(jī)理建立的系統(tǒng)模型包含了更多的被控對(duì)象動(dòng)態(tài)信息。直接利用這些測量數(shù)據(jù),跳過建模過程,即利用數(shù)據(jù)驅(qū)動(dòng)(Data-Driven Control)的方式對(duì)復(fù)雜系統(tǒng)設(shè)計(jì)出滿足性能要求的控制器具有十分現(xiàn)實(shí)的意義。針對(duì)數(shù)據(jù)驅(qū)動(dòng)/無模型的控制器設(shè)計(jì)方法有很多,近似Q學(xué)習(xí)(Approximate Q-Learning,AQL)作為一種典型的強(qiáng)化學(xué)習(xí)(Reinforcement learning,RL)方法,由于其在被控對(duì)象的知識(shí)或者模型未知時(shí)求解非線性最優(yōu)鎮(zhèn)定控制問題的突出效果,近年來受到了廣泛的關(guān)注。然而,由于函數(shù)逼近誤差的存在,近似Q學(xué)習(xí)(AQL)算法只能給出非線性最優(yōu)鎮(zhèn)定控制問題的近似最優(yōu)解。因此,最優(yōu)性誤差界的定量分析是一個(gè)十分關(guān)鍵的問題。這個(gè)問題在已發(fā)表的國內(nèi)外文獻(xiàn)中并沒有被徹底的解決。本論文利用值迭代近似Q學(xué)習(xí)(AQL)方法求解數(shù)據(jù)驅(qū)動(dòng)/無模型的最優(yōu)鎮(zhèn)定控制問題,并創(chuàng)新的提出了一種新的最優(yōu)性誤差界分析框架。主要研究內(nèi)容如下:首先,為了便于可以清晰簡潔地分析非線性動(dòng)態(tài)系統(tǒng)最優(yōu)鎮(zhèn)定控制問題的最優(yōu)性誤差界,基于對(duì)被控對(duì)象閉環(huán)系統(tǒng)吸引域(Domain of Attraction,DOA)的估計(jì),給出了非線性動(dòng)態(tài)系統(tǒng)Q學(xué)習(xí)算子的概念,并給出了 Q學(xué)習(xí)算子的性質(zhì),對(duì)Q學(xué)習(xí)算子進(jìn)行了嚴(yán)謹(jǐn)定義。其次,給出了值迭代近似Q學(xué)習(xí)(AQL)算法,該算法可以得到一個(gè)次優(yōu)控制器。最后,高斯過程回歸(Gaussian Processes Regression,GPR)是定義在函數(shù)分布上的貝葉斯建模過程,使用高斯過程回歸(GPR)作為Q函數(shù)的函數(shù)估計(jì)器,高斯過程回歸(GPR)可以將預(yù)測結(jié)果的標(biāo)準(zhǔn)差作為函數(shù)近似誤差界。進(jìn)而給出了 Q函數(shù)估計(jì)的誤差范圍以及值迭代近似Q學(xué)習(xí)閉環(huán)最優(yōu)性誤差界的定量分析結(jié)果,也就是最優(yōu)指標(biāo)與閉環(huán)系統(tǒng)近似Q學(xué)習(xí)(AQL)實(shí)際指標(biāo)之間的誤差界。本論文對(duì)線性被控對(duì)象、非線性被控對(duì)象和倒立擺模型分別進(jìn)行了仿真實(shí)驗(yàn),實(shí)驗(yàn)成果表明,基于值迭代近似Q學(xué)習(xí)(AQL)算法,通過本論文提出的最優(yōu)性誤差界分析框架,可以得到被控對(duì)象基于數(shù)據(jù)驅(qū)動(dòng)控制的一個(gè)次優(yōu)控制器,并給出了最優(yōu)性誤差界。從本文的主要成果中可以看出,當(dāng)用于估計(jì)Q函數(shù)的有效數(shù)據(jù)數(shù)量和迭代算法迭代的次數(shù)都趨于無限的,最優(yōu)性誤差界為零。
【圖文】：

方法,在線或離線,數(shù)據(jù)驅(qū)動(dòng),控制器設(shè)計(jì)

邐數(shù)據(jù)驅(qū)動(dòng)Ｑ學(xué)習(xí)鎮(zhèn)定控制邐逡逑顯性地使用被控對(duì)象的物理化學(xué)模型，只通過被控對(duì)象在線或離線的數(shù)據(jù)經(jīng)過處逡逑理后獲得的知識(shí)和信息來實(shí)現(xiàn)控制目標(biāo)的控制方法。同時(shí)在合理的假設(shè)下，閉環(huán)逡逑系統(tǒng)的穩(wěn)定性和收斂性，能夠被嚴(yán)格的分析。逡逑圖１－２為數(shù)據(jù)驅(qū)動(dòng)控制方法的基本結(jié)構(gòu)，，正如上文中關(guān)于數(shù)據(jù)驅(qū)動(dòng)控制的的逡逑定義所說，一方面，控制器的設(shè)計(jì)基于測量數(shù)據(jù)，模型不再在控制器設(shè)計(jì)的過程逡逑中起主導(dǎo)地位，被控系統(tǒng)的在線或離線數(shù)據(jù)才是控制器設(shè)計(jì)的核心因素，也就是逡逑說數(shù)據(jù)主導(dǎo)了控制系統(tǒng)的設(shè)計(jì)。另一方面，控制器的設(shè)計(jì)過程中仍然可能存在建逡逑模的過程，但這個(gè)過程只利用數(shù)據(jù)來獲取模型知識(shí)，而不是物理化學(xué)原埋，只利逡逑用數(shù)據(jù)的建模過程可以避免引入過多的假設(shè)。然而，通過數(shù)據(jù)驅(qū)動(dòng)控制方法得到逡逑的控制器，，仍然需要通過嚴(yán)格的理論分析來保證閉環(huán)系統(tǒng)的性能。逡逑

生物體,相互作用,環(huán)境

相互作用中有更大的可能和概率去使用這些成功的行為和決策［２６］。這是一種啟發(fā)逡逑式學(xué)習(xí)的過程，這個(gè)過程的目的在于盡量使未來在與環(huán)境的不斷相互作用中的回逡逑報(bào)盡可能的大。圖１－３展示了環(huán)境與生物體相互作用的過程。逡逑在控制工程領(lǐng)域內(nèi)，回報(bào)的最大化可以看作是控制指標(biāo)的最小化。盡管強(qiáng)化逡逑學(xué)習(xí)（ＲＬ）的起源是從計(jì)算機(jī)科學(xué)領(lǐng)域發(fā)展而來，但它現(xiàn)在己經(jīng)得到了控制領(lǐng)逡逑域科學(xué)家的理論驗(yàn)證。由于強(qiáng)化學(xué)習(xí)（ＲＬ）能夠有效處理無模型／數(shù)據(jù)驅(qū)動(dòng)的最逡逑４逡逑
【學(xué)位授予單位】：浙江工業(yè)大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2019
【分類號(hào)】：TP13

【相似文獻(xiàn)】

相關(guān)期刊論文前10條

1 呂煜航;;探究大數(shù)據(jù)驅(qū)動(dòng)的社會(huì)科學(xué)研究轉(zhuǎn)型[J];科學(xué)技術(shù)創(chuàng)新;2019年14期

2 王學(xué)勇;費(fèi)廷偉;史旭升;王文琦;;數(shù)據(jù)驅(qū)動(dòng)的智慧企業(yè)管理新模式探索[J];軍民兩用技術(shù)與產(chǎn)品;2019年05期

3 李平;蔣君毅;;基于大數(shù)據(jù)驅(qū)動(dòng)的高校學(xué)生就業(yè)服務(wù)效能提升研究[J];科技經(jīng)濟(jì)導(dǎo)刊;2019年17期

4 程夢(mèng)瑤;;達(dá)索系統(tǒng)：數(shù)據(jù)驅(qū)動(dòng) 助力城市復(fù)興之路[J];軟件和集成電路;2019年11期

5 周德立;;淺論基于數(shù)據(jù)驅(qū)動(dòng)的智能舞臺(tái)技術(shù)研究[J];傳播力研究;2018年20期

6 方璐;;語料庫數(shù)據(jù)驅(qū)動(dòng)的外語學(xué)習(xí):思想、方法和技術(shù)[J];課程教育研究;2017年29期

7 馮艷艷;;從判斷性評(píng)價(jià)到專業(yè)化診斷[J];中小學(xué)信息技術(shù)教育;2017年10期

8 李睿;;基于語料庫的數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)在外語教學(xué)中的前景[J];甘肅教育;2007年14期

9 姚琥;;數(shù)據(jù)驅(qū)動(dòng),智慧風(fēng)控[J];金融電子化;2017年02期

10 王瑜;;大數(shù)據(jù)驅(qū)動(dòng)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”模式創(chuàng)新[J];才智;2017年07期

相關(guān)會(huì)議論文前10條

1 高欣;;基于元數(shù)據(jù)驅(qū)動(dòng)的通信協(xié)議建模技術(shù)[A];全國冶金自動(dòng)化信息網(wǎng)2015年會(huì)論文集[C];2015年

2 胡繼華;;元數(shù)據(jù)驅(qū)動(dòng)在信息資源管理中的應(yīng)用研究——以城建行業(yè)為例[A];中國地理信息系統(tǒng)協(xié)會(huì)第三次代表大會(huì)暨第七屆年會(huì)論文集[C];2003年

3 吳佳;王

本文編號(hào)：2692565

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2692565.html

上一篇：基于深度學(xué)習(xí)的網(wǎng)絡(luò)熱點(diǎn)新聞?lì)A(yù)測方法研究
下一篇：低信噪比下點(diǎn)源目標(biāo)哈特曼傳感器的子光斑定位算法研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

數(shù)據(jù)驅(qū)動(dòng)Q學(xué)習(xí)鎮(zhèn)定控制