天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動化論文 >

基于強化學(xué)習(xí)的末制導(dǎo)導(dǎo)引律設(shè)計

發(fā)布時間:2021-01-16 05:38
  導(dǎo)引率設(shè)計是一種與計算機技術(shù)與控制工程相關(guān)的技術(shù),也是一個備受學(xué)術(shù)界和工業(yè)界關(guān)注的制導(dǎo)領(lǐng)域非常活躍的分支。近年來,導(dǎo)引率設(shè)計在人工智能制導(dǎo)的許多領(lǐng)域都有應(yīng)用,如何在現(xiàn)實情況下精確制導(dǎo)就成為當(dāng)今導(dǎo)彈導(dǎo)引率設(shè)計的重要的研究課題。然而,現(xiàn)今的制導(dǎo)通常存在如下問題:需要在模擬環(huán)境下訓(xùn)練,而模擬環(huán)境的設(shè)計需要很強的專業(yè)背景知識。在目標(biāo)做多種機動的情況下效果差。當(dāng)對導(dǎo)彈的飛行狀態(tài)做制約時,攔截的效果差。在實際應(yīng)用中,模擬器與真實環(huán)境存在差異;追求時效性和精確性,往往要求在模擬器下訓(xùn)練的算法有很強的魯棒性。為了解決這類問題,本文提出了一種新的導(dǎo)引律設(shè)計方法,該方法不存在最優(yōu)控制方法的缺點。在給定導(dǎo)彈模型和環(huán)境動力學(xué)的情況下,該方法利用強化學(xué)習(xí)(RL)學(xué)習(xí)給定的最優(yōu)制導(dǎo)律。與現(xiàn)有基于控制工程的導(dǎo)引率設(shè)計算法不同,本文中通過強化學(xué)習(xí)的方法,精確捕捉到環(huán)境的動態(tài)變化,因此大大提升了算法的魯棒性。同時解決了上述三個難題,實現(xiàn)了一個可實時的末制導(dǎo)模型。在目標(biāo)多機動的條件下,擊中效果較好且為端到端學(xué)習(xí)。 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:59 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于強化學(xué)習(xí)的末制導(dǎo)導(dǎo)引律設(shè)計


導(dǎo)彈攔截示意圖

示意圖,示意圖,馬爾科夫性,學(xué)習(xí)理論


圖 2-2 強化學(xué)習(xí)交互示意圖過程可以概括為以下三點(1)強化學(xué)習(xí)代理獲取到當(dāng)境狀態(tài)從 轉(zhuǎn)移到 。(3)強化學(xué)習(xí)代理獲取到下an 于 1957 年提出這種強化學(xué)習(xí)框架之后,Barto 于 1引入學(xué)習(xí)理論。下面介紹強化學(xué)習(xí)的基本原理及概夫性質(zhì)簡便,我們只在強化學(xué)習(xí)中考慮一階馬爾科夫性。個離散時間隨機控制過程是馬爾科夫的,如果它滿1 1 0 0( | , ) ( | , ,..., , )t t t t t tP w w a P w w a w a 0 0( | , ) ( | , ,..., , )t t t t t tP r w a P r w a w a質(zhì)意味著在整個隨機過程中,下一時刻的環(huán)境狀態(tài)狀態(tài)信息有關(guān),而與過去的歷史狀態(tài)毫無聯(lián)系。 的 核 心 理 論 基 礎(chǔ) 是 馬 爾 科 夫 決 策 過 程 (Marko

示意圖,示意圖,策略,執(zhí)行策略


圖 2-3 MDP 示意圖的策略學(xué)習(xí)研究中策略指的是強化學(xué)習(xí)代理根據(jù)它所感知到的當(dāng)信息從狀態(tài)集合中挑選合適的動作執(zhí)行的過程。策略以強化式可以分為確定性策略和統(tǒng)計性策略:策略情況下: ( s ) :S A.確定性策略直接將當(dāng)前環(huán)境的狀強化學(xué)習(xí)代理所要執(zhí)行的動作。策略情況下: ( s , a ) : S A [0,1].它描述了基于當(dāng)前環(huán)境學(xué)習(xí)代理執(zhí)行動作的統(tǒng)計分布情況。學(xué)習(xí)的優(yōu)化目標(biāo)紹累積回報的概念:設(shè)強化學(xué)習(xí)代理通過執(zhí)行策略 與環(huán)一條軌跡 。 的形式為{0 0, 0 1 1, 1 2 2, 2 ,, , , , , ,..., ,T T Ts a r s a r s a r s a r },這止時刻。則任意時刻 t 的累積回報定義為:( )kt kR t r

【參考文獻(xiàn)】:
期刊論文
[1]變論域模糊自適應(yīng)滑模有限時間收斂制導(dǎo)律[J]. 張旭,雷虎民,李炯,翟岱亮.  國防科技大學(xué)學(xué)報. 2015(02)
[2]一種基于目標(biāo)機動補償?shù)膮f(xié)同制導(dǎo)律[J]. 周華,劉紅軍,王澤,廖馨,郝穎.  導(dǎo)彈與航天運載技術(shù). 2015(01)
[3]高階滑模制導(dǎo)律的設(shè)計與實現(xiàn)[J]. 馬克茂,董繼鵬,張金鵬.  航空兵器. 2014(05)
[4]變結(jié)構(gòu)經(jīng)典比例導(dǎo)引制導(dǎo)性能對比研究[J]. 姚懷瑾,林德福,臧路堯,王武剛.  計算機仿真. 2014(07)
[5]Improved differential geometric guidance commands for endoatmospheric interception of high-speed targets[J]. LI KeBo,CHEN Lei,TANG GuoJin.  Science China(Technological Sciences). 2013(02)
[6]Nonlinear differential geometric guidance for maneuvering target[J]. Jikun Ye 1,*,Humin Lei 1,Dongfeng Xue 2,Jiong Li 1,and Lei Shao 1 1.Department of Missile Engineering,Missile Institute of Air Force Engineering University,Sanyuan 713800,P.R.China;2.Department of Strategies,Science College of Air Force Engineering University,Xi’an 710051,P.R.China.  Journal of Systems Engineering and Electronics. 2012(05)
[7]一種改進的比例導(dǎo)引規(guī)律的設(shè)計與仿真[J]. 袁泉,趙秀娜,馬宏緒,黃茜薇.  計算機仿真. 2007(07)
[8]國外鉆地武器的現(xiàn)狀與發(fā)展趨勢[J]. 王濤,余文力,王少龍,權(quán)威.  導(dǎo)彈與航天運載技術(shù). 2005(05)



本文編號:2980254

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2980254.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶88901***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com