Q-learning強(qiáng)化學(xué)習(xí)制導(dǎo)律

發(fā)布時(shí)間：2021-02-15 02:52

　　在未來(lái)的戰(zhàn)場(chǎng)中,智能導(dǎo)彈將成為精確有效的打擊武器,導(dǎo)彈智能化已成為一種主要的發(fā)展趨勢(shì)。本文以傳統(tǒng)的比例制導(dǎo)律為基礎(chǔ),提出基于強(qiáng)化學(xué)習(xí)的變比例系數(shù)制導(dǎo)算法。該算法以視線轉(zhuǎn)率作為狀態(tài),依據(jù)脫靶量設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并設(shè)計(jì)離散化的行為空間,為導(dǎo)彈選擇正確的制導(dǎo)指令。實(shí)驗(yàn)仿真驗(yàn)證了所提算法比傳統(tǒng)的比例制導(dǎo)律擁有更好的制導(dǎo)精度,并使導(dǎo)彈擁有了自主決策能力。

【文章來(lái)源】：系統(tǒng)工程與電子技術(shù). 2020,42(02)北大核心

【文章頁(yè)數(shù)】：6 頁(yè)

【部分圖文】：

彈目相對(duì)運(yùn)動(dòng)關(guān)系

流程圖,算法,變比,流程圖

算法流程圖

導(dǎo)引彈道,命中點(diǎn),折扣

學(xué)習(xí)率α=0.01；折扣率γ=0.99。折扣率不能選擇太小，如果折扣率過(guò)小將導(dǎo)致命中點(diǎn)處的正獎(jiǎng)勵(lì)無(wú)法擴(kuò)散到命中點(diǎn)之前的時(shí)刻，也就是說(shuō)導(dǎo)彈很有可能無(wú)法學(xué)習(xí)得到一個(gè)到達(dá)命中點(diǎn)處的策略。圖3是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)仿真得到的導(dǎo)引彈道，并將其與相同初始條件下的比例導(dǎo)引彈道進(jìn)行對(duì)比。如圖3所示，Q-learning制導(dǎo)律（Q-learning navigation guidance,QNG）的導(dǎo)引彈道如紅線所示，PNG的導(dǎo)引彈道如藍(lán)線所示�？梢钥闯�，QNG訓(xùn)練時(shí)，在制導(dǎo)前段，由于動(dòng)作的選擇是基于PNG給出的過(guò)載指令，導(dǎo)引彈道依然能發(fā)揮PNG的優(yōu)勢(shì)，僅在命中點(diǎn)處給出較大的獎(jiǎng)勵(lì)，并將這個(gè)獎(jiǎng)勵(lì)擴(kuò)散到之前的每一時(shí)刻的動(dòng)作決策中，此舉可以大大提高制導(dǎo)精度，并且使整段彈道平滑。

【參考文獻(xiàn)】：
期刊論文
[1]基于強(qiáng)化學(xué)習(xí)的旋翼無(wú)人機(jī)智能追蹤方法[J]. 史豪斌,徐夢(mèng).  電子科技大學(xué)學(xué)報(bào). 2019(04)
[2]基于強(qiáng)化學(xué)習(xí)的自主式水下潛器障礙規(guī)避技術(shù)（英文）[J]. Prashant Bhopale,Faruk Kazi,Navdeep Singh.  Journal of Marine Science and Application. 2019(02)
[3]基于深度強(qiáng)化學(xué)習(xí)的追逃博弈算法[J]. 譚浪,鞏慶海,王會(huì)霞.  航天控制. 2018(06)
[4]Illegal Radio Station Localization with UAV-Based Q-Learning[J]. Shengjun Wu.  中國(guó)通信. 2018(12)
[5]基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制[J]. 聶春雨,祝明,鄭澤偉,武哲.  北京航空航天大學(xué)學(xué)報(bào). 2017(12)
[6]基于Q學(xué)習(xí)的變體無(wú)人機(jī)控制系統(tǒng)設(shè)計(jì)[J]. 徐小野,李愛軍,張叢叢,姚宗信.  西北工業(yè)大學(xué)學(xué)報(bào). 2012(03)
[7]基于模糊Q學(xué)習(xí)算法的AGV路徑規(guī)劃研究[J]. 陳自立,徐婭萍,顧立彬.  制造業(yè)自動(dòng)化. 2012(11)
[8]Hybrid MDP based integrated hierarchical Q-learning[J]. TARN Tzyh-Jong.  Science China（Information Sciences）. 2011(11)
[9]一種基于強(qiáng)化學(xué)習(xí)的UAV目標(biāo)搜索算法[J]. 張晶晶,周德云,張堃.  計(jì)算機(jī)應(yīng)用研究. 2011(10)
[10]Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J]. Amanda LAMPTON,John VALASEK,Mrinal KUMAR.  Journal of Control Theory and Applications. 2011(03)

碩士論文
[1]基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)空中格斗算法研究[D]. 魏航.哈爾濱工業(yè)大學(xué) 2015
[2]攔截大機(jī)動(dòng)目標(biāo)的模糊導(dǎo)引律研究[D]. 李紅霞.東北大學(xué) 2013
[3]基于模糊邏輯的精確末制導(dǎo)律研究[D]. 郭鵬飛.西北工業(yè)大學(xué) 2003

本文編號(hào)：3034300

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/jingguansheji/3034300.html

上一篇：浮球平臺(tái)電容式姿態(tài)測(cè)量系統(tǒng)研究
下一篇：基于免疫Agent算法的無(wú)人艇協(xié)同作戰(zhàn)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

Q-learning強(qiáng)化學(xué)習(xí)制導(dǎo)律