天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軍工論文 >

Q-learning強(qiáng)化學(xué)習(xí)制導(dǎo)律

發(fā)布時(shí)間:2021-02-15 02:52
  在未來(lái)的戰(zhàn)場(chǎng)中,智能導(dǎo)彈將成為精確有效的打擊武器,導(dǎo)彈智能化已成為一種主要的發(fā)展趨勢(shì)。本文以傳統(tǒng)的比例制導(dǎo)律為基礎(chǔ),提出基于強(qiáng)化學(xué)習(xí)的變比例系數(shù)制導(dǎo)算法。該算法以視線轉(zhuǎn)率作為狀態(tài),依據(jù)脫靶量設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),并設(shè)計(jì)離散化的行為空間,為導(dǎo)彈選擇正確的制導(dǎo)指令。實(shí)驗(yàn)仿真驗(yàn)證了所提算法比傳統(tǒng)的比例制導(dǎo)律擁有更好的制導(dǎo)精度,并使導(dǎo)彈擁有了自主決策能力。 

【文章來(lái)源】:系統(tǒng)工程與電子技術(shù). 2020,42(02)北大核心

【文章頁(yè)數(shù)】:6 頁(yè)

【部分圖文】:

Q-learning強(qiáng)化學(xué)習(xí)制導(dǎo)律


彈目相對(duì)運(yùn)動(dòng)關(guān)系

流程圖,算法,變比,流程圖


算法流程圖

導(dǎo)引彈道,命中點(diǎn),折扣


學(xué)習(xí)率α=0.01;折扣率γ=0.99。折扣率不能選擇太小,如果折扣率過(guò)小將導(dǎo)致命中點(diǎn)處的正獎(jiǎng)勵(lì)無(wú)法擴(kuò)散到命中點(diǎn)之前的時(shí)刻,也就是說(shuō)導(dǎo)彈很有可能無(wú)法學(xué)習(xí)得到一個(gè)到達(dá)命中點(diǎn)處的策略。圖3是經(jīng)過(guò)強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)仿真得到的導(dǎo)引彈道,并將其與相同初始條件下的比例導(dǎo)引彈道進(jìn)行對(duì)比。如圖3所示,Q-learning制導(dǎo)律(Q-learning navigation guidance,QNG)的導(dǎo)引彈道如紅線所示,PNG的導(dǎo)引彈道如藍(lán)線所示?梢钥闯,QNG訓(xùn)練時(shí),在制導(dǎo)前段,由于動(dòng)作的選擇是基于PNG給出的過(guò)載指令,導(dǎo)引彈道依然能發(fā)揮PNG的優(yōu)勢(shì),僅在命中點(diǎn)處給出較大的獎(jiǎng)勵(lì),并將這個(gè)獎(jiǎng)勵(lì)擴(kuò)散到之前的每一時(shí)刻的動(dòng)作決策中,此舉可以大大提高制導(dǎo)精度,并且使整段彈道平滑。

【參考文獻(xiàn)】:
期刊論文
[1]基于強(qiáng)化學(xué)習(xí)的旋翼無(wú)人機(jī)智能追蹤方法[J]. 史豪斌,徐夢(mèng).  電子科技大學(xué)學(xué)報(bào). 2019(04)
[2]基于強(qiáng)化學(xué)習(xí)的自主式水下潛器障礙規(guī)避技術(shù)(英文)[J]. Prashant Bhopale,Faruk Kazi,Navdeep Singh.  Journal of Marine Science and Application. 2019(02)
[3]基于深度強(qiáng)化學(xué)習(xí)的追逃博弈算法[J]. 譚浪,鞏慶海,王會(huì)霞.  航天控制. 2018(06)
[4]Illegal Radio Station Localization with UAV-Based Q-Learning[J]. Shengjun Wu.  中國(guó)通信. 2018(12)
[5]基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制[J]. 聶春雨,祝明,鄭澤偉,武哲.  北京航空航天大學(xué)學(xué)報(bào). 2017(12)
[6]基于Q學(xué)習(xí)的變體無(wú)人機(jī)控制系統(tǒng)設(shè)計(jì)[J]. 徐小野,李愛軍,張叢叢,姚宗信.  西北工業(yè)大學(xué)學(xué)報(bào). 2012(03)
[7]基于模糊Q學(xué)習(xí)算法的AGV路徑規(guī)劃研究[J]. 陳自立,徐婭萍,顧立彬.  制造業(yè)自動(dòng)化. 2012(11)
[8]Hybrid MDP based integrated hierarchical Q-learning[J]. TARN Tzyh-Jong.  Science China(Information Sciences). 2011(11)
[9]一種基于強(qiáng)化學(xué)習(xí)的UAV目標(biāo)搜索算法[J]. 張晶晶,周德云,張堃.  計(jì)算機(jī)應(yīng)用研究. 2011(10)
[10]Multiresolution state-space discretization for Q-Learning with pseudorandomized discretization[J]. Amanda LAMPTON,John VALASEK,Mrinal KUMAR.  Journal of Control Theory and Applications. 2011(03)

碩士論文
[1]基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)空中格斗算法研究[D]. 魏航.哈爾濱工業(yè)大學(xué) 2015
[2]攔截大機(jī)動(dòng)目標(biāo)的模糊導(dǎo)引律研究[D]. 李紅霞.東北大學(xué) 2013
[3]基于模糊邏輯的精確末制導(dǎo)律研究[D]. 郭鵬飛.西北工業(yè)大學(xué) 2003



本文編號(hào):3034300

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jingguansheji/3034300.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶063e3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com