基于強(qiáng)化學(xué)習(xí)的無人機(jī)空中格斗算法研究

發(fā)布時間：2017-08-31 06:10

本文關(guān)鍵詞：基于強(qiáng)化學(xué)習(xí)的無人機(jī)空中格斗算法研究

【摘要】：隨著無人戰(zhàn)斗機(jī)在軍事領(lǐng)域上的應(yīng)用越來越廣泛,世界各國都在下大力氣研制無人機(jī),無人戰(zhàn)斗機(jī)的出現(xiàn)也將改變未來的空戰(zhàn)態(tài)勢,成為決定戰(zhàn)場的重要力量。在這其中,無人機(jī)的智能化水平將是無人機(jī)技術(shù)發(fā)展的關(guān)鍵,未來的無人戰(zhàn)斗機(jī)將不僅能夠通過傳感器感知狀態(tài)信息,區(qū)分?jǐn)澄夷繕?biāo),還能夠根據(jù)不同的作戰(zhàn)任務(wù),進(jìn)行空戰(zhàn)決策�？諔�(zhàn)決策理論經(jīng)過近幾十年的發(fā)展,逐步形成了以專家系統(tǒng)、微分對策為主的傳統(tǒng)方法和以神經(jīng)網(wǎng)絡(luò)、遺傳算法、蟻群算法為代表的智能方法。本文主要研究了基于強(qiáng)化學(xué)習(xí)的無人機(jī)空中格斗算法,主要做了以下幾個方面的工作:一是對強(qiáng)化學(xué)習(xí)的基本理論做了詳細(xì)的介紹,通過強(qiáng)化學(xué)習(xí)算法的對比分析,指出了當(dāng)前強(qiáng)化學(xué)習(xí)研究面臨的一些困難和問題,同時對強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域做了介紹。二是以強(qiáng)化學(xué)習(xí)的經(jīng)典算法以及現(xiàn)階段研究熱點為依據(jù),以強(qiáng)化學(xué)習(xí)系統(tǒng)中涉及的策略、值函數(shù)、回報函數(shù)等要素為核心,改進(jìn)了算法性能。首先通過添加一個動機(jī)層,通過這一層,將先驗知識引入到強(qiáng)化學(xué)習(xí)中,形成狀態(tài)映射到動機(jī)、再從動機(jī)映射到動作的兩層映射關(guān)系,提高了收斂速度。隨后又采用模擬退火算法進(jìn)一步提高了算法的性能。三是以空中格斗決策為重點,完成了RBF神經(jīng)網(wǎng)絡(luò)的動機(jī)引導(dǎo)強(qiáng)化學(xué)習(xí)算法的設(shè)計,通過對比不同決策意圖下的飛行軌跡,驗證了算法的有效性。
【關(guān)鍵詞】：無人戰(zhàn)斗機(jī) 強(qiáng)化學(xué)習(xí) 動機(jī)引導(dǎo) 空中格斗
【學(xué)位授予單位】：哈爾濱工業(yè)大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2015
【分類號】：V279
【目錄】：

摘要4-5
Abstract5-8
第1章緒論8-19
1.1 課題研究背景8-13
1.2 國內(nèi)外研究現(xiàn)狀13-17
1.2.1 空戰(zhàn)決策理論研究現(xiàn)狀13-15
1.2.2 強(qiáng)化學(xué)習(xí)研究現(xiàn)狀15-17
1.3 本文的主要研究內(nèi)容17-19
第2章強(qiáng)化學(xué)習(xí)理論19-36
2.1 強(qiáng)化學(xué)習(xí)及其理論基礎(chǔ)19-25
2.1.1 馬爾科夫決策過程模型19-21
2.1.2 強(qiáng)化學(xué)習(xí)的基本原理及模型21-23
2.1.3 強(qiáng)化學(xué)習(xí)的組成要素23-25
2.2 典型強(qiáng)化學(xué)習(xí)模型25-33
2.2.1 強(qiáng)化學(xué)習(xí)算法的目的25-26
2.2.2 瞬時差分算法26-29
2.2.3 Q學(xué)習(xí)算法29-30
2.2.4 Sarsa算法30
2.2.5 自適應(yīng)啟發(fā)評價算法30-32
2.2.6 分層強(qiáng)化學(xué)習(xí)32-33
2.3 強(qiáng)化學(xué)習(xí)的應(yīng)用領(lǐng)域33-35
2.3.1 優(yōu)化控制中應(yīng)用33-34
2.3.2 機(jī)器人領(lǐng)域的應(yīng)用34
2.3.3 調(diào)度控制領(lǐng)域的應(yīng)用34-35
2.3.4 人工智能問題求解中的應(yīng)用35
2.4 本章小結(jié)35-36
第3章基于動機(jī)引導(dǎo)的強(qiáng)化學(xué)習(xí)算法研究36-43
3.1 動機(jī)引導(dǎo)強(qiáng)化學(xué)習(xí)36-38
3.1.1 基本思想36-37
3.1.2 算法描述37-38
3.2 基于模擬退火的動機(jī)引導(dǎo)強(qiáng)化學(xué)習(xí)38-39
3.2.1 基本思想38
3.2.2 算法描述38-39
3.3 實驗設(shè)計及結(jié)果分析39-42
3.3.1 實驗環(huán)境39-41
3.3.2 實驗參數(shù)設(shè)置41
3.3.3 結(jié)果分析41-42
3.4 本章小結(jié)42-43
第4章基于強(qiáng)化學(xué)習(xí)的無人機(jī)格斗算法研究43-56
4.1 引言43-44
4.2 無人機(jī)格斗環(huán)境描述44-50
4.2.1 系統(tǒng)的狀態(tài)和輸入44-45
4.2.2 動機(jī)與可選動作集合45-48
4.2.3 目標(biāo)狀態(tài)和回報函數(shù)的定義48-50
4.3 基于強(qiáng)化學(xué)習(xí)的無人機(jī)格斗算法設(shè)計50-53
4.3.1 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計50-51
4.3.2 神經(jīng)網(wǎng)絡(luò)訓(xùn)練51-52
4.3.3 生成訓(xùn)練樣本52
4.3.4 算法步驟52-53
4.4 結(jié)果分析53-54
4.5 本章小結(jié)54-56
結(jié)論56-57
參考文獻(xiàn)57-62
致謝62

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前8條

1 馬耀飛;龔光紅;彭曉源;;基于強(qiáng)化學(xué)習(xí)的航空兵認(rèn)知行為模型[J];北京航空航天大學(xué)學(xué)報;2010年04期

2 吳洪巖;劉淑華;張崳;;基于RBFNN的強(qiáng)化學(xué)習(xí)在機(jī)器人導(dǎo)航中的應(yīng)用[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2009年02期

3 郭昊;周德云;張X;;無人作戰(zhàn)飛機(jī)空戰(zhàn)自主機(jī)動決策研究[J];電光與控制;2010年08期

4 滄桑;國外正在研制的無人戰(zhàn)斗機(jī)[J];國外科技動態(tài);2005年05期

5 仵博;鄭紅燕;馮延蓬;陳鑫;;一種基于模型的可分解貝葉斯在線強(qiáng)化學(xué)習(xí)[J];電子學(xué)報;2014年07期

6 周思羽;吳文海;張楠;張靖;;自主空戰(zhàn)機(jī)動決策方法綜述[J];航空計算技術(shù);2012年01期

7 蔣國飛,吳滄浦;基于Q學(xué)習(xí)算法和BP神經(jīng)網(wǎng)絡(luò)的倒立擺控制[J];自動化學(xué)報;1998年05期

8 程玉虎;王雪松;易建強(qiáng);孫偉;;基于自組織模糊RBF網(wǎng)絡(luò)的連續(xù)空間Q學(xué)習(xí)[J];信息與控制;2008年01期

，

本文編號：763895

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/hangkongsky/763895.html

上一篇：石墨蓄熱式集熱管內(nèi)流動沸騰傳熱特性
下一篇：復(fù)雜構(gòu)型細(xì)長體飛行器大迎角氣動不確定性機(jī)理研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的無人機(jī)空中格斗算法研究