基于分支深度強化學(xué)習(xí)的非合作目標(biāo)追逃博弈策略求解
發(fā)布時間:2025-05-15 03:48
為解決航天器與非合作目標(biāo)的空間交會問題,緩解深度強化學(xué)習(xí)在連續(xù)空間的應(yīng)用限制,提出了一種基于分支深度強化學(xué)習(xí)的追逃博弈算法,以獲得與非合作目標(biāo)的空間交會策略。對于非合作目標(biāo)的空間交會最優(yōu)控制,運用微分對策描述為連續(xù)推力作用下的追逃博弈問題;為避免傳統(tǒng)深度強化學(xué)習(xí)應(yīng)對連續(xù)空間存在維數(shù)災(zāi)難問題,通過構(gòu)建模糊推理模型來表征連續(xù)空間,提出了一種具有多組并行神經(jīng)網(wǎng)絡(luò)和共享決策模塊的分支深度強化學(xué)習(xí)架構(gòu)。實現(xiàn)了最優(yōu)控制與博弈論的結(jié)合,有效解決了微分對策模型高度非線性且難于利用經(jīng)典最優(yōu)控制理論進行求解的難題,進一步提升了深度強化學(xué)習(xí)對離散行為的學(xué)習(xí)能力,并通過算例仿真檢驗了該算法的有效性。
【文章頁數(shù)】:11 頁
【文章目錄】:
1 航天器與非合作目標(biāo)的動力學(xué)模型
2 空間行為的模糊推理模型
3 追逃博弈的分支深度強化學(xué)習(xí)
3.1 多組并行的網(wǎng)絡(luò)分支
3.2 共享行為決策模塊
3.3 航天器與非合作目標(biāo)的博弈交互
4 算例分析
5 結(jié)論
本文編號:4046198
【文章頁數(shù)】:11 頁
【文章目錄】:
1 航天器與非合作目標(biāo)的動力學(xué)模型
2 空間行為的模糊推理模型
3 追逃博弈的分支深度強化學(xué)習(xí)
3.1 多組并行的網(wǎng)絡(luò)分支
3.2 共享行為決策模塊
3.3 航天器與非合作目標(biāo)的博弈交互
4 算例分析
5 結(jié)論
本文編號:4046198
本文鏈接:http://www.sikaile.net/kejilunwen/hangkongsky/4046198.html
最近更新
教材專著