基于經(jīng)驗移植的自主空戰(zhàn)對抗學(xué)習(xí)方法
發(fā)布時間:2024-01-21 08:04
現(xiàn)有的機(jī)器學(xué)習(xí)方法大多是交互式的學(xué)習(xí)模式,這類方法在訓(xùn)練過程非常依賴與環(huán)境之間的交互數(shù)據(jù)。空戰(zhàn)對抗任務(wù)是一種獎勵非常稀疏的訓(xùn)練任務(wù),智能體在學(xué)習(xí)開始的很長一段時間內(nèi),都在探索能夠獲得獎勵的動作。如果每一個新的任務(wù)都重新訓(xùn)練,是非常浪費計算資源的。因此,設(shè)計了一種基于經(jīng)驗移植的學(xué)習(xí)方法,使得經(jīng)過訓(xùn)練的智能體能夠?qū)⒅R分享給新的智能體,提高其在新任務(wù)上的學(xué)習(xí)效率。首先,借鑒人類通過經(jīng)驗進(jìn)行快速學(xué)習(xí)的現(xiàn)象,構(gòu)建了基于經(jīng)驗移植的學(xué)習(xí)的模型;其次,兼顧知識分享和新任務(wù)的特征,明確了經(jīng)驗的內(nèi)涵,建立了"知識+任務(wù)→經(jīng)驗"的融合認(rèn)知方式;再次,設(shè)計了借鑒學(xué)習(xí)方法,將外部經(jīng)驗與任務(wù)相結(jié)合,進(jìn)而轉(zhuǎn)化為新個體的知識;最后,使用經(jīng)驗適用度作為篩選指標(biāo),分析了經(jīng)驗適用度對借鑒學(xué)習(xí)效率的影響,確定了執(zhí)行借鑒學(xué)習(xí)的篩選邊界。新個體通過借鑒學(xué)習(xí)后能夠獲得關(guān)于新任務(wù)的初步知識,在新任務(wù)中更快地找到能夠獲得獎勵的動作策略,從而提升在新的任務(wù)中的學(xué)習(xí)速度。
【文章頁數(shù)】:9 頁
本文編號:3881546
【文章頁數(shù)】:9 頁
本文編號:3881546
本文鏈接:http://www.sikaile.net/shekelunwen/renwuzj/3881546.html
最近更新
教材專著