基于強(qiáng)化學(xué)習(xí)的空間機(jī)械臂控制方法
發(fā)布時(shí)間:2023-04-22 11:33
針對(duì)現(xiàn)有空間機(jī)械臂控制方法在實(shí)際應(yīng)用中調(diào)試時(shí)間長(zhǎng)、穩(wěn)定性差的問題,提出一種基于深度強(qiáng)化學(xué)習(xí)的控制算法。構(gòu)建仿真環(huán)境用于產(chǎn)生數(shù)據(jù),通過狀態(tài)變量實(shí)現(xiàn)仿真環(huán)境與深度強(qiáng)化學(xué)習(xí)算法的交互,通過獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)的訓(xùn)練,最終實(shí)現(xiàn)使用近端策略優(yōu)化算法(Proximal Policy Optimization,PPO)控制空間機(jī)械臂將抓手移動(dòng)至物體下方特定位置的目的。實(shí)驗(yàn)結(jié)果表明,本文提出的控制算法能夠快速收斂,實(shí)現(xiàn)控制空間機(jī)械臂完成特定目標(biāo),并且有效降低抖動(dòng)現(xiàn)象,提升控制的穩(wěn)定性。
【文章頁(yè)數(shù)】:6 頁(yè)
【文章目錄】:
0 引言
1 PPO算法
2 基于PPO的控制算法
2.1 系統(tǒng)組成
2.2 訓(xùn)練環(huán)境
2.3 基于PPO的控制決策算法
3 仿真校驗(yàn)
4 結(jié)論
本文編號(hào):3797559
【文章頁(yè)數(shù)】:6 頁(yè)
【文章目錄】:
0 引言
1 PPO算法
2 基于PPO的控制算法
2.1 系統(tǒng)組成
2.2 訓(xùn)練環(huán)境
2.3 基于PPO的控制決策算法
3 仿真校驗(yàn)
4 結(jié)論
本文編號(hào):3797559
本文鏈接:http://www.sikaile.net/kejilunwen/hangkongsky/3797559.html
最近更新
教材專著