基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)規(guī)劃研究
發(fā)布時(shí)間:2022-07-07 08:44
多自由度機(jī)械臂具有運(yùn)動(dòng)靈活的特點(diǎn),其運(yùn)動(dòng)規(guī)劃是機(jī)器人領(lǐng)域的研究熱點(diǎn)。機(jī)械臂在有障礙物的復(fù)雜環(huán)境中進(jìn)行抓取、搬運(yùn)、人機(jī)協(xié)作等運(yùn)動(dòng)時(shí),需要對(duì)機(jī)械臂的運(yùn)動(dòng)路徑及抓取姿態(tài)進(jìn)行規(guī)劃。本文重點(diǎn)研究了基于深度強(qiáng)化學(xué)習(xí)的機(jī)械臂的路徑規(guī)劃和位姿規(guī)劃,針對(duì)機(jī)械臂的運(yùn)動(dòng)規(guī)劃訓(xùn)練時(shí)間長(zhǎng)和訓(xùn)練樣本多的問題,進(jìn)一步提出了具有遷移學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的機(jī)械臂運(yùn)動(dòng)規(guī)劃算法。首先,針對(duì)機(jī)械臂避障問題,提出了基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的NAO機(jī)器人右臂路徑規(guī)劃算法;贛uJoCo仿真平臺(tái)搭建了無障礙物和有障礙物仿真環(huán)境,在仿真環(huán)境中,通過設(shè)定的獎(jiǎng)勵(lì)函數(shù),采用DDPG算法進(jìn)行了機(jī)械臂路徑規(guī)劃控制策略的自主學(xué)習(xí)訓(xùn)練,實(shí)現(xiàn)了機(jī)械臂由輸入到輸出的端對(duì)端控制,完成了機(jī)械臂避障的路徑規(guī)劃。其次,在無障礙物環(huán)境下,針對(duì)多自由度機(jī)械臂抓取物體的位姿規(guī)劃問題,提出了基于DDPG的位姿規(guī)劃算法。根據(jù)NAO機(jī)器人右臂不同的抓取姿態(tài),設(shè)計(jì)了學(xué)習(xí)任務(wù)的獎(jiǎng)勵(lì)函數(shù)。由于DDPG算法在訓(xùn)練過程中需要耗費(fèi)大量的時(shí)間和數(shù)據(jù)樣本,進(jìn)一步提出了基于遷移學(xué)習(xí)的DDPG算法,通過對(duì)比DD...
【文章頁數(shù)】:87 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 仿人機(jī)械臂國(guó)外研究現(xiàn)狀
1.2.2 仿人機(jī)械臂國(guó)內(nèi)研究現(xiàn)狀
1.2.3 機(jī)械臂運(yùn)動(dòng)規(guī)劃研究現(xiàn)狀
1.2.4 深度強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
1.3 課題來源
1.4 本文研究?jī)?nèi)容
第2章 基于DDPG算法的機(jī)械臂路徑規(guī)劃
2.1 引言
2.2 深度確定性策略梯度算法
2.2.1 貝爾曼等式
2.2.2 誤差更新
2.2.3 深度確定性策略梯度算法(DDPG)
2.3 NAO機(jī)器人右臂建模
2.3.1 NAO機(jī)器人右臂參數(shù)
2.3.2 NAO機(jī)器人右臂DH參數(shù)法建模
2.4 仿真研究
2.4.1 無障礙物情景
2.4.2 有障礙物情景
2.5 本章小結(jié)
第3章 無障礙環(huán)境下基于遷移學(xué)習(xí)的DDPG算法的機(jī)械臂抓取位姿規(guī)劃
3.1 引言
3.2 遷移學(xué)習(xí)
3.2.1 深度強(qiáng)化學(xué)習(xí)的環(huán)境-動(dòng)作遷移
3.2.2 深度強(qiáng)化學(xué)習(xí)的狀態(tài)值函數(shù)遷移
3.2.3 基于遷移學(xué)習(xí)的DDPG算法
3.3 無障礙環(huán)境下機(jī)械臂位姿規(guī)劃的建模
3.4 仿真訓(xùn)練實(shí)驗(yàn)研究
3.5 無障礙環(huán)境下NAO機(jī)器人抓取實(shí)驗(yàn)
3.5.1 手眼標(biāo)定
3.5.2 物體位姿檢測(cè)實(shí)驗(yàn)
3.5.3 基于遷移學(xué)習(xí)的DDPG算法的機(jī)械臂位姿規(guī)劃抓取實(shí)驗(yàn)
3.6 本章小結(jié)
第4章 有障礙環(huán)境下基于遷移學(xué)習(xí)的DDPG算法的機(jī)械臂抓取位姿規(guī)劃
4.1 引言
4.2 有障礙環(huán)境下機(jī)械臂位姿規(guī)劃的建模
4.3 仿真訓(xùn)練實(shí)驗(yàn)研究
4.4 有障礙環(huán)境下NAO機(jī)器人抓取實(shí)驗(yàn)
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于遷移學(xué)習(xí)的全連接神經(jīng)網(wǎng)絡(luò)舌象分類方法[J]. 楊晶東,張朋. 第二軍醫(yī)大學(xué)學(xué)報(bào). 2018(08)
[2]冗余機(jī)械臂空間軌跡規(guī)劃綜述[J]. 高涵,張明路,張小俊. 機(jī)械傳動(dòng). 2016(10)
[3]基于HOG特征的優(yōu)化區(qū)域模板匹配檢測(cè)[J]. 王溪波,王彬,趙海,朱宏博,葛宏帥,樸春赫. 沈陽工業(yè)大學(xué)學(xué)報(bào). 2016(06)
[4]基于協(xié)作空間與靈巧度的機(jī)器人輔助微創(chuàng)手術(shù)術(shù)前規(guī)劃算法[J]. 王偉,王偉東,董為,杜志江,孫永平. 機(jī)器人. 2016(02)
[5]基于簡(jiǎn)化形式的Jacobian矩陣的牛頓迭代法求解6自由度機(jī)器人逆解算法[J]. 何理,張軍. 機(jī)床與液壓. 2015(21)
[6]融合旋轉(zhuǎn)平移信息的機(jī)器人手眼標(biāo)定方法[J]. 張召瑞,張旭,鄭澤龍,屠大維. 儀器儀表學(xué)報(bào). 2015(11)
[7]基于A*算法的空間機(jī)械臂避障路徑規(guī)劃[J]. 賈慶軒,陳鋼,孫漢旭,鄭雙奇. 機(jī)械工程學(xué)報(bào). 2010(13)
[8]一種用于車輛最短路徑規(guī)劃的自適應(yīng)遺傳算法及其與Dijkstra和A*算法的比較[J]. 李擎,謝四江,童新海,王志良. 北京科技大學(xué)學(xué)報(bào). 2006(11)
[9]基于混合人工勢(shì)場(chǎng)-遺傳算法的移動(dòng)機(jī)器人路徑規(guī)劃仿真研究[J]. 況菲,王耀南. 系統(tǒng)仿真學(xué)報(bào). 2006(03)
碩士論文
[1]冗余靈巧臂的示教學(xué)習(xí)[D]. 沈瓏斌.浙江大學(xué) 2014
本文編號(hào):3656107
【文章頁數(shù)】:87 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 仿人機(jī)械臂國(guó)外研究現(xiàn)狀
1.2.2 仿人機(jī)械臂國(guó)內(nèi)研究現(xiàn)狀
1.2.3 機(jī)械臂運(yùn)動(dòng)規(guī)劃研究現(xiàn)狀
1.2.4 深度強(qiáng)化學(xué)習(xí)研究現(xiàn)狀
1.3 課題來源
1.4 本文研究?jī)?nèi)容
第2章 基于DDPG算法的機(jī)械臂路徑規(guī)劃
2.1 引言
2.2 深度確定性策略梯度算法
2.2.1 貝爾曼等式
2.2.2 誤差更新
2.2.3 深度確定性策略梯度算法(DDPG)
2.3 NAO機(jī)器人右臂建模
2.3.1 NAO機(jī)器人右臂參數(shù)
2.3.2 NAO機(jī)器人右臂DH參數(shù)法建模
2.4 仿真研究
2.4.1 無障礙物情景
2.4.2 有障礙物情景
2.5 本章小結(jié)
第3章 無障礙環(huán)境下基于遷移學(xué)習(xí)的DDPG算法的機(jī)械臂抓取位姿規(guī)劃
3.1 引言
3.2 遷移學(xué)習(xí)
3.2.1 深度強(qiáng)化學(xué)習(xí)的環(huán)境-動(dòng)作遷移
3.2.2 深度強(qiáng)化學(xué)習(xí)的狀態(tài)值函數(shù)遷移
3.2.3 基于遷移學(xué)習(xí)的DDPG算法
3.3 無障礙環(huán)境下機(jī)械臂位姿規(guī)劃的建模
3.4 仿真訓(xùn)練實(shí)驗(yàn)研究
3.5 無障礙環(huán)境下NAO機(jī)器人抓取實(shí)驗(yàn)
3.5.1 手眼標(biāo)定
3.5.2 物體位姿檢測(cè)實(shí)驗(yàn)
3.5.3 基于遷移學(xué)習(xí)的DDPG算法的機(jī)械臂位姿規(guī)劃抓取實(shí)驗(yàn)
3.6 本章小結(jié)
第4章 有障礙環(huán)境下基于遷移學(xué)習(xí)的DDPG算法的機(jī)械臂抓取位姿規(guī)劃
4.1 引言
4.2 有障礙環(huán)境下機(jī)械臂位姿規(guī)劃的建模
4.3 仿真訓(xùn)練實(shí)驗(yàn)研究
4.4 有障礙環(huán)境下NAO機(jī)器人抓取實(shí)驗(yàn)
4.5 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間承擔(dān)的科研任務(wù)與主要成果
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于遷移學(xué)習(xí)的全連接神經(jīng)網(wǎng)絡(luò)舌象分類方法[J]. 楊晶東,張朋. 第二軍醫(yī)大學(xué)學(xué)報(bào). 2018(08)
[2]冗余機(jī)械臂空間軌跡規(guī)劃綜述[J]. 高涵,張明路,張小俊. 機(jī)械傳動(dòng). 2016(10)
[3]基于HOG特征的優(yōu)化區(qū)域模板匹配檢測(cè)[J]. 王溪波,王彬,趙海,朱宏博,葛宏帥,樸春赫. 沈陽工業(yè)大學(xué)學(xué)報(bào). 2016(06)
[4]基于協(xié)作空間與靈巧度的機(jī)器人輔助微創(chuàng)手術(shù)術(shù)前規(guī)劃算法[J]. 王偉,王偉東,董為,杜志江,孫永平. 機(jī)器人. 2016(02)
[5]基于簡(jiǎn)化形式的Jacobian矩陣的牛頓迭代法求解6自由度機(jī)器人逆解算法[J]. 何理,張軍. 機(jī)床與液壓. 2015(21)
[6]融合旋轉(zhuǎn)平移信息的機(jī)器人手眼標(biāo)定方法[J]. 張召瑞,張旭,鄭澤龍,屠大維. 儀器儀表學(xué)報(bào). 2015(11)
[7]基于A*算法的空間機(jī)械臂避障路徑規(guī)劃[J]. 賈慶軒,陳鋼,孫漢旭,鄭雙奇. 機(jī)械工程學(xué)報(bào). 2010(13)
[8]一種用于車輛最短路徑規(guī)劃的自適應(yīng)遺傳算法及其與Dijkstra和A*算法的比較[J]. 李擎,謝四江,童新海,王志良. 北京科技大學(xué)學(xué)報(bào). 2006(11)
[9]基于混合人工勢(shì)場(chǎng)-遺傳算法的移動(dòng)機(jī)器人路徑規(guī)劃仿真研究[J]. 況菲,王耀南. 系統(tǒng)仿真學(xué)報(bào). 2006(03)
碩士論文
[1]冗余靈巧臂的示教學(xué)習(xí)[D]. 沈瓏斌.浙江大學(xué) 2014
本文編號(hào):3656107
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3656107.html
最近更新
教材專著