基于MADDPG算法的多智能體協(xié)同控制研究

發(fā)布時(shí)間：2020-12-21 04:26

　　傳統(tǒng)的工業(yè)機(jī)器人是建立在精確的數(shù)學(xué)模型的基礎(chǔ)上,其控制方法通常是在固定的環(huán)境中設(shè)定特定任務(wù)。然而這樣的傳統(tǒng)控制系統(tǒng)不具備適應(yīng)性以及泛化性,當(dāng)機(jī)器人處于的環(huán)境發(fā)生細(xì)微的改變時(shí),機(jī)器人則無(wú)法準(zhǔn)確的完成任務(wù),因此智能控制算法逐漸成為機(jī)器控制的研究熱點(diǎn)。隨著強(qiáng)化學(xué)習(xí)以及深度學(xué)習(xí)的不斷發(fā)展,將深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到機(jī)器人控制受到了廣大的研究人員的關(guān)注。本文首先介紹了傳統(tǒng)機(jī)械控制的控制原理和深度強(qiáng)化學(xué)習(xí)的發(fā)展,闡述了本課題的研究背景與研究目的。其次,在基于物理引擎的MuJoCo環(huán)境中采用了確定性策略梯度算法（Deep Deterministic Policy Gradient,DDPG）,重點(diǎn)研究DDPG算法在單個(gè)智能體環(huán)境的魯棒性與通用性。然而,隨著智能體數(shù)量的增加而引起的環(huán)境不穩(wěn)定,導(dǎo)致一般的深度強(qiáng)化學(xué)習(xí)在聯(lián)合行動(dòng)空間中存在一定的困難。最后為了解決這個(gè)問(wèn)題,本次設(shè)計(jì)一個(gè)四個(gè)機(jī)械手臂通過(guò)協(xié)作控制到達(dá)目標(biāo)位置的任務(wù),并使用了多智能體確定性策略梯度算法（Multi-Agent Deep Deterministic Policy Gradient,MADDPG）在MuJoCo中進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,...

【文章來(lái)源】：武漢紡織大學(xué)湖北省

【文章頁(yè)數(shù)】：60 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

無(wú)人機(jī)群（來(lái)自網(wǎng)絡(luò)）

流水線,機(jī)器人,智能機(jī)器人

1緒論2圖1.2流水線機(jī)器人（來(lái)自網(wǎng)絡(luò)）智能機(jī)器人作為一門新興的研究學(xué)科，其涵蓋了機(jī)器人運(yùn)動(dòng)學(xué)、生物仿真學(xué)科、人工智能技術(shù)、傳感器技術(shù)等多種學(xué)科知識(shí)，對(duì)社會(huì)的發(fā)展與人類生活的進(jìn)步起著重要的作用[4]。智能機(jī)器人通過(guò)獲取與處理外界的信息，自主的完成困難繁瑣的工業(yè)任務(wù)。同時(shí)也可隨著環(huán)境的變化，建立與修正新的環(huán)境模型來(lái)完成各種作業(yè)。智能機(jī)器人技術(shù)作為未來(lái)社會(huì)發(fā)展的重要工具，在許多領(lǐng)域中有著突出的作用[5]。例如智能機(jī)器人在制造領(lǐng)域中的應(yīng)用能夠高效率的提高產(chǎn)量，并成功推動(dòng)了智能生產(chǎn)系統(tǒng)的發(fā)展以及今后人類的智能生活[6]。智能機(jī)器人系統(tǒng)最重要的組成部分是機(jī)器人的學(xué)習(xí)模塊，也是機(jī)器人智能化的重要因素。學(xué)習(xí)模塊實(shí)際上是機(jī)器人對(duì)外界信息的處理過(guò)程，而人工智能算法則是學(xué)習(xí)模塊的重要手段，負(fù)責(zé)賦予機(jī)器人判斷、邏輯分析、自主適應(yīng)等能力。我國(guó)以及其他國(guó)家已經(jīng)把智能機(jī)器人列為人類未來(lái)的高技術(shù)課題，并制定發(fā)展規(guī)劃，給與巨額扶助[7]。而作為如今火熱的協(xié)同控制算法則顯得更加的重要。1.2課題研究目的與意義近年來(lái)，隨著智能機(jī)器人的飛速發(fā)展，各行各業(yè)都離不開智能機(jī)器人的身影，尤其在一些復(fù)雜的工作環(huán)境以及人類無(wú)法完成的任務(wù)中，例如物流搬運(yùn)、海底探索等高危工作[8]。在以往的機(jī)器人系統(tǒng)中，單個(gè)的機(jī)器人控制上已經(jīng)有了相對(duì)完美的控制算法，同時(shí)機(jī)器視覺和嵌入式技術(shù)趨于成熟，單個(gè)機(jī)器人系統(tǒng)已經(jīng)越發(fā)的智能化[9]。然而隨著生活和科技的發(fā)展，對(duì)于機(jī)器人之間的協(xié)同控制研究格外的重要。簡(jiǎn)單而言，機(jī)器人之間的協(xié)作能力，就是每個(gè)機(jī)器智能體組成一個(gè)大的系統(tǒng)，多個(gè)智能體之間共同協(xié)作，感知，決策，完美的完成一個(gè)任務(wù)。因此相對(duì)于傳統(tǒng)的單個(gè)機(jī)器人控制算法，研究人員更迫切的想要研究多智能控制算法[10]。以

框架圖,學(xué)習(xí)標(biāo)準(zhǔn),框架

1緒論4特征表示。深度神經(jīng)網(wǎng)絡(luò)的第三次發(fā)展還在繼續(xù)，現(xiàn)在研究人員已經(jīng)著眼于無(wú)監(jiān)督學(xué)習(xí)以及模型在小數(shù)據(jù)集的泛化能力，研究重點(diǎn)已經(jīng)發(fā)生了重大的變化。但是目前更多目光還是集中于對(duì)傳統(tǒng)的監(jiān)督學(xué)習(xí)算法的研究以及模型在大型數(shù)據(jù)集的泛化能力[17]。同時(shí)，深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一部分，極大地促進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展，最為廣泛的應(yīng)用在語(yǔ)音、圖像和自然語(yǔ)言處理這三個(gè)研究領(lǐng)域。1.3.2強(qiáng)化學(xué)習(xí)研究相關(guān)知識(shí)強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)一樣，也有著相當(dāng)長(zhǎng)的發(fā)展歷史了，直到20世紀(jì)末強(qiáng)化學(xué)習(xí)才在機(jī)器學(xué)習(xí)和人工智能中得到了廣泛的研究，同時(shí)也與數(shù)學(xué)學(xué)科、機(jī)器人控制學(xué)等相關(guān)學(xué)科有關(guān)[18]。但是作為機(jī)器學(xué)習(xí)的一個(gè)重要研究領(lǐng)域，強(qiáng)化學(xué)習(xí)不同于深度學(xué)習(xí)的是更加注重解決問(wèn)題的策略，同時(shí)強(qiáng)化學(xué)習(xí)是智能體與環(huán)境之間的交互，需要的是具有帶有回報(bào)獎(jiǎng)勵(lì)的交互數(shù)據(jù)，而不是與深度學(xué)習(xí)一樣需要大量帶有標(biāo)簽的數(shù)據(jù)。強(qiáng)化學(xué)習(xí)與環(huán)境交互的標(biāo)準(zhǔn)框架如圖1.3所示。圖1.3強(qiáng)化學(xué)習(xí)標(biāo)準(zhǔn)框架目前，強(qiáng)化學(xué)習(xí)的主要算法大致分為兩大類：一種是基于值的算法（Value-Based），另一種是基于策略的算法（Policy-Based）。同時(shí)也可以按模型分類，分為基于模型的算法與模型無(wú)關(guān)法。強(qiáng)化學(xué)習(xí)算法更新比較快，已經(jīng)出現(xiàn)了像Q-learning、Sarsa、DeepQNetwork、PolicyGradients等優(yōu)秀的算法。同時(shí)這些算法已經(jīng)在自動(dòng)駕駛汽車，群體機(jī)器人，協(xié)作機(jī)械手，軌跡規(guī)劃等領(lǐng)域具有廣泛的潛在應(yīng)用。并且在《星際爭(zhēng)霸》等游戲中展示了良好的效果。

【參考文獻(xiàn)】：
期刊論文
[1]SCARA四軸機(jī)器人控制系統(tǒng)綜述[J]. 楊明,張如昊,張軍,朱昊天,孫永平,陳揚(yáng)洋,徐殿國(guó).  電氣傳動(dòng). 2020(01)
[2]智能掃地機(jī)器人控制系統(tǒng)設(shè)計(jì)[J]. 苗振騰.  電子世界. 2019(24)
[3]機(jī)械臂運(yùn)動(dòng)學(xué)建模及解算方法綜述[J]. 冷舒,吳克,居鶴華.  宇航學(xué)報(bào). 2019(11)
[4]基于深度強(qiáng)化算法的機(jī)器人動(dòng)態(tài)目標(biāo)點(diǎn)跟隨研究[J]. 徐繼寧,曾杰.  計(jì)算機(jī)科學(xué). 2019(S2)
[5]智能機(jī)器人及其控制技術(shù)研究[J]. 劉玉玲.  科技創(chuàng)新導(dǎo)報(bào). 2019(26)
[6]基于二連桿任務(wù)的深度強(qiáng)化學(xué)習(xí)算法分析與比較[J]. 萬(wàn)仁卓,王思源,馮繹銘,桂熙,丁雷,王駿,周國(guó)鵬.  湖北科技學(xué)院學(xué)報(bào). 2019(03)
[7]綜述智能機(jī)器人的發(fā)展與組成[J]. 陸昱方.  通訊世界. 2019(01)
[8]智能機(jī)器人產(chǎn)業(yè)的現(xiàn)狀與未來(lái)[J]. 王哲,馮曉輝,李藝銘,莊金鑫.  人工智能. 2018(03)
[9]探究智能移動(dòng)機(jī)器人的現(xiàn)狀及展望[J]. 武雨飛.  中國(guó)戰(zhàn)略新興產(chǎn)業(yè). 2018(12)
[10]深度強(qiáng)化學(xué)習(xí)進(jìn)展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒.  控制理論與應(yīng)用. 2017(12)

碩士論文
[1]基于多智能體強(qiáng)化學(xué)習(xí)的制造過(guò)程建模方法研究[D]. 李志鵬.齊魯工業(yè)大學(xué) 2019
[2]基于RoboCup多智能體系統(tǒng)學(xué)習(xí)與協(xié)作問(wèn)題的研究[D]. 楊寶慶.江南大學(xué) 2008

本文編號(hào)：2929183

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/shoufeilunwen/xixikjs/2929183.html

上一篇：基于變異錯(cuò)誤定位的變異體約減策略研究
下一篇：注冊(cè)電氣工程師考試軟件系統(tǒng)的研究與設(shè)計(jì)

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于MADDPG算法的多智能體協(xié)同控制研究