特定路網(wǎng)環(huán)境中多對象集中式運動協(xié)調(diào)策略的強化學習算法研究與實現(xiàn)

發(fā)布時間：2021-11-19 03:03

　　近年來,智能體技術的應用使得人類避免了許多重復、危險的任務。由于任務復雜度的提高,單個智能體無法滿足需求,多智能體系統(tǒng)應運而生并被應用于工業(yè)、軍事、航天等多個領域。在多智能體系統(tǒng)中,移動智能體系統(tǒng)是應用最廣泛的一個分支。移動智能體系統(tǒng)通過智能體間的協(xié)同工作共同完成任務,而多個智能體在移動過程中可能會發(fā)生碰撞,如何協(xié)調(diào)多智能體的運動是移動智能體系統(tǒng)的重要研究課題之一。本文的研究目標是在一個包含路網(wǎng)的二維場景下,以車式移動機器人為研究對象,利用強化學習的方法生成一個運動協(xié)調(diào)策略保證多機器人在運動過程中不發(fā)生碰撞,并且整體運動時間盡可能短。針對特定路網(wǎng)環(huán)境下的多機器人運動協(xié)調(diào)問題,本文提出了一種結合雙深度Q網(wǎng)絡（Double Deep Q-Network,DDQN）方法的多機器人集中式運動協(xié)調(diào)強化學習算法。論文首先采用場景劃分和基于矩形包圍盒的碰撞檢測算法得到機器人路徑間的碰撞區(qū)域,然后利用本文設計的路徑切分與轉(zhuǎn)化方法將碰撞區(qū)域與路徑集合轉(zhuǎn)換成一種特定的路徑棋盤圖模型,該模型提供了強化學習訓練中與智能體交互的環(huán)境,最后設計了環(huán)境的狀態(tài)空間、智能體的動作空間以及環(huán)境的獎勵模型,并利用DDQN方...

【文章來源】：北京交通大學北京市 211工程院校教育部直屬院校

【文章頁數(shù)】：66 頁

【學位級別】：碩士

【部分圖文】：

圖１－１集中式協(xié)調(diào)模型??ｕｒｅ－ｅｎｒａｚｒｉｎａｉｎｌ??

協(xié)調(diào)模型

圖１－２分布式協(xié)調(diào)模型??Ｆｉｇｕｒｅ?１－２?Ｄｉｓｔｒｉｂｕｔｅｄ?ｃｏｏｒｄｉｎａｔｉｏｎ?ｍｏｄｅｌ??混合式協(xié)調(diào)方式［１７］如圖１－３所示�；旌鲜絽f(xié)調(diào)結合了集中式協(xié)調(diào)和分布式協(xié)??調(diào)的優(yōu)點，它存在一個中央控制單元掌握全局信息，負責分配任務和系統(tǒng)資源以及??協(xié)調(diào)沖突，并且系統(tǒng)中各個機器人掌握局部信息，它們相互之間采取通信手段進行??信息交流，根據(jù)自身的規(guī)劃算法進行自主決策的同時結合中央控制單元的控制命??令進行運動規(guī)劃�；旌鲜絽f(xié)調(diào)方式不僅可以在復雜的系統(tǒng)中提高協(xié)調(diào)效率，還可以??保持集中式協(xié)調(diào)獲得最優(yōu)解的優(yōu)點以及分布式協(xié)調(diào)的實時性和適應性等優(yōu)點。??Ｋｕｍａｒ等研究者設計了一種協(xié)調(diào)多機器人團隊執(zhí)行合作任務的方法［１８］，該方法利??用混合協(xié)調(diào)模型對角色分配進行建模，利用混合自動機表示角色的轉(zhuǎn)換與控制，并??在多機器人合作運輸任務中得到了驗證。??＜中央控制單元＿??圖１－３混合式協(xié)調(diào)模型??Ｆｉｇｕｒｅ?１－３?Ｈｙｂｒｉｄ?ｃｏｏｒｄｉｎａｔｉｏｎ?ｍｏｄｅｌ??顯示協(xié)調(diào)是一種利用通信的運動協(xié)調(diào)方式，它要求系統(tǒng)中各機器人不僅需要??共享目標和環(huán)境信息

協(xié)調(diào)模型,混合式

、：．”．ｙ??圖１－２分布式協(xié)調(diào)模型??Ｆｉｇｕｒｅ?１－２?Ｄｉｓｔｒｉｂｕｔｅｄ?ｃｏｏｒｄｉｎａｔｉｏｎ?ｍｏｄｅｌ??混合式協(xié)調(diào)方式［１７］如圖１－３所示�；旌鲜絽f(xié)調(diào)結合了集中式協(xié)調(diào)和分布式協(xié)??調(diào)的優(yōu)點，它存在一個中央控制單元掌握全局信息，負責分配任務和系統(tǒng)資源以及??協(xié)調(diào)沖突，并且系統(tǒng)中各個機器人掌握局部信息，它們相互之間采取通信手段進行??信息交流，根據(jù)自身的規(guī)劃算法進行自主決策的同時結合中央控制單元的控制命??令進行運動規(guī)劃。混合式協(xié)調(diào)方式不僅可以在復雜的系統(tǒng)中提高協(xié)調(diào)效率，還可以??保持集中式協(xié)調(diào)獲得最優(yōu)解的優(yōu)點以及分布式協(xié)調(diào)的實時性和適應性等優(yōu)點。??Ｋｕｍａｒ等研究者設計了一種協(xié)調(diào)多機器人團隊執(zhí)行合作任務的方法［１８］，該方法利??用混合協(xié)調(diào)模型對角色分配進行建模，利用混合自動機表示角色的轉(zhuǎn)換與控制，并??在多機器人合作運輸任務中得到了驗證。??＜中央控制單元＿??圖１－３混合式協(xié)調(diào)模型??Ｆｉｇｕｒｅ?１－３?Ｈｙｂｒｉｄ?ｃｏｏｒｄｉｎａｔｉｏｎ?ｍｏｄｅｌ??顯示協(xié)調(diào)是一種利用通信的運動協(xié)調(diào)方式，它要求系統(tǒng)中各機器人不僅需要??共享目標和環(huán)境信息

【參考文獻】：
期刊論文
[1]基于人工勢場法的無人機路徑規(guī)劃避障算法[J]. 毛晨悅,吳鵬勇.  電子科技. 2019(07)
[2]基于三階貝塞爾曲線的AGV軌跡規(guī)劃研究[J]. 劉學問,陶鈞,徐海巍.  工業(yè)控制計算機. 2018(01)
[3]基于SVM的受約束D*算法在無人車尋路中的應用[J]. 劉曉濤,蔡云飛,王田橙.  計算機與數(shù)字工程. 2017(09)
[4]碰撞檢測算法研究綜述[J]. 王嘉,李孔清.  電腦知識與技術. 2017(20)
[5]基于空間剖分和包圍盒的快速碰撞檢測算法[J]. 彭晏飛,盧真真.  計算機應用與軟件. 2015(08)
[6]基于遺傳算法的機器人路徑規(guī)劃問題[J]. 譚艷.  現(xiàn)代計算機. 2013(15)
[7]基于A*的路徑規(guī)劃算法研究[J]. 李淑霞.  福建電腦. 2013(03)
[8]基于遺傳算法的足球機器人路徑規(guī)劃[J]. 劉洲洲.  電子產(chǎn)品世界. 2013(02)
[9]車式移動機器人軌跡跟蹤控制方法[J]. 曹政才,趙應濤,付宜利.  電子學報. 2012(04)
[10]多移動機器人系統(tǒng)運動協(xié)調(diào)研究綜述[J]. 陳建平,楊宜民.  計算機工程與應用. 2009(23)

博士論文
[1]多智能體系統(tǒng)協(xié)調(diào)控制若干問題研究[D]. 高晶英.吉林大學 2017
[2]移動機器人網(wǎng)絡的分布式運動協(xié)調(diào)[D]. 邢關生.南開大學 2009

碩士論文
[1]基于激光傳感器室內(nèi)機器人自主導航技術研究[D]. 趙鈺.天津理工大學 2017
[2]基于強化學習的移動機器人路徑規(guī)劃研究[D]. 高慧.西南交通大學 2016
[3]一種特殊路網(wǎng)環(huán)境下的多機器人運動協(xié)調(diào)算法研究與實現(xiàn)[D]. 鄧文超.北京交通大學 2016
[4]未知環(huán)境下的多機器人協(xié)調(diào)合作的研究[D]. 楊柳.華北電力大學（北京） 2009

本文編號：3504151

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3504151.html

上一篇：白車身生產(chǎn)線機器人現(xiàn)場問題研究
下一篇：基于編碼解碼的高分辨率遙感圖像變化檢測

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

特定路網(wǎng)環(huán)境中多對象集中式運動協(xié)調(diào)策略的強化學習算法研究與實現(xiàn)