基于強(qiáng)化學(xué)習(xí)的倒立擺控制算法研究

發(fā)布時(shí)間：2022-01-09 10:48

　　科技時(shí)代,人工智能充斥在我們生活的各個(gè)領(lǐng)域,從AIphaGo到AlphaZero都在漁釋著它的強(qiáng)大。機(jī)器學(xué)習(xí)作為人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑。強(qiáng)化學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究領(lǐng)域的一個(gè)熱門方向,其通過智能體與環(huán)境的交互作用,從中汲取經(jīng)驗(yàn),以自學(xué)習(xí)的方式不斷更新改進(jìn)控制策略,逐步達(dá)到最優(yōu)或近優(yōu)控制效果。由于強(qiáng)化學(xué)習(xí)是一種無模型無監(jiān)督的機(jī)器學(xué)習(xí)方法,因此具有通用性強(qiáng),適用范圍廣泛,參數(shù)自整定等優(yōu)點(diǎn),能夠極大降低控制系統(tǒng)的設(shè)計(jì)難度和人力投入,具有廣闊的應(yīng)用前景。因此,研究強(qiáng)化學(xué)習(xí)具有重要的理論價(jià)值和實(shí)際工程應(yīng)用價(jià)值。倒立擺系統(tǒng)是一個(gè)多變量、非線性、高階次、強(qiáng)耦合的自不穩(wěn)定系統(tǒng),能夠模擬反映多數(shù)常見的控制對象,其控制算法具有多輸入單輸出的特點(diǎn),因而是一種典型的自動控制理論研究裝置。以該問題作為研究對象,能夠有效反映出控制算法在實(shí)際應(yīng)用系統(tǒng)中的隨動性、魯棒性、跟蹤及鎮(zhèn)定性等問題。因此,本文以一級直線倒立擺系統(tǒng)為對象,進(jìn)行深度強(qiáng)化學(xué)習(xí)算法的研究。主要研究內(nèi)容以及成果如下:（1）對強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念進(jìn)行介紹并分析。通過對常用強(qiáng)化學(xué)習(xí)算法的理論推導(dǎo)和馬爾科夫決策過程各參數(shù)分析,為強(qiáng)化學(xué)習(xí)以及深...

【文章來源】：西安理工大學(xué)陜西省

【文章頁數(shù)】：63 頁

【學(xué)位級別】：碩士

【部分圖文】：

強(qiáng)化學(xué)習(xí)示意圖

示意圖,倒立擺系統(tǒng),物理,一級

圖 2-5 一級直線倒立擺系統(tǒng)物理示意圖al schematic diagram of a linear inverted p的復(fù)雜系統(tǒng)，倒立擺系統(tǒng)模型的建

畫面,行為空間,倒立擺,狀態(tài)變量

圖 3-1 Cartpole 仿真畫面Fig.3-1 Cartpole simulation screen態(tài)變量、行為空間、倒立擺小車的運(yùn)動空間、倒了定義。其中狀態(tài)變量（state）為 4 維，分別為

【參考文獻(xiàn)】：
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)研究綜述[J]. 趙星宇,丁世飛.  計(jì)算機(jī)科學(xué). 2018(07)
[2]基于加權(quán)密集連接卷積網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法[J]. 夏旻,宋穩(wěn)柱,施必成,劉佳.  計(jì)算機(jī)應(yīng)用. 2018(08)
[3]深度強(qiáng)化學(xué)習(xí)進(jìn)展:從AlphaGo到AlphaGo Zero[J]. 唐振韜,邵坤,趙冬斌,朱圓恒.  控制理論與應(yīng)用. 2017(12)
[4]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長,鐘珊,周倩,章鵬,徐進(jìn).  計(jì)算機(jī)學(xué)報(bào). 2018(01)
[5]深度強(qiáng)化學(xué)習(xí)綜述:兼論計(jì)算機(jī)圍棋的發(fā)展[J]. 趙冬斌,邵坤,朱圓恒,李棟,陳亞冉,王海濤,劉德榮,周彤,王成紅.  控制理論與應(yīng)用. 2016(06)
[6]強(qiáng)化學(xué)習(xí)模型及其在避障中的應(yīng)用[J]. 孫魁,吳成東.  山東工業(yè)技術(shù). 2016(01)
[7]倒立擺系統(tǒng)的發(fā)展研究以及意義[J]. 韓復(fù)健.  山東工業(yè)技術(shù). 2014(17)
[8]倒立擺系統(tǒng)數(shù)學(xué)建模與PID控制器實(shí)現(xiàn)[J]. 杜崗,徐靜.  連云港職業(yè)技術(shù)學(xué)院學(xué)報(bào). 2013(02)
[9]基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)研究概述[J]. 尤樹華,周誼成,王輝.  電腦知識與技術(shù). 2012(28)
[10]強(qiáng)化學(xué)習(xí)研究綜述[J]. 陳學(xué)松,楊宜民.  計(jì)算機(jī)應(yīng)用研究. 2010(08)

博士論文
[1]非參數(shù)化值函數(shù)逼近強(qiáng)化學(xué)習(xí)研究[D]. 季挺.南昌大學(xué) 2018

碩士論文
[1]強(qiáng)化學(xué)習(xí)在倒立擺起擺及平衡控制中的應(yīng)用研究[D]. 毛文杰.西安理工大學(xué) 2018
[2]基于深度神經(jīng)網(wǎng)絡(luò)的特征提取算法及其應(yīng)用研究[D]. 李蓓蓓.江南大學(xué) 2018
[3]基于深度強(qiáng)化學(xué)習(xí)的視頻游戲決策模型研究與應(yīng)用[D]. 郭勤.江西理工大學(xué) 2018
[4]基于深度強(qiáng)化學(xué)習(xí)的游戲博弈策略的研究與實(shí)現(xiàn)[D]. 吳睿.吉林大學(xué) 2018
[5]基于深度強(qiáng)化學(xué)習(xí)的游戲控制算法研究與實(shí)現(xiàn)[D]. 顏志鵬.電子科技大學(xué) 2018
[6]基于DQN的機(jī)械臂控制策略的研究[D]. 郭憲.北京交通大學(xué) 2018
[7]基于深度強(qiáng)化學(xué)習(xí)在游戲上的應(yīng)用[D]. 王康.沈陽理工大學(xué) 2018
[8]基于深度卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識別方法[D]. 陳科雯.西安電子科技大學(xué) 2017
[9]貝葉斯強(qiáng)化學(xué)習(xí)中策略迭代算法研究[D]. 尤樹華.蘇州大學(xué) 2016
[10]直線倒立擺控制策略的對比研究[D]. 丁麗.齊魯工業(yè)大學(xué) 2015

本文編號：3578569

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3578569.html

上一篇：摻雜對單層MoS 2 氣敏性能影響的第一性原理研究
下一篇：基于認(rèn)知模型的模糊本體擴(kuò)展與歸納

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于強(qiáng)化學(xué)習(xí)的倒立擺控制算法研究