傳送帶給料生產加工站的神經元在線優(yōu)化算法
發(fā)布時間:2020-09-10 21:55
現(xiàn)實世界的一些生產加工企業(yè)中,存在一類由生產加工站作為加工主體的生產線,稱為傳送帶給料生產加工站(CSPS)。論文研究CSPS系統(tǒng)的最優(yōu)控制問題,其優(yōu)化目標是通過合理選擇站點的前視(look-ahead)控制策略,實現(xiàn)系統(tǒng)的長遠期望代價達到最優(yōu)。理論上,該優(yōu)化問題可通過數(shù)值方法求解,但是該方法存在“建模難”的問題;谛阅軇莸脑诰策略迭代(OPI)算法能夠克服該問題,然而學習過程中采用查表法,缺少信息泛化能力,且CSPS系統(tǒng)中行動空間是連續(xù)的,離散化時離散粒度將影響系統(tǒng)的優(yōu)化性能。因此,論文應用小腦模型關節(jié)控制器(CMAC)神經網絡和在線支持向量機(Online SVM)對CSPS系統(tǒng)進行在線優(yōu)化。 論文首先應用CMAC神經網絡逼近Q學習中具有連續(xù)行動值的Q值函數(shù),并給出相應的在線Q學習。然后應用CMAC神經網絡逼近OPI算法中的Q值函數(shù)或性能勢函數(shù)以構造OPI-Q算法和OPI-Qg算法。實驗結果表明,基于CMAC的各算法學習、收斂速度更快,使系統(tǒng)的平均代價值更接近理論最優(yōu)值,具有良好的優(yōu)化效果。 論文還應用在線支持向量機作為Q學習中的Q值函數(shù)的逼近器,并設計了兩種基于在線支持向量機的Q學習算法。一種是為每個探索狀態(tài)各設置一個在線支持向量機的OSVM-Q算法;另一種是只設置一個在線支持向量機,用來逼近CSPS系統(tǒng)的所有狀態(tài)-行動對的Q值函數(shù)的OSVM-Q-1算法。仿真結果表明兩算法均提高了學習系統(tǒng)的優(yōu)化性能。
【學位單位】:合肥工業(yè)大學
【學位級別】:碩士
【學位年份】:2010
【中圖分類】:TH237.1
【部分圖文】:
簡要介紹傳送帶給料生產加工站(Conveyor-Serviced P稱 CSPS)模型、CSPS 模型的控制模式和優(yōu)化目標、半 MSemi-Markov Decision Process,簡稱 SMDP)及其優(yōu)化目標inforcement Learning,簡稱 RL)的基本知識及其主要學習算涉及的基本概念和基本理論進行概括的介紹。最后,給出本結構安排。S 系統(tǒng)簡介機器人技術的發(fā)展,機器人的應用領域和范圍也隨之不斷擴一些生產加工企業(yè)中,存在一類由生產加工站作為加工主體先進制造業(yè)中的一些機器人裝配線,其中,加工站由傳送帶工,這樣的一類系統(tǒng)稱為傳送帶給料生產加工站[1-6]。如圖 1題是如何控制站點的前視(look-ahead)距離,使得系統(tǒng)的長遠優(yōu)。
迭代優(yōu)化求解算法。神經元動態(tài)規(guī)劃 CSPS 系統(tǒng)中,前視距離為一連續(xù)的行動變量于常規(guī)的強化學習算法只適用于狀態(tài)-行動集間大、學習速度慢、學習效率低等問題,可決[39, 41-43]。神經元動態(tài)規(guī)劃方法結合了仿真,它的基本思想是選擇參數(shù)較少的網絡逼近),然后通過仿真學習來迭代改進網絡參數(shù),態(tài)規(guī)劃技術與強化學習結合在一起,主要是強大存儲能力。一般來說,神經網絡在這類外界的動作描述,將其作為神經網絡的輸入輸出強化學習系統(tǒng)所需的 Q 值。采用將神經合的方式可以在很大程度上發(fā)揮它們各自特如圖 3.1。
本文編號:2816377
【學位單位】:合肥工業(yè)大學
【學位級別】:碩士
【學位年份】:2010
【中圖分類】:TH237.1
【部分圖文】:
簡要介紹傳送帶給料生產加工站(Conveyor-Serviced P稱 CSPS)模型、CSPS 模型的控制模式和優(yōu)化目標、半 MSemi-Markov Decision Process,簡稱 SMDP)及其優(yōu)化目標inforcement Learning,簡稱 RL)的基本知識及其主要學習算涉及的基本概念和基本理論進行概括的介紹。最后,給出本結構安排。S 系統(tǒng)簡介機器人技術的發(fā)展,機器人的應用領域和范圍也隨之不斷擴一些生產加工企業(yè)中,存在一類由生產加工站作為加工主體先進制造業(yè)中的一些機器人裝配線,其中,加工站由傳送帶工,這樣的一類系統(tǒng)稱為傳送帶給料生產加工站[1-6]。如圖 1題是如何控制站點的前視(look-ahead)距離,使得系統(tǒng)的長遠優(yōu)。
迭代優(yōu)化求解算法。神經元動態(tài)規(guī)劃 CSPS 系統(tǒng)中,前視距離為一連續(xù)的行動變量于常規(guī)的強化學習算法只適用于狀態(tài)-行動集間大、學習速度慢、學習效率低等問題,可決[39, 41-43]。神經元動態(tài)規(guī)劃方法結合了仿真,它的基本思想是選擇參數(shù)較少的網絡逼近),然后通過仿真學習來迭代改進網絡參數(shù),態(tài)規(guī)劃技術與強化學習結合在一起,主要是強大存儲能力。一般來說,神經網絡在這類外界的動作描述,將其作為神經網絡的輸入輸出強化學習系統(tǒng)所需的 Q 值。采用將神經合的方式可以在很大程度上發(fā)揮它們各自特如圖 3.1。
【引證文獻】
相關碩士學位論文 前1條
1 劉冰;多工序傳送帶給料加工站系統(tǒng)協(xié)同優(yōu)化控制方法研究[D];合肥工業(yè)大學;2012年
本文編號:2816377
本文鏈接:http://www.sikaile.net/jixiegongchenglunwen/2816377.html