馬爾可夫決策過程自適應(yīng)決策的進展

發(fā)布時間：2018-04-04 21:10

本文選題：馬爾可夫過程　切入點：部分可觀馬爾可夫過程　出處：《控制與決策》2001年01期

【摘要】：在介紹一般馬爾可夫決策過程的基礎(chǔ)上 ,分析了當前主要馬爾可夫過程自適應(yīng)決策方法的基本思想、具體算法實現(xiàn)以及相應(yīng)結(jié)論 ,總結(jié)了現(xiàn)有馬爾可夫過程自適應(yīng)決策算法的特點 ,并指出了需要進一步解決的問題
[Abstract]:Based on the introduction of the general Markov decision process, this paper analyzes the basic ideas of the main adaptive decision methods of the Markov process, the realization of the specific algorithm and the corresponding conclusions.This paper summarizes the characteristics of the existing adaptive decision making algorithms for Markov processes, and points out the problems that need to be solved further.
【作者單位】：上海交通大學(xué)智能工程研究所!上海200030 上海交通大學(xué)智能工程研究所!上海200030
【基金】：國家自然科學(xué)基金項目! (6 98740 2 5 )
【分類號】：N945.25

【參考文獻】

相關(guān)期刊論文前5條

1 董澤清,宋京生;無界報酬半馬氏折扣模型的初等方法[J];科學(xué)通報;1987年11期

2 宋京生,董澤清;連續(xù)時間總報酬馬氏決策規(guī)劃[J];科學(xué)通報;1987年16期

3 胡奇英;狀態(tài)部分可觀察的無界報酬馬氏決策規(guī)劃[J];數(shù)理統(tǒng)計與應(yīng)用概率;1998年03期

4 伍從斌,張繼紅;報酬無界的連續(xù)時間折扣馬氏決策規(guī)劃[J];應(yīng)用概率統(tǒng)計;1997年01期

5 郭先平;一般MDP最優(yōu)策略的唯一性[J];應(yīng)用概率統(tǒng)計;1998年03期

【共引文獻】

相關(guān)期刊論文前10條

1 張冬梅;劉強;;一種基于強化學(xué)習(xí)的傳感器網(wǎng)絡(luò)應(yīng)用重構(gòu)決策方法[J];北京交通大學(xué)學(xué)報;2010年03期

2 楊萍;畢義明;孫淑玲;;具有自主決策能力的機動單元智能體研究[J];兵工學(xué)報;2007年11期

3 趙曉華;李振龍;于泉;張杰;;基于切換模型的兩交叉口信號燈Q學(xué)習(xí)協(xié)調(diào)控制[J];北京工業(yè)大學(xué)學(xué)報;2007年11期

4 孫若瑩;李忱;趙剛;;基于強化學(xué)習(xí)的牛鞭效應(yīng)對策模型[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2011年01期

5 王華;崔曉婷;劉向東;張宇河;;基于Q-學(xué)習(xí)的衛(wèi)星姿態(tài)在線模糊神經(jīng)網(wǎng)絡(luò)控制[J];北京理工大學(xué)學(xué)報;2006年03期

6 畢金波,吳滄浦;有效的自適應(yīng)λ即時差異學(xué)習(xí)(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期

7 童亮;陸際聯(lián);;Multi-Agent Reinforcement Learning Algorithm Based on Action Prediction[J];Journal of Beijing Institute of Technology(English Edition);2006年02期

8 吳洪巖;劉淑華;張崳;;基于RBFNN的強化學(xué)習(xí)在機器人導(dǎo)航中的應(yīng)用[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2009年02期

9 楊銀賢;Multi-agent reinforcement learning using modular neural network Q-learning algorithms[J];Journal of Chongqing University;2005年01期

10 楊東,殷萇茗,陳煥文,吳柏森;基于Q-學(xué)習(xí)的非線性控制[J];長沙電力學(xué)院學(xué)報(自然科學(xué)版);2003年01期

相關(guān)會議論文前10條

1 毛劍琳;向鳳紅;馮麗輝;;一種改進的IEEE802.15.4自適應(yīng)實時帶寬分配策略[A];第二十七屆中國控制會議論文集[C];2008年

2 馬麗;劉惟一;;多個交通路口調(diào)度博弈模型及其均衡求解的增強學(xué)習(xí)算法[A];第二十七屆中國控制會議論文集[C];2008年

3 ;Complexity Analysis of Quantum Reinforcement Learning[A];第二十九屆中國控制會議論文集[C];2010年

4 胡奇英;;非時齊馬氏決策規(guī)劃:新的無界假設(shè)[A];1993中國控制與決策學(xué)術(shù)年會論文集[C];1993年

5 樸松昊;洪炳熔;褚海濤;;基于BDI的多Agent協(xié)作模型研究[A];2003中國控制與決策學(xué)術(shù)年會論文集[C];2003年

6 劉長有;孫光余;;一種應(yīng)用Elman型回歸網(wǎng)絡(luò)的Q-學(xué)習(xí)[A];2004中國控制與決策學(xué)術(shù)年會論文集[C];2004年

7 鄒亮;徐建閩;;基于Q-learning的電子地圖動態(tài)最短路徑求解方法[A];2005中國控制與決策學(xué)術(shù)年會論文集（下）[C];2005年

8 ;Hybrid Q-learning Algorithm About Cooperation in MAS[A];2009中國控制與決策會議論文集（3）[C];2009年

9 ;An Adaptive Inventory Control for a Supply Chain[A];2009中國控制與決策會議論文集（3）[C];2009年

10 謝志華;鄭應(yīng)平;;基于再勵學(xué)習(xí)的排隊系統(tǒng)優(yōu)化控制[A];1995年中國控制會議論文集（下）[C];1995年

相關(guān)博士學(xué)位論文前10條

1 王作為;具有認知能力的智能機器人行為學(xué)習(xí)方法研究[D];哈爾濱工程大學(xué);2010年

2 高延增;超小型水下機器人關(guān)鍵性能提升技術(shù)研究[D];華南理工大學(xué);2010年

3 黃正行;臨床過程分析與優(yōu)化技術(shù)研究[D];浙江大學(xué);2010年

4 林龍信;仿生水下機器人的增強學(xué)習(xí)控制方法研究[D];國防科學(xué)技術(shù)大學(xué);2010年

5 馮奇;POMDP近似解法研究及在中醫(yī)診療方案優(yōu)化中的應(yīng)用[D];北京交通大學(xué);2011年

6 孫祥;大學(xué)生就業(yè)區(qū)域流向及引導(dǎo)策略研究[D];合肥工業(yè)大學(xué);2011年

7 陳學(xué)松;強化學(xué)習(xí)及其在機器人系統(tǒng)中的應(yīng)用研究[D];廣東工業(yè)大學(xué);2011年

8 李s，

本文編號：1711693

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/tongjijuecelunwen/1711693.html

上一篇：論領(lǐng)導(dǎo)者的個性沖突
下一篇：同級嫉妒怎么辦

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

馬爾可夫決策過程自適應(yīng)決策的進展