基于強化學(xué)習(xí)的匯流瓶頸區(qū)可變限速策略研究
本文關(guān)鍵詞:基于強化學(xué)習(xí)的匯流瓶頸區(qū)可變限速策略研究
更多相關(guān)文章: 智能交通 可變限速 強化學(xué)習(xí) 高速公路匯流瓶頸區(qū) Q學(xué)習(xí)算法
【摘要】:為提高高速公路匯流瓶頸區(qū)的通行效率,本文結(jié)合強化學(xué)習(xí)無需建立模型,具有智能學(xué)習(xí)的特點,對瓶頸區(qū)的可變限速策略進行了優(yōu)化,首次提出了基于Q學(xué)習(xí)算法的可變限速控制策略.策略以最大化系統(tǒng)總流出車輛數(shù)為目標(biāo),通過遍歷交通流狀態(tài)集合,嘗試不同限速值序列進行自適應(yīng)學(xué)習(xí).以真實路段交通流數(shù)據(jù)搭建了元胞傳輸模型仿真平臺,通過將其與無控制和基于反饋控制的可變限速策略進行對比,對Q學(xué)習(xí)策略的控制效果進行評價.通行時間的降低和交通參數(shù)的變化表明,強化學(xué)習(xí)控制策略在提高匯流瓶頸區(qū)通行效率和改善交通流運行狀況方面具有優(yōu)越性.
【作者單位】: 嘉興學(xué)院;東南大學(xué);加州大學(xué);
【關(guān)鍵詞】: 智能交通 可變限速 強化學(xué)習(xí) 高速公路匯流瓶頸區(qū) Q學(xué)習(xí)算法
【基金】:國家自然科學(xué)基金資助項目(51322810)
【分類號】:U491
【正文快照】: 1引言在高速公路系統(tǒng)中,匝道與主線連接路段是一個明顯的交通瓶頸[1].可變限速(Variable SpeedLimits,VSL),作為一種有效緩解交通擁堵、提高通行效率的技術(shù)手段,已被廣泛應(yīng)用于高速公路入口匝道處.其核心思想為通過調(diào)節(jié)瓶頸區(qū)上游主線交通需求,將擁堵期進入高速公路瓶頸區(qū)的車
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 張冬梅;劉強;;一種基于強化學(xué)習(xí)的傳感器網(wǎng)絡(luò)應(yīng)用重構(gòu)決策方法[J];北京交通大學(xué)學(xué)報;2010年03期
2 楊萍;畢義明;孫淑玲;;具有自主決策能力的機動單元智能體研究[J];兵工學(xué)報;2007年11期
3 趙曉華;李振龍;于泉;張杰;;基于切換模型的兩交叉口信號燈Q學(xué)習(xí)協(xié)調(diào)控制[J];北京工業(yè)大學(xué)學(xué)報;2007年11期
4 孫若瑩;李忱;趙剛;;基于強化學(xué)習(xí)的牛鞭效應(yīng)對策模型[J];北京信息科技大學(xué)學(xué)報(自然科學(xué)版);2011年01期
5 王華;崔曉婷;劉向東;張宇河;;基于Q-學(xué)習(xí)的衛(wèi)星姿態(tài)在線模糊神經(jīng)網(wǎng)絡(luò)控制[J];北京理工大學(xué)學(xué)報;2006年03期
6 畢金波,吳滄浦;有效的自適應(yīng)λ即時差異學(xué)習(xí)(英文)[J];Journal of Beijing Institute of Technology(English Edition);1999年03期
7 童亮;陸際聯(lián);;Multi-Agent Reinforcement Learning Algorithm Based on Action Prediction[J];Journal of Beijing Institute of Technology(English Edition);2006年02期
8 吳洪巖;劉淑華;張崳;;基于RBFNN的強化學(xué)習(xí)在機器人導(dǎo)航中的應(yīng)用[J];吉林大學(xué)學(xué)報(信息科學(xué)版);2009年02期
9 楊銀賢;Multi-agent reinforcement learning using modular neural network Q-learning algorithms[J];Journal of Chongqing University;2005年01期
10 楊東,殷萇茗,陳煥文,吳柏森;基于Q-學(xué)習(xí)的非線性控制[J];長沙電力學(xué)院學(xué)報(自然科學(xué)版);2003年01期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 毛劍琳;向鳳紅;馮麗輝;;一種改進的IEEE802.15.4自適應(yīng)實時帶寬分配策略[A];第二十七屆中國控制會議論文集[C];2008年
2 馬麗;劉惟一;;多個交通路口調(diào)度博弈模型及其均衡求解的增強學(xué)習(xí)算法[A];第二十七屆中國控制會議論文集[C];2008年
3 ;Complexity Analysis of Quantum Reinforcement Learning[A];第二十九屆中國控制會議論文集[C];2010年
4 樸松昊;洪炳熔;褚海濤;;基于BDI的多Agent協(xié)作模型研究[A];2003中國控制與決策學(xué)術(shù)年會論文集[C];2003年
5 劉長有;孫光余;;一種應(yīng)用Elman型回歸網(wǎng)絡(luò)的Q-學(xué)習(xí)[A];2004中國控制與決策學(xué)術(shù)年會論文集[C];2004年
6 鄒亮;徐建閩;;基于Q-learning的電子地圖動態(tài)最短路徑求解方法[A];2005中國控制與決策學(xué)術(shù)年會論文集(下)[C];2005年
7 ;Hybrid Q-learning Algorithm About Cooperation in MAS[A];2009中國控制與決策會議論文集(3)[C];2009年
8 ;An Adaptive Inventory Control for a Supply Chain[A];2009中國控制與決策會議論文集(3)[C];2009年
9 謝志華;鄭應(yīng)平;;基于再勵學(xué)習(xí)的排隊系統(tǒng)優(yōu)化控制[A];1995年中國控制會議論文集(下)[C];1995年
10 Meng Joo Er;;Modeling and Fuzzy Q-Learning Control of Biped Walking[A];第二十四屆中國控制會議論文集(上冊)[C];2005年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 李志強;Q學(xué)習(xí)在單路口交通信號控制中的應(yīng)用研究[D];長沙理工大學(xué);2010年
2 姜新麗;基于強化學(xué)習(xí)的多機器人協(xié)作控制方法研究[D];沈陽理工大學(xué);2010年
3 樂天助;認(rèn)知網(wǎng)絡(luò)路由技術(shù)研究[D];西安電子科技大學(xué);2011年
4 張小剛;面向社區(qū)服務(wù)的聯(lián)機分析系統(tǒng)研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
5 孫亞光;基于蟻群算法的無線傳感器網(wǎng)絡(luò)路由協(xié)議的研究[D];北京交通大學(xué);2011年
6 肖文;基于QoS的可信Web服務(wù)組合及其相關(guān)問題研究[D];西南大學(xué);2011年
7 姚艷軍;認(rèn)知無線網(wǎng)絡(luò)中動態(tài)頻譜共享的研究[D];北京郵電大學(xué);2011年
8 柴雪霞;基于強化學(xué)習(xí)的Web服務(wù)組合優(yōu)化研究[D];合肥工業(yè)大學(xué);2011年
9 任玲;無線傳感器網(wǎng)絡(luò)能量高效的傳輸策略研究[D];合肥工業(yè)大學(xué);2011年
10 郭一明;基于強化學(xué)習(xí)的劣化系統(tǒng)維修策略研究[D];合肥工業(yè)大學(xué);2011年
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 姜志宏,王妍哲,鄭文;在《電工技術(shù)》課程中開展研究性學(xué)習(xí)的思考與實踐[J];長春工程學(xué)院學(xué)報(社會科學(xué)版);2003年03期
2 張仁興;學(xué)習(xí)型組織的教育培訓(xùn)[J];航天工業(yè)管理;2004年05期
3 王瑞;;如何做一名學(xué)習(xí)型企業(yè)的干部[J];中國電力教育;2007年04期
4 強桂;湯俊;;網(wǎng)絡(luò)環(huán)境下研究性學(xué)習(xí)及其策略分析[J];中國電力教育;2010年24期
5 王鳳\,
本文編號:708687
本文鏈接:http://www.sikaile.net/kejilunwen/daoluqiaoliang/708687.html