基于并行強化學習的建筑節(jié)能方法研究
發(fā)布時間:2020-07-04 13:39
【摘要】:在全世界范圍內,建筑能耗在社會總能耗中占比較高,并且以較快速度在逐年增長,建筑節(jié)能已成為所有國家能源政策上的首要目標。建筑能耗的80%是建筑運行能耗,因此降低建筑能耗的有效手段是采取科學技術對建筑物內相關設備進行控制。此外,在建筑節(jié)能控制領域,傳統控制方法通常存在穩(wěn)定性差、收斂速度慢等問題。隨著人工智能技術發(fā)展,智慧建筑節(jié)能的概念逐漸獲得研究者的關注,相關智能化控制方法研究也成為了研究的熱點,其中強化學習方法是目前智慧建筑節(jié)能方法的研究重點。本文主要以建筑節(jié)能問題為出發(fā)點,主要對基于強化學習的建筑節(jié)能控制方法及框架展開研究,具體內容包括以下三部分:(1)為解決建筑節(jié)能控制領域中強化學習控制方法在實際應用中收斂速度慢的問題,本文結合多線程技術和經驗回放技術,提出一種多線程并行強化學習算法MPRL。MPRL主要由兩部分構成,一是基于模糊聚類的強化學習多線程劃分方法:通過模糊聚類的方式將策略向量分配到不同的線程中進行并行策略評估。二是并行強化學習框架:并行運行策略評估過程以及環(huán)境交互過程,同時引入經驗回放技術,將交互中產生的樣本存入樣本池,利用樣本反復更新Q值函數,該方法可有效加快算法學習過程。將MPRL與Q-Learning、Sarsa和KCACL算法進行對比,分別應用于random walk問題、windy grid world問題和cart pole問題中。實驗數據表明,MPRL擁有更好的收斂性能和更快的學習速率。(2)對建筑節(jié)能控制問題進行馬爾科夫決策過程建模,并提出一種基于強化學習的自適應控制方法RLAC,用于求解建筑物內相關設備的最優(yōu)控制策略,達到節(jié)能的目的。RLAC首先對環(huán)境和強化學習信號進行建模,通過與環(huán)境進行交互,用Q-Learning算法更新Q值函數,算法可以收斂到最優(yōu)Q值函數,從而學習到最優(yōu)控制策略。通過仿真房間模型的實驗,將RLAC與傳統控制方法進行對比,實驗結果表明所提出的RLAC方法具有一定的節(jié)能性、更快的收斂速度和更好的穩(wěn)定性。(3)結合面向建筑節(jié)能的馬爾科夫決策過程模型,將并行強化學習方法用于建筑節(jié)能問題,并提出一種基于并行強化學習的建筑節(jié)能方法。該方法結合多線程技術和經驗回放技術提出多線程并行強化學習算法框架,通過計算樣本之間的距離,選取低相似度的樣本構造多樣性樣本池,Agent的學習過程是從多樣性樣本池中選取樣本學習,可有效避免學習資源的浪費。該方法能有效提高算法學習效率、加速算法學習過程。實驗包括在仿真房間模型上與Q-Learning算法以及經典PID控制方法的對比,結果表明,所提出的并行算法具有一定的節(jié)能效果,有更快的學習速率和收斂速度,并擁有更高效的運行效率。
【學位授予單位】:蘇州科技大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TU201.5
【圖文】:
圖 2-1 強化學習框架圖markov property)的定義t 1時刻對t*時刻所做的應可能依賴于前面發(fā)生的定義,如公式(2.1)所',|,,,,,111srrsarsat tttt t 件中的可能值:st,at,rt,s么環(huán)境在 t+1 時刻的響應的動態(tài)性可以通過公式(r{',|,}t1 t1tts sr rsa ,當且僅當對所有s', r,以
學碩士論文 第三章 多線程并行強所有產生的轉移樣本都存儲在樣本池D中。每 時間步,采用 roll略產生一個回報R ,并且通過最大的選擇概率選出策略池中當時行為策略,在接下來的時間步與環(huán)境進行交互并產生樣本。每 時進行選擇、交叉和變異等操作產生新策略并更新策略池,在這個過策略總數 N 不變。最后,重復上述過程進行新一輪的線程劃分、作。其中,對策略進行編碼過程和多線程劃分算法的具體算法流程中詳細描述。
本文編號:2741180
【學位授予單位】:蘇州科技大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TU201.5
【圖文】:
圖 2-1 強化學習框架圖markov property)的定義t 1時刻對t*時刻所做的應可能依賴于前面發(fā)生的定義,如公式(2.1)所',|,,,,,111srrsarsat tttt t 件中的可能值:st,at,rt,s么環(huán)境在 t+1 時刻的響應的動態(tài)性可以通過公式(r{',|,}t1 t1tts sr rsa ,當且僅當對所有s', r,以
學碩士論文 第三章 多線程并行強所有產生的轉移樣本都存儲在樣本池D中。每 時間步,采用 roll略產生一個回報R ,并且通過最大的選擇概率選出策略池中當時行為策略,在接下來的時間步與環(huán)境進行交互并產生樣本。每 時進行選擇、交叉和變異等操作產生新策略并更新策略池,在這個過策略總數 N 不變。最后,重復上述過程進行新一輪的線程劃分、作。其中,對策略進行編碼過程和多線程劃分算法的具體算法流程中詳細描述。
【參考文獻】
相關期刊論文 前5條
1 傅啟明;劉全;尤樹華;黃蔚;章曉芳;;一種新的基于值函數遷移的快速Sarsa算法[J];電子學報;2014年11期
2 李遠成;陰培培;趙銀亮;;基于模糊聚類的推測多線程劃分算法[J];計算機學報;2014年03期
3 陳興國;高陽;范順國;俞亞君;;基于核方法的連續(xù)動作Actor-Critic學習[J];模式識別與人工智能;2014年02期
4 劉全;傅啟明;龔聲蓉;伏玉琛;崔志明;;最小狀態(tài)變元平均獎賞的強化學習方法[J];通信學報;2011年01期
5 梁珍,趙加寧,路軍;公共建筑能耗主要影響因素的分析[J];低溫建筑技術;2001年03期
相關博士學位論文 前2條
1 張衛(wèi)華;城鎮(zhèn)住宅建筑能耗指標分級標準體系的基礎研究[D];西安建筑科技大學;2013年
2 黃炳強;強化學習方法及其應用研究[D];上海交通大學;2007年
相關碩士學位論文 前1條
1 許志鵬;基于動作抽象的分層強化學習算法研究[D];蘇州大學;2016年
本文編號:2741180
本文鏈接:http://www.sikaile.net/guanlilunwen/chengjian/2741180.html