深度強化學(xué)習(xí)理論及其應(yīng)用綜述

發(fā)布時間：2021-09-22 23:44

　　一方面,隨著深度強化學(xué)習(xí)理論和應(yīng)用研究不斷深入,其在游戲、機器人控制、對話系統(tǒng)、自動駕駛等領(lǐng)域發(fā)揮重要作用;另一方面,深度強化學(xué)習(xí)受到探索-利用困境、獎勵稀疏、樣本采集困難、穩(wěn)定性較差等問題的限制,存在很多不足.面對這些問題,研究者們提出各種各樣的解決方法,新的理論進一步推動深度強化學(xué)習(xí)的發(fā)展,在彌補缺陷的同時擴展強化學(xué)習(xí)的研究領(lǐng)域,延伸出模仿學(xué)習(xí)、分層強化學(xué)習(xí)、元學(xué)習(xí)等新的研究方向.文中從深度強化學(xué)習(xí)的理論、困難、應(yīng)用及發(fā)展前景等方面對其進行探討.

【文章來源】：模式識別與人工智能. 2019,32(01)北大核心CSCD

【文章頁數(shù)】：15 頁

【部分圖文】：

馬爾科夫決策過程Fig．1Markovdecisionprocess

過程圖,過程,狀態(tài)轉(zhuǎn)移概率,軌跡規(guī)劃

決策的最終目標(biāo)是在抵達目標(biāo)狀態(tài)的同時實現(xiàn)累積獎勵最大化．圖1馬爾科夫決策過程Fig．1Markovdecisionprocess在強化學(xué)習(xí)過程中，決策的主體稱為智能體(Agent)．智能體首先需要對其所處的狀態(tài)進行觀測，并根據(jù)觀測結(jié)果(Observation)進行決策，采取相應(yīng)行動．該行動一方面與環(huán)境(Environment)發(fā)生交互，環(huán)境以獎勵的形式對智能體的行動給出相應(yīng)的反饋;另一方面，該行動改變智能體的狀態(tài)．一個循環(huán)結(jié)束后，智能體開始新一輪的觀測，直到智能體進入終止?fàn)顟B(tài)，此時一次完整的迭代結(jié)束，如圖2所示．智能體將此次迭代中的所有狀態(tài)及其相應(yīng)的動作以狀態(tài)－動作序列的形式記錄下來，生成軌跡(Trajectory):τ={st，at，st+1，at+1，…}．同時統(tǒng)計每一步的即時回報，計算此次迭代中獲得的累計回報Gt，將這些信息作為策略更新時的訓(xùn)練樣本．智能體采取行動依據(jù)的策略使用函數(shù)π(as)表示，智能體學(xué)習(xí)的目標(biāo)就是優(yōu)化這個策略函數(shù)．根據(jù)優(yōu)化對象的不同，強化學(xué)習(xí)方法可分為策略搜索方法(PolicySearch)和值函數(shù)方法(ValueFunction)．強化學(xué)習(xí)過程中的狀態(tài)轉(zhuǎn)移概率又稱為系統(tǒng)動態(tài)(Dynamics)、轉(zhuǎn)移動態(tài)(TransitionDynamics)或環(huán)境模型，使用Pss'表示:Pss'=P(st+1=s'st=s，at)．根據(jù)狀態(tài)轉(zhuǎn)移概率是否已知，可將強化學(xué)習(xí)方法分為基于模型(ModelBased)的強化學(xué)習(xí)方法和免模型(ModelFree)的強化學(xué)習(xí)方法［15］．圖2強化學(xué)習(xí)過程Fig．2Ｒeinforcementlearningprocess早期強化學(xué)習(xí)中的一個經(jīng)典問題是軌跡規(guī)劃問題．軌跡規(guī)劃問題的目標(biāo)是訓(xùn)練程序在給定初始?

本文編號：3404593

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3404593.html

上一篇：基于AHLO與K均值聚類的圖像分割算法
下一篇：基于不平衡力的邊坡臨界滑面搜索

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

深度強化學(xué)習(xí)理論及其應(yīng)用綜述