深度強化學(xué)習(xí)理論及其應(yīng)用綜述
發(fā)布時間:2021-09-22 23:44
一方面,隨著深度強化學(xué)習(xí)理論和應(yīng)用研究不斷深入,其在游戲、機器人控制、對話系統(tǒng)、自動駕駛等領(lǐng)域發(fā)揮重要作用;另一方面,深度強化學(xué)習(xí)受到探索-利用困境、獎勵稀疏、樣本采集困難、穩(wěn)定性較差等問題的限制,存在很多不足.面對這些問題,研究者們提出各種各樣的解決方法,新的理論進一步推動深度強化學(xué)習(xí)的發(fā)展,在彌補缺陷的同時擴展強化學(xué)習(xí)的研究領(lǐng)域,延伸出模仿學(xué)習(xí)、分層強化學(xué)習(xí)、元學(xué)習(xí)等新的研究方向.文中從深度強化學(xué)習(xí)的理論、困難、應(yīng)用及發(fā)展前景等方面對其進行探討.
【文章來源】:模式識別與人工智能. 2019,32(01)北大核心CSCD
【文章頁數(shù)】:15 頁
【部分圖文】:
馬爾科夫決策過程Fig.1Markovdecisionprocess
決策的最終目標(biāo)是在抵達目標(biāo)狀態(tài)的同時實現(xiàn)累積獎勵最大化.圖1馬爾科夫決策過程Fig.1Markovdecisionprocess在強化學(xué)習(xí)過程中,決策的主體稱為智能體(Agent).智能體首先需要對其所處的狀態(tài)進行觀測,并根據(jù)觀測結(jié)果(Observation)進行決策,采取相應(yīng)行動.該行動一方面與環(huán)境(Environment)發(fā)生交互,環(huán)境以獎勵的形式對智能體的行動給出相應(yīng)的反饋;另一方面,該行動改變智能體的狀態(tài).一個循環(huán)結(jié)束后,智能體開始新一輪的觀測,直到智能體進入終止?fàn)顟B(tài),此時一次完整的迭代結(jié)束,如圖2所示.智能體將此次迭代中的所有狀態(tài)及其相應(yīng)的動作以狀態(tài)-動作序列的形式記錄下來,生成軌跡(Trajectory):τ={st,at,st+1,at+1,…}.同時統(tǒng)計每一步的即時回報,計算此次迭代中獲得的累計回報Gt,將這些信息作為策略更新時的訓(xùn)練樣本.智能體采取行動依據(jù)的策略使用函數(shù)π(as)表示,智能體學(xué)習(xí)的目標(biāo)就是優(yōu)化這個策略函數(shù).根據(jù)優(yōu)化對象的不同,強化學(xué)習(xí)方法可分為策略搜索方法(PolicySearch)和值函數(shù)方法(ValueFunction).強化學(xué)習(xí)過程中的狀態(tài)轉(zhuǎn)移概率又稱為系統(tǒng)動態(tài)(Dynamics)、轉(zhuǎn)移動態(tài)(TransitionDynamics)或環(huán)境模型,使用Pss'表示:Pss'=P(st+1=s'st=s,at).根據(jù)狀態(tài)轉(zhuǎn)移概率是否已知,可將強化學(xué)習(xí)方法分為基于模型(ModelBased)的強化學(xué)習(xí)方法和免模型(ModelFree)的強化學(xué)習(xí)方法[15].圖2強化學(xué)習(xí)過程Fig.2Reinforcementlearningprocess早期強化學(xué)習(xí)中的一個經(jīng)典問題是軌跡規(guī)劃問題.軌跡規(guī)劃問題的目標(biāo)是訓(xùn)練程序在給定初始?
本文編號:3404593
【文章來源】:模式識別與人工智能. 2019,32(01)北大核心CSCD
【文章頁數(shù)】:15 頁
【部分圖文】:
馬爾科夫決策過程Fig.1Markovdecisionprocess
決策的最終目標(biāo)是在抵達目標(biāo)狀態(tài)的同時實現(xiàn)累積獎勵最大化.圖1馬爾科夫決策過程Fig.1Markovdecisionprocess在強化學(xué)習(xí)過程中,決策的主體稱為智能體(Agent).智能體首先需要對其所處的狀態(tài)進行觀測,并根據(jù)觀測結(jié)果(Observation)進行決策,采取相應(yīng)行動.該行動一方面與環(huán)境(Environment)發(fā)生交互,環(huán)境以獎勵的形式對智能體的行動給出相應(yīng)的反饋;另一方面,該行動改變智能體的狀態(tài).一個循環(huán)結(jié)束后,智能體開始新一輪的觀測,直到智能體進入終止?fàn)顟B(tài),此時一次完整的迭代結(jié)束,如圖2所示.智能體將此次迭代中的所有狀態(tài)及其相應(yīng)的動作以狀態(tài)-動作序列的形式記錄下來,生成軌跡(Trajectory):τ={st,at,st+1,at+1,…}.同時統(tǒng)計每一步的即時回報,計算此次迭代中獲得的累計回報Gt,將這些信息作為策略更新時的訓(xùn)練樣本.智能體采取行動依據(jù)的策略使用函數(shù)π(as)表示,智能體學(xué)習(xí)的目標(biāo)就是優(yōu)化這個策略函數(shù).根據(jù)優(yōu)化對象的不同,強化學(xué)習(xí)方法可分為策略搜索方法(PolicySearch)和值函數(shù)方法(ValueFunction).強化學(xué)習(xí)過程中的狀態(tài)轉(zhuǎn)移概率又稱為系統(tǒng)動態(tài)(Dynamics)、轉(zhuǎn)移動態(tài)(TransitionDynamics)或環(huán)境模型,使用Pss'表示:Pss'=P(st+1=s'st=s,at).根據(jù)狀態(tài)轉(zhuǎn)移概率是否已知,可將強化學(xué)習(xí)方法分為基于模型(ModelBased)的強化學(xué)習(xí)方法和免模型(ModelFree)的強化學(xué)習(xí)方法[15].圖2強化學(xué)習(xí)過程Fig.2Reinforcementlearningprocess早期強化學(xué)習(xí)中的一個經(jīng)典問題是軌跡規(guī)劃問題.軌跡規(guī)劃問題的目標(biāo)是訓(xùn)練程序在給定初始?
本文編號:3404593
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3404593.html
最近更新
教材專著