基于值函數(shù)的強化學(xué)習(xí)在直復(fù)營銷中的研究
發(fā)布時間:2020-05-22 05:02
【摘要】:直復(fù)營銷即一種可以得到客戶直接回應(yīng)的營銷模式。作為企業(yè)的一項長期性經(jīng)營活動,直復(fù)營銷貫穿于企業(yè)發(fā)展的整個過程,因此,通常將長期收益作為評價營銷效果的指標(biāo)。近年來,隨著智能化的快速發(fā)展,越來越多的企業(yè)希望借助機器學(xué)習(xí)的力量進行營銷決策,但是傳統(tǒng)的監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法在處理該問題時只能最大化單個決策的即時收益,而直復(fù)營銷需要隨時間的推移進行連續(xù)決策,因而這兩類方法具有很大的局限性。強化學(xué)習(xí)是機器學(xué)習(xí)的重要組成部分,主要用于解決序貫決策問題。它通過智能體持續(xù)地與環(huán)境進行交互,并從環(huán)境反饋的延遲獎賞中學(xué)習(xí)狀態(tài)與行為之間的映射關(guān)系,以使得累積獎賞最大化。考慮到直復(fù)營銷的過程也是一個序貫決策過程,并且其追求的長期收益最大化與強化學(xué)習(xí)累積獎賞最大化的目標(biāo)不謀而合,因此,使用強化學(xué)習(xí)技術(shù)解決直復(fù)營銷決策問題具有天然的優(yōu)勢,這是本文研究的出發(fā)點。另外,為了更好地適應(yīng)實際需求,本文從基于值函數(shù)的強化學(xué)習(xí)方法著手,針對直復(fù)營銷場景中營銷決策點間的時間間間隔不固定、數(shù)據(jù)負載大導(dǎo)致學(xué)習(xí)速度慢以及客戶狀態(tài)的部分可觀測等問題,提出相應(yīng)的改進方法,并使用仿真環(huán)境進行評估。具體如下:一方面,針對直復(fù)營銷場景中營銷決策點間的時間間隔不固定以及數(shù)據(jù)規(guī)模大導(dǎo)致學(xué)習(xí)速度慢這兩個問題,本文基于經(jīng)典的強化學(xué)習(xí)算法Q-learning進行研究,提出了改進的Q-learning算法。具體地,使用均值標(biāo)準(zhǔn)化的方法減少因為決策點間時間間隔不固定而給獎賞信號帶來的噪聲影響,進而又針對Q值函數(shù)在迭代過程中因為時間間隔更新不同步而帶來的偏差問題,構(gòu)建一個標(biāo)準(zhǔn)化因子,并仿照值函數(shù)的更新方法進行標(biāo)準(zhǔn)化因子的更新,由此提出Interval-Q算法。接著,針對Interval-Q算法在處理大規(guī)模數(shù)據(jù)時,訓(xùn)練速度慢,學(xué)習(xí)效率不高的問題,本文在Q采樣法的基礎(chǔ)上,引入時間差分(TD)偏差,提出基于TD偏差的Q采樣法。最后,通過仿真實驗證明,本文所提的Interval-Q算法在不定期直復(fù)營銷場景中可以取得更高的收益,另外,基于TD偏差的Q采樣法,可以在減少采樣數(shù)量的同時達到更好的學(xué)習(xí)效果。另一方面,針對傳統(tǒng)強化學(xué)習(xí)算法無法有效處理直復(fù)營銷場景中客戶狀態(tài)部分可觀測的問題,本文基于深度強化學(xué)習(xí)DQN模型進行研究,提出了基于雙網(wǎng)絡(luò)的DQN模型。具體地,首先結(jié)合營銷場景的時序特點,通過使用基于RNN網(wǎng)絡(luò)的DQN模型(DQN_RNN)以學(xué)習(xí)隱狀態(tài)的方式來解決上述問題。然后,指出DQN_RNN模型在網(wǎng)絡(luò)優(yōu)化過程中不能很好地同時進行隱狀態(tài)的學(xué)習(xí)和值函數(shù)的逼近,并結(jié)合混合模型的思想,由此提出了基于雙網(wǎng)絡(luò)的DQN模型:通過RNN網(wǎng)絡(luò)從監(jiān)督數(shù)據(jù)中學(xué)習(xí)客戶的隱狀態(tài)表示方法,再將RNN網(wǎng)絡(luò)輸出的隱狀態(tài)信息作為DQN網(wǎng)絡(luò)的輸入狀態(tài)進行強化學(xué)習(xí),通過這種方式可以充分發(fā)揮這兩個網(wǎng)絡(luò)各自的優(yōu)勢,在提高值函數(shù)逼近效果的同時也能更好地學(xué)習(xí)隱狀態(tài)。同時,為了取得更好的策略學(xué)習(xí)效果,本文從網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法兩個角度進行分析,提出三種不同的模型結(jié)構(gòu):雙網(wǎng)絡(luò)獨立訓(xùn)練模型、雙網(wǎng)絡(luò)一步聯(lián)合訓(xùn)練模型和雙網(wǎng)絡(luò)兩步聯(lián)合訓(xùn)練模型。最后,通過仿真實驗證明,本文所提出的基于雙網(wǎng)絡(luò)的DQN模型在定期直復(fù)營銷場景中可以取得更高的收益。
【圖文】:
法很難實現(xiàn)這一點。逡逑強化學(xué)習(xí)(Reinforcement邋Learning,邋RL)主要用于解決序貫決策問題,它是逡逑機器學(xué)習(xí)的重要組成部分,其學(xué)習(xí)過程如圖1.2所示:通過智能體(Agent)不斷逡逑地與環(huán)境(environment)進行交互,并從環(huán)境反饋的延遲獎賞中學(xué)習(xí)狀態(tài)與行為逡逑之間的映射關(guān)系,以使得可以達到累積獎賞最大化[2]。從以上交互過程中,可以逡逑發(fā)現(xiàn):因為強化學(xué)習(xí)在學(xué)習(xí)的過程中考慮到了延遲回報,并且只關(guān)心當(dāng)前采取什逡逑么行為可以使整個任務(wù)序列達到累積獎賞最大化,因此,強化學(xué)習(xí)算法可以很好逡逑地解決直復(fù)營銷場景中營銷決策點間的相互影響問題,,進而實現(xiàn)最大化客戶生逡逑命周期價值的目標(biāo),這也是本文選擇使用強化學(xué)習(xí)技術(shù)解決直復(fù)營銷問題的出逡逑發(fā)點。特別地,本文只關(guān)注基于值函數(shù)的強化學(xué)習(xí)方法。逡逑邐"(T智能體邋邐逡逑邐?邋Agent逡逑狀態(tài)&邐獎賞fit-i邐行為小逡逑State邐Reward邐Action逡逑I邋Rt邋邐逡逑1邐環(huán)境邐邐邐逡逑邐H邐Environment逡逑圖1.2強化學(xué)習(xí)的交互過程逡逑強化學(xué)習(xí)是從控制學(xué)、心理學(xué)、統(tǒng)計學(xué)和運籌學(xué)等眾多學(xué)科交叉發(fā)展而來逡逑的。在1980年到2000年之間
固定、數(shù)據(jù)負載大導(dǎo)致訓(xùn)練速度慢這兩個問題提出相應(yīng)的改進方法,然后又針對逡逑基于線性函數(shù)逼近的Q-learning算法無法很好地解決客戶狀態(tài)的部分可觀測問逡逑題,研究了基于非線性函數(shù)逼近的DQN算法。本文研究內(nèi)容的結(jié)構(gòu)如圖1.3所逡逑示,可以具體概括為以下四點:逡逑(1)針對直復(fù)營銷場景中營銷決策時間間隔不固定和數(shù)據(jù)規(guī)模大導(dǎo)致學(xué)習(xí)逡逑速度慢這兩個問題,本文基于傳統(tǒng)的Q-leaming算法進行研究,提出了改進的逡逑Q-leaming算法。具體地,使用均值標(biāo)準(zhǔn)化的方法減少決策點間時間間隔不固定逡逑6逡逑
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP181;F274
本文編號:2675486
【圖文】:
法很難實現(xiàn)這一點。逡逑強化學(xué)習(xí)(Reinforcement邋Learning,邋RL)主要用于解決序貫決策問題,它是逡逑機器學(xué)習(xí)的重要組成部分,其學(xué)習(xí)過程如圖1.2所示:通過智能體(Agent)不斷逡逑地與環(huán)境(environment)進行交互,并從環(huán)境反饋的延遲獎賞中學(xué)習(xí)狀態(tài)與行為逡逑之間的映射關(guān)系,以使得可以達到累積獎賞最大化[2]。從以上交互過程中,可以逡逑發(fā)現(xiàn):因為強化學(xué)習(xí)在學(xué)習(xí)的過程中考慮到了延遲回報,并且只關(guān)心當(dāng)前采取什逡逑么行為可以使整個任務(wù)序列達到累積獎賞最大化,因此,強化學(xué)習(xí)算法可以很好逡逑地解決直復(fù)營銷場景中營銷決策點間的相互影響問題,,進而實現(xiàn)最大化客戶生逡逑命周期價值的目標(biāo),這也是本文選擇使用強化學(xué)習(xí)技術(shù)解決直復(fù)營銷問題的出逡逑發(fā)點。特別地,本文只關(guān)注基于值函數(shù)的強化學(xué)習(xí)方法。逡逑邐"(T智能體邋邐逡逑邐?邋Agent逡逑狀態(tài)&邐獎賞fit-i邐行為小逡逑State邐Reward邐Action逡逑I邋Rt邋邐逡逑1邐環(huán)境邐邐邐逡逑邐H邐Environment逡逑圖1.2強化學(xué)習(xí)的交互過程逡逑強化學(xué)習(xí)是從控制學(xué)、心理學(xué)、統(tǒng)計學(xué)和運籌學(xué)等眾多學(xué)科交叉發(fā)展而來逡逑的。在1980年到2000年之間
固定、數(shù)據(jù)負載大導(dǎo)致訓(xùn)練速度慢這兩個問題提出相應(yīng)的改進方法,然后又針對逡逑基于線性函數(shù)逼近的Q-learning算法無法很好地解決客戶狀態(tài)的部分可觀測問逡逑題,研究了基于非線性函數(shù)逼近的DQN算法。本文研究內(nèi)容的結(jié)構(gòu)如圖1.3所逡逑示,可以具體概括為以下四點:逡逑(1)針對直復(fù)營銷場景中營銷決策時間間隔不固定和數(shù)據(jù)規(guī)模大導(dǎo)致學(xué)習(xí)逡逑速度慢這兩個問題,本文基于傳統(tǒng)的Q-leaming算法進行研究,提出了改進的逡逑Q-leaming算法。具體地,使用均值標(biāo)準(zhǔn)化的方法減少決策點間時間間隔不固定逡逑6逡逑
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP181;F274
【參考文獻】
相關(guān)期刊論文 前2條
1 張文旭;馬磊;王曉東;;基于事件驅(qū)動的多智能體強化學(xué)習(xí)研究[J];智能系統(tǒng)學(xué)報;2017年01期
2 郭先平;黃永輝;;半Markov決策過程的研究進展[J];中國科學(xué):數(shù)學(xué);2015年05期
相關(guān)博士學(xué)位論文 前2條
1 張春元;連續(xù)空間強化學(xué)習(xí)研究[D];電子科技大學(xué);2016年
2 傅啟明;強化學(xué)習(xí)中離策略算法的分析及研究[D];蘇州大學(xué);2014年
相關(guān)碩士學(xué)位論文 前2條
1 周誼成;面向強化學(xué)習(xí)的模型學(xué)習(xí)算法研究[D];蘇州大學(xué);2016年
2 陳桂興;強化學(xué)習(xí)中值函數(shù)逼近方法的研究[D];蘇州大學(xué);2014年
本文編號:2675486
本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/2675486.html
最近更新
教材專著