Cas-GAN:一種基于GAN和強化學習的對話管理策略學習方法
發(fā)布時間:2020-03-29 04:58
【摘要】:對話管理系統(tǒng)在日常生活中有廣泛的應用,如在線購物,酒店預訂和駕駛預訂。在對話管理系統(tǒng)中,用戶通過多輪對話與系統(tǒng)交互。有效的對話管理策略有助于對話系統(tǒng)有效地響應用戶。對話管理中的策略學習是一項復雜的任務。為了建立一個目標導向的對話代理,過去的研究中,使用了不同的方法來訓練有效的對話策略系統(tǒng)。生成對抗網(wǎng)絡(GAN)由兩個網(wǎng)絡,生成器和鑒別器構(gòu)成。生成器的主要作用是從真實數(shù)據(jù)生成虛假樣本,側(cè)重于策略學習過程的優(yōu)化。鑒別器網(wǎng)絡將接收來自策略學習訓練得到的有效輸出,并且將產(chǎn)生獎勵。獎勵輸出可以是假或真,具體取決于0到1的值。GAN已經(jīng)被應用于對話生成中,用來選擇最佳策略以幫助構(gòu)建對話代理。有效的對話策略學習可以提高對話管理的質(zhì)量(流暢度和多樣性)。而強化學習(RL)算法則用于優(yōu)化策略策略,因為序列是離散的。在目前的研究中,我們提出了一種新技術(shù),圖生成對抗網(wǎng)絡(CasGAN),將GCN和RL結(jié)合起來。Cas-GAN可以通過使用圖卷積網(wǎng)絡(GCN)來對序列之間的關(guān)系進行建模。該圖由不同的高級和低級節(jié)點組成。我們使用最大對數(shù)似然(MLL)方法來優(yōu)化參數(shù),選擇最佳節(jié)點。實驗結(jié)果表明,我們所提的方法CasGAN比Seq-GAN更加有效。
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP315;O157.5;TP18
本文編號:2605483
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP315;O157.5;TP18
【相似文獻】
相關(guān)碩士學位論文 前1條
1 Nabeel Muhammad;Cas-GAN:一種基于GAN和強化學習的對話管理策略學習方法[D];華南理工大學;2019年
,本文編號:2605483
本文鏈接:http://www.sikaile.net/guanlilunwen/glzh/2605483.html