基于Transformer的對話系統(tǒng)模型設(shè)計(jì)與壓縮方法研究
發(fā)布時(shí)間:2021-01-06 00:52
對話系統(tǒng)是自然語言處理的研究熱點(diǎn)之一,其研究任務(wù)包括對話生成、對話匹配、對話狀態(tài)跟蹤和對話動(dòng)作識(shí)別等。目前有關(guān)研究集中在各個(gè)任務(wù)的模型性能提升上,然而不同的任務(wù)使用的基礎(chǔ)編碼器仍然以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)或卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為主。近期出現(xiàn)的Transformer模型能夠捕獲句子內(nèi)部詞匯之間的關(guān)系,被證明在自然語義上具有比RNN、CNN更強(qiáng)的編碼能力。但是Transformer模型不適合編碼長文本信息,而對話數(shù)據(jù)的一個(gè)樣本通常具有多個(gè)對話輪次,文本信息過長,因此該模型無法直接應(yīng)用到對話任務(wù)中。此外,該模型的計(jì)算量與顯存占用量過大,難以在實(shí)際中廣泛應(yīng)用。針對上述問題,本文對如何將Transformer模型應(yīng)用于對話任務(wù)進(jìn)行展開研究,本文的主要工作包括:1)設(shè)計(jì)了適合編碼對話數(shù)據(jù)的Mem-Transformer模型。該模型通過記憶網(wǎng)絡(luò)在不同對話輪次之間傳遞信息,實(shí)現(xiàn)多輪對話的編碼,并通過信息壓縮方式減小模型計(jì)算量,最終在對話匹配、對話狀態(tài)跟蹤和對話動(dòng)作識(shí)別任務(wù)中超過其他比較模型。...
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
記憶網(wǎng)
記憶網(wǎng)絡(luò)信息內(nèi)容圖
浙江大學(xué)碩士學(xué)位論文第3章多層記憶編碼模型MEM-TRANSFORMER圖3.7多層局部相對位置Attention圖的信息量越來越多。rel=M∑i=1Mapfinal[i,iwin:i+win](3.18)3.4本章小結(jié)本章主要介紹了適合對話文本編碼的Mem-Transformer模型。模型通過記憶網(wǎng)絡(luò)傳遞對話上文信息;通過信息壓縮機(jī)制節(jié)省計(jì)算量;模型能夠兼容BERT預(yù)訓(xùn)練參數(shù);模型適合對話系統(tǒng)線上服務(wù)。最后通過在三種不同的對話任務(wù)上進(jìn)行實(shí)驗(yàn)證明了模型的有效性。49
本文編號(hào):2959607
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
記憶網(wǎng)
記憶網(wǎng)絡(luò)信息內(nèi)容圖
浙江大學(xué)碩士學(xué)位論文第3章多層記憶編碼模型MEM-TRANSFORMER圖3.7多層局部相對位置Attention圖的信息量越來越多。rel=M∑i=1Mapfinal[i,iwin:i+win](3.18)3.4本章小結(jié)本章主要介紹了適合對話文本編碼的Mem-Transformer模型。模型通過記憶網(wǎng)絡(luò)傳遞對話上文信息;通過信息壓縮機(jī)制節(jié)省計(jì)算量;模型能夠兼容BERT預(yù)訓(xùn)練參數(shù);模型適合對話系統(tǒng)線上服務(wù)。最后通過在三種不同的對話任務(wù)上進(jìn)行實(shí)驗(yàn)證明了模型的有效性。49
本文編號(hào):2959607
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2959607.html
最近更新
教材專著