一種神經網絡對話系統(tǒng)中的低頻詞壓縮方法
發(fā)布時間:2021-09-02 10:01
近年來,基于深度神經網絡的生成式對話系統(tǒng)受到了來自學術界和工業(yè)界的廣泛關注。生成式對話系統(tǒng)通常被建模為序列到序列任務,即將用戶的問話當做源序列,回答用戶的回復做為目標序列。Encoder-Decoder是當前用于實現(xiàn)生成式對話的主流框架,由兩部分組成,Encoder負責理解用戶的問話文本,Decoder負責生成一個新的文本回復用戶。目前大部分基于Encoder-Decoder框架的生成式對話系統(tǒng)采用詞級別模型,即將對話中的文本表示為詞向量序列,通過維護一個包含詞向量的詞表來理解或產生一個對應的詞。受限于當前計算機硬件發(fā)展的限制,詞表通常只能被設計為有限容量,詞表之外的詞將會變成未登錄詞。由于詞表中不包含未登錄詞的詞向量,因此未登錄詞不能被Encoder理解,也不能被Decoder生成,最終影響對話系統(tǒng)的整體性能,降低對話系統(tǒng)的生成質量。為了解決生成式對話中的未登錄詞問題,并改善基于Encoder-Decoder的對話系統(tǒng)的性能,本文提出了基于低頻詞壓縮表示的生成式對話模型HL-EncDec。HL-EncDec將未登錄詞歸類為低頻詞,并利用語言中字符數(shù)目恒定且總量少的特性,將低頻詞壓縮到...
【文章來源】:北京大學北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
Encoder-Decoder生成式對話系統(tǒng)示意圖
頻數(shù)累計 1.06 億,其中橫坐標代表的是排位在對應取值的詞,縱坐標代表的是該詞的使用頻數(shù),并且為了便于觀察,該值已經以 2 為底取了對數(shù)。可以發(fā)現(xiàn)排位靠前的小部分詞是被頻繁使用的常用詞,而排位靠后的絕大部分詞是很少被使用的稀疏詞?紤]到這一點,在 Encoder-Decoder 中詞表的構成方式常采用貪心策略,使詞表盡可能覆蓋到實際對話,即根據設定的詞表容量| |,將選擇頻度最高的前| |個詞加入到詞表中,剩余的詞做為未登錄詞處理。這種基于貪心策略的詞表構成方法可以獲得近似最大的詞覆蓋率,其中詞覆蓋率DataCoverage的計算方式如下:DataCoverage# ##(4.1)其中# 代表整個語料中所有詞使用頻數(shù)總和,而# 代表排位在| |以外所有詞的頻數(shù)總和。詞覆蓋率越大,代表這個詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預料的詞覆蓋率和詞表大小的關系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計算得到的覆圖 4.1 詞頻分布
代表這個詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預料的詞覆蓋率和詞表大小的關系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計算得到的覆蓋率分別為:[0.85,0.90,0.94,0.97,0.98,0.99]。由此可見,選擇排位靠前的前| |的詞加入詞表,可以取得非常高的覆蓋率。雖然整個語料中包含 70 多萬詞,但僅前 10000 個詞就可以獲得高達 90%的覆蓋率。但從另一個角度去觀察,會發(fā)現(xiàn)隨著詞表規(guī)格的不斷增加,詞表覆蓋率增長的收益卻在下降。詞表規(guī)格從 5000 翻倍提升到 10000 時,詞表覆蓋率增長了 5%,從 10000 翻倍到 20000,詞表覆蓋率增長了 4%
本文編號:3378810
【文章來源】:北京大學北京市 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
Encoder-Decoder生成式對話系統(tǒng)示意圖
頻數(shù)累計 1.06 億,其中橫坐標代表的是排位在對應取值的詞,縱坐標代表的是該詞的使用頻數(shù),并且為了便于觀察,該值已經以 2 為底取了對數(shù)。可以發(fā)現(xiàn)排位靠前的小部分詞是被頻繁使用的常用詞,而排位靠后的絕大部分詞是很少被使用的稀疏詞?紤]到這一點,在 Encoder-Decoder 中詞表的構成方式常采用貪心策略,使詞表盡可能覆蓋到實際對話,即根據設定的詞表容量| |,將選擇頻度最高的前| |個詞加入到詞表中,剩余的詞做為未登錄詞處理。這種基于貪心策略的詞表構成方法可以獲得近似最大的詞覆蓋率,其中詞覆蓋率DataCoverage的計算方式如下:DataCoverage# ##(4.1)其中# 代表整個語料中所有詞使用頻數(shù)總和,而# 代表排位在| |以外所有詞的頻數(shù)總和。詞覆蓋率越大,代表這個詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預料的詞覆蓋率和詞表大小的關系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計算得到的覆圖 4.1 詞頻分布
代表這個詞表能夠覆蓋語料中詞的完整度越高。圖4.2 展示了本文所使用的預料的詞覆蓋率和詞表大小的關系。圖 4.2 包含的詞表規(guī)格為:[5000,10000,20000,40000,80000,160000], 計算得到的覆蓋率分別為:[0.85,0.90,0.94,0.97,0.98,0.99]。由此可見,選擇排位靠前的前| |的詞加入詞表,可以取得非常高的覆蓋率。雖然整個語料中包含 70 多萬詞,但僅前 10000 個詞就可以獲得高達 90%的覆蓋率。但從另一個角度去觀察,會發(fā)現(xiàn)隨著詞表規(guī)格的不斷增加,詞表覆蓋率增長的收益卻在下降。詞表規(guī)格從 5000 翻倍提升到 10000 時,詞表覆蓋率增長了 5%,從 10000 翻倍到 20000,詞表覆蓋率增長了 4%
本文編號:3378810
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3378810.html
最近更新
教材專著