翻譯質量估計模型中訓練樣本改進方法研究
發(fā)布時間:2021-03-10 09:51
隨著機器翻譯技術的發(fā)展和應用,機器翻譯結果出現(xiàn)在更多的場景中,但是翻譯質量卻無法保證,用戶需要了解機器翻譯結果的質量來決定是否對其進行采用。機器翻譯質量估計(Quality Estimation,QE)是機器翻譯領域的一項關鍵任務,可以僅根據(jù)源語言句子和機器譯文來對譯文的質量進行打分。與翻譯自動評價的方法不同,翻譯質量估計不需要使用參考譯文,能夠節(jié)省大量的人力和資源,適合于大規(guī)模無參考譯文的機器譯文質量評估場景。在QE任務中,一個關鍵的問題是數(shù)據(jù)稀缺,翻譯質量估計數(shù)據(jù)的標注需要專業(yè)的翻譯人員參與,對機器譯文進行后編輯,從而得到質量較好的后編輯譯文,這一過程費時費力。故現(xiàn)有的QE數(shù)據(jù)集的規(guī)模普遍較小,一般只有2萬到3萬,與平行語料百萬上千萬的規(guī)模相比,是十分稀少的。本文為解決翻譯質量估計數(shù)據(jù)稀缺問題,從三個層面展開研究,分別為模型層面、訓練任務層面和數(shù)據(jù)層面,提出了一種新的QE模型架構,并探索預訓練任務對QE的影響,最后使用數(shù)據(jù)增強方法擴大了QE數(shù)據(jù)集的規(guī)模。本文的主要貢獻如下:第一,本文提出了一個基于掩碼預測的翻譯質量估計模型,通過分析當前QE主流框架“Predictor-Estima...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
本課題主要研究內容結構圖
哈爾濱工業(yè)大學工學碩士學位論文第2章基于掩碼預測的翻譯質量估計模型近年來,基于Predictor-Estimator架構[25]的翻譯質量估計模型成為主流。通常來說,該架構包含預測器(Predictor)和估計器(Estimator),預測器基于Encoder-Decoder架構,使用大規(guī)模平行語料進行預訓練,訓練任務是對目標端句子中的每個詞進行預測;估計器則是在訓練好的預測器基礎上,進一步使用翻譯質量估計數(shù)據(jù)繼續(xù)訓練;赑redictor-Estimator架構的QE模型在許多QE評測任務中獲得了較好的成績[27,28,36]。圖2-1BilingualExpert模型示意圖以Kai等人[26]提出的BilingualExpert模型為例,該模型在WMT2018多項翻譯質量估計任務中獲得最好成績,結構如圖2-1所示。模型中Predictor使用了一個編碼器對源端句子進行編碼,正反向兩個解碼器對目標端句子進行學習。為了獲得雙向的句子表示,模型將正向解碼器的輸出和反向解碼器的輸出拼接,得到的向量稱為特征向量,然后將特征向量輸入到基于雙向LSTM的估計器中進行質量估計。(a)forward(b)backward(c)masked圖2-2三種方向進行詞預測的對比-10-
哈爾濱工業(yè)大學工學碩士學位論文與傳統(tǒng)Predictor-Estimator模型的差異,圖中橙色箭頭和綠色箭頭分別代表預訓練階段和QE階段模型參數(shù)更新的范圍。2.1.4模型架構本模型的架構與傳統(tǒng)Transformer模型較為類似,包含一個編碼器(Encoder)和一個解碼器(Decoder),其中編碼器采用Transformer模型的編碼器,共六層,每層由兩部分組成,第一部分為多頭自注意力層(Multi-HeadSelfAttention),第二部分為前饋神經(jīng)網(wǎng)絡(Position-wiseFeed-ForwardNetworks)。解碼器總體采用Transformer的解碼器架構,共六層,每層由三部分組成,第一部分為多頭的自注意力層(Multi-HeadSelfAttention),第二部分為源端注意力層(Multi-HeadAttention),第三部分為前饋神經(jīng)網(wǎng)絡(Position-wiseFeed-ForwardNetworks)。模型隱藏層大小為512,對于多頭注意力層,頭的個數(shù)為8,前饋神經(jīng)網(wǎng)絡隱層大小為2048。圖2-5為本模型的架構圖。圖2-5模型架構圖機器翻譯任務(MT)和翻譯質量估計任務(QE)存在著許多相似之處,例如-15-
【參考文獻】:
期刊論文
[1]多特征融合的句子級譯文質量估計方法[J]. 葉娜,王遠遠,蔡東風. 廈門大學學報(自然科學版). 2020(02)
[2]基于多語言預訓練語言模型的譯文質量估計方法[J]. 陸金梁,張家俊. 廈門大學學報(自然科學版). 2020(02)
[3]基于子詞的句子級別神經(jīng)機器翻譯的譯文質量估計方法[J]. 李培蕓,翟煜錦,項青宇,李茂西,裘白蓮,羅文兵,王明文. 廈門大學學報(自然科學版). 2020(02)
[4]融合翻譯知識的機器翻譯質量估計算法[J]. 孫瀟,朱聰慧,趙鐵軍. 智能計算機與應用. 2019(02)
[5]基于偽數(shù)據(jù)的機器翻譯質量估計模型的訓練[J]. 吳煥欽,張紅陽,李靜梅,朱俊國,楊沐昀,李生. 北京大學學報(自然科學版). 2018(02)
本文編號:3074474
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
本課題主要研究內容結構圖
哈爾濱工業(yè)大學工學碩士學位論文第2章基于掩碼預測的翻譯質量估計模型近年來,基于Predictor-Estimator架構[25]的翻譯質量估計模型成為主流。通常來說,該架構包含預測器(Predictor)和估計器(Estimator),預測器基于Encoder-Decoder架構,使用大規(guī)模平行語料進行預訓練,訓練任務是對目標端句子中的每個詞進行預測;估計器則是在訓練好的預測器基礎上,進一步使用翻譯質量估計數(shù)據(jù)繼續(xù)訓練;赑redictor-Estimator架構的QE模型在許多QE評測任務中獲得了較好的成績[27,28,36]。圖2-1BilingualExpert模型示意圖以Kai等人[26]提出的BilingualExpert模型為例,該模型在WMT2018多項翻譯質量估計任務中獲得最好成績,結構如圖2-1所示。模型中Predictor使用了一個編碼器對源端句子進行編碼,正反向兩個解碼器對目標端句子進行學習。為了獲得雙向的句子表示,模型將正向解碼器的輸出和反向解碼器的輸出拼接,得到的向量稱為特征向量,然后將特征向量輸入到基于雙向LSTM的估計器中進行質量估計。(a)forward(b)backward(c)masked圖2-2三種方向進行詞預測的對比-10-
哈爾濱工業(yè)大學工學碩士學位論文與傳統(tǒng)Predictor-Estimator模型的差異,圖中橙色箭頭和綠色箭頭分別代表預訓練階段和QE階段模型參數(shù)更新的范圍。2.1.4模型架構本模型的架構與傳統(tǒng)Transformer模型較為類似,包含一個編碼器(Encoder)和一個解碼器(Decoder),其中編碼器采用Transformer模型的編碼器,共六層,每層由兩部分組成,第一部分為多頭自注意力層(Multi-HeadSelfAttention),第二部分為前饋神經(jīng)網(wǎng)絡(Position-wiseFeed-ForwardNetworks)。解碼器總體采用Transformer的解碼器架構,共六層,每層由三部分組成,第一部分為多頭的自注意力層(Multi-HeadSelfAttention),第二部分為源端注意力層(Multi-HeadAttention),第三部分為前饋神經(jīng)網(wǎng)絡(Position-wiseFeed-ForwardNetworks)。模型隱藏層大小為512,對于多頭注意力層,頭的個數(shù)為8,前饋神經(jīng)網(wǎng)絡隱層大小為2048。圖2-5為本模型的架構圖。圖2-5模型架構圖機器翻譯任務(MT)和翻譯質量估計任務(QE)存在著許多相似之處,例如-15-
【參考文獻】:
期刊論文
[1]多特征融合的句子級譯文質量估計方法[J]. 葉娜,王遠遠,蔡東風. 廈門大學學報(自然科學版). 2020(02)
[2]基于多語言預訓練語言模型的譯文質量估計方法[J]. 陸金梁,張家俊. 廈門大學學報(自然科學版). 2020(02)
[3]基于子詞的句子級別神經(jīng)機器翻譯的譯文質量估計方法[J]. 李培蕓,翟煜錦,項青宇,李茂西,裘白蓮,羅文兵,王明文. 廈門大學學報(自然科學版). 2020(02)
[4]融合翻譯知識的機器翻譯質量估計算法[J]. 孫瀟,朱聰慧,趙鐵軍. 智能計算機與應用. 2019(02)
[5]基于偽數(shù)據(jù)的機器翻譯質量估計模型的訓練[J]. 吳煥欽,張紅陽,李靜梅,朱俊國,楊沐昀,李生. 北京大學學報(自然科學版). 2018(02)
本文編號:3074474
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3074474.html
最近更新
教材專著