天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

融合預訓練語言模型的機器譯文質量評估

發(fā)布時間:2021-11-10 00:31
  近年來,神經機器翻譯技術取得了重大突破并得到了迅速的應用和推廣。但是,依然存在諸如機器譯文質量評估問題、集外詞問題、長句翻譯問題、過翻和漏翻問題等。機器譯文質量評估(Quality Estimation,QE)是研究如何解決在沒有參考譯文的情況下對機器譯文的質量進行評估的問題,其研究成果不僅可以幫助機器翻譯系統(tǒng)過濾掉低質量的翻譯結果,以及構建高質量的平行語料庫,還可減少譯后編輯的工作量。因此,該研究具有重要的研究意義和實用價值。現(xiàn)有的QE方法主要包括兩類,一種是基于機器學習的方法,另一種是基于深度學習的方法。這兩種方法都致力于提取與QE任務緊密相關的特征,抽取的特征的好壞決定了系統(tǒng)性能的優(yōu)劣。近期,預訓練語言模型刷新了多個自然語言處理任務的最佳成績,展現(xiàn)出強大的表征學習能力。因此,本文主要探索如何將預訓練語言模型融入到QE任務中,以提升QE的性能。本文的主要工作和創(chuàng)新點包括:(1)提出了一種將ELMO、GPT和BERT等預訓練語言模型提取出的機器譯文特征和“雙語專家”模型提取出的特征相融合的機器譯文質量評估方法。兩者提取到的特征相互補充可有效緩解QE任務特征稀疏問題。實驗結果證明,在句... 

【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校

【文章頁數(shù)】:66 頁

【學位級別】:碩士

【部分圖文】:

融合預訓練語言模型的機器譯文質量評估


圖2-1?QuEst特征族??r-r.??

目標詞,固定窗,神經網絡模塊,模型組合


“OK”?/”?BAD”??圖2-2?QUETCH模型組合架構??Figure?2-2?QUETCH?model?combination?architecture??Kreutzer等人問于2015年使用模型組合的方式以解決詞級別QE任務,模型可??以分為兩個部分。一部分是神經網絡模塊,其輸入為源端和目標端的詞向量,詞??向量并不是單個詞所對應的詞向量,而是以目標詞為中心,固定窗口大小內的詞??向量的拼接,經過前饋神經網絡運算后,將隱層表示進行線性變換最后使用??10??

模型圖,模型,作者,詞性標注


正則化系數(shù)為CeUO^UPHamming損失項,該損失項給錯誤的正例賦予??了比錯誤的負例更大的懲罰心e?{0.5,0.55,...?,0.95},c,,v?=l-c>P,來解決錯誤標簽??比正確標簽更少的問題。而純粹的神經網絡模型(NEURALQE)如圖2-4所示。??該系統(tǒng)接收源端和目標端的句子s和t作為其輸出,以及它們詞級別的對齊乂??和由TurboTagger所得到的詞性標注。除了額外增加的詞性標注特征,輸入層的架??構與QUETCH相似。對于目標端的每個單詞的表示,是將該詞與其對齊的詞的嵌??入表示相拼接得到的。兩端的詞左右兩側的文本也被拼接到了一起。接下來,該??系統(tǒng)堆疊了如下的幾層神經網絡:??(1)

【參考文獻】:
碩士論文
[1]基于神經網絡機器翻譯的機器譯文質量估計研究[D]. 孫瀟.哈爾濱工業(yè)大學 2018
[2]融合語義概念的神經機器翻譯集外詞處理方法研究[D]. 李少童.北京交通大學 2018
[3]層次短語模型的日語時態(tài)翻譯研究[D]. 明芳.北京交通大學 2017
[4]英漢機器翻譯系統(tǒng)自動評測方法的研究與實現(xiàn)[D]. 張麗云.北京工業(yè)大學 2006



本文編號:3486211

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3486211.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶27315***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com