基于半監(jiān)督方法的蒙漢機器翻譯的研究
發(fā)布時間:2020-11-11 20:49
近年來,隨著深度學習的進步和對大規(guī)模平行語料庫的使用,針對機器翻譯領域的研究取得了令人矚目的成績,但這些成功的背后仍需要大量平行語料支撐。而蒙漢雙語平行語料稀缺使得蒙漢機器翻譯模型性能難以提升,本文通過構建基于單語輔助的蒙漢神經網絡機器翻譯模型,可以有效緩減蒙漢機器翻譯任務中的平行語料稀缺問題,并將該方法擴展到基于短語的統(tǒng)計機器翻譯模型上,更好地提升翻譯系統(tǒng)的性能。最后對上述兩個系統(tǒng)進行聯(lián)合訓練得到性能較好的翻譯模型。本文具體工作內容如下:(1)本文提出了利用單語語料構建無監(jiān)督蒙漢神經網絡機器翻譯模型的方法。該模型在訓練過程中僅使用蒙漢單語語料,利用自學習方法對蒙古文端和漢文端單語詞嵌入進行跨語言詞嵌入訓練得到雙語詞典,然后通過該雙語詞典和漢文語言模型初始化翻譯模型。在無監(jiān)督機器翻譯系統(tǒng)中,利用迭代回譯可以對語料進行有效地擴充,減少模型對平行語料的依賴,有效緩解蒙漢機器翻譯任務中的平行語料稀缺問題。(2)本文實現(xiàn)了基于短語的半監(jiān)督蒙漢統(tǒng)計機器翻譯模型。使用無監(jiān)督方法對基于短語的無監(jiān)督蒙漢統(tǒng)計機器翻譯模型進行建模,并將得到的偽平行語料與平行語料在有監(jiān)督方法下訓練基于半監(jiān)督方法的統(tǒng)計機器翻譯模型,提升基于短語的蒙漢統(tǒng)計機器翻譯模型翻譯性能。(3)本文實現(xiàn)了兩種模型的聯(lián)合訓練方法。在基于短語的蒙漢統(tǒng)計機器翻譯模型中,模型訓練的最小翻譯單元為短語片段,翻譯得到的短語免去了局部調序的問題,這樣可以更好的保留句子的結構信息,使得翻譯效果有所提升。因此,本文將對半監(jiān)督蒙漢神經網絡機器翻譯模型和基于短語的半監(jiān)督蒙漢統(tǒng)計機器翻譯模型在EM框架下進行聯(lián)合訓練,進一步提升蒙漢機器翻譯模型翻譯性能。本文通過實驗驗證了自學習方法在蒙古文和漢文這樣相似性較低的語言之間的詞嵌入訓練效果優(yōu)于基于生成式對抗網絡方法,且無監(jiān)督訓練方法可以擴充語料進而提升低資源語言機器翻譯模型性能,本文無監(jiān)督蒙漢神經網絡機器翻譯模型BLEU值達到18.76。隨后將無監(jiān)督方法應用在基于短語的蒙漢統(tǒng)計機器翻譯模型中,得到了較無監(jiān)督神經機器翻譯模型更好的表現(xiàn),BLEU值達到27.15。由于使用無監(jiān)督方法得到的偽語料噪聲較多,不利于模型的語義抽取,因此本文使用無監(jiān)督翻譯模型得到的偽平行語料和雙語平行語料進行半監(jiān)督訓練,對無監(jiān)督模型進行改進,并結合統(tǒng)計機器翻譯模型和神經機器翻譯模型各自優(yōu)勢進行聯(lián)合訓練,實現(xiàn)性能高于單一系統(tǒng)的蒙漢機器翻譯模型,BLEU值達到38.16。該模型性能超過有監(jiān)督蒙漢神經網絡機器翻譯模型性能,為之后蒙漢機器翻譯研究及其他低資源語言機器翻譯任務的研究奠定了基礎。
【學位單位】:內蒙古大學
【學位級別】:碩士
【學位年份】:2020
【中圖分類】:TP391.2;TP18
【部分圖文】:
基于半監(jiān)督方法的蒙漢機器翻譯的研究10圖2.1基于短語的蒙漢統(tǒng)計機器翻譯模型架構圖Figure2.1TheMongolian-ChinesePhrasebasedStatisticalMachineTranslationModelArchitecture2.1.1短語表短語表由源語言端n-gram的集合、這些n-gram在目標語言中可能的翻譯以及這個翻譯對應的得分組成。為了系統(tǒng)可以對更長的句子進行翻譯,解碼器將這部分n-gram的翻譯組合起來,根據相應的分數和其余的打分模型對這個候選翻譯進行排序。SMT系統(tǒng)首先從平行語料庫中利用詞對齊模型得到兩個方向的詞對齊,然后抽取一致的短語集合,并根據頻率進行打分,得到最終的短語表。2.1.2反向短語翻譯模型|Pef表示目標端語言句子翻譯為源語言句子的概率,該部分為整個統(tǒng)計機器翻譯模型的核心,假設將源語言句子f分為I個不同的短語片段,記IIffff11,且每個if均可以翻譯得到對應的ei,則反向短語翻譯模型可由公式(2-2)表示:2-2)|,(log),()(11111IaIIIhfeafPe)|,(111IIIeafP為短語對齊模型。短語對齊模型是通過對雙語平行語料中的短語信息進行統(tǒng)計分析后得到的,用于構建兩種語言之間的詞對應關系,短語對齊信息Iaaa1用于描述目標語言句子f中的第i個短語的位置與源語言端第ia個詞的位置的對應關系。經過短語抽取后,可以得到“一對一”的短語表,在翻譯中以短語片段為最小翻譯單元,這樣做可以有效地減少基于詞的翻譯模型中翻譯結果的不連貫問題。表2.1為一個短語對齊信息表述示例:
內蒙古大學碩士學位論文13圖2.2編碼器-解碼器網絡結構圖Figure2.2Encoder-DecoderNetworkStructureDiagram目前應用在機器翻譯任務上的深度神經網絡模型主要有基于CNN的機器翻譯模型、基于RNN的機器翻譯模型以及基于注意力機制的Transformer機器翻譯模型。2.2.1卷積神經網絡機器翻譯模型卷積神經網絡最先應用于圖像處理,后又應用于手寫數字識別任務。在機器翻譯任務中,Dauphin等人的工作[47]展示了如何通過使用多層卷積神經網絡來構造并訓練一個高性能的語言模型。該模型使用一句話構成的詞嵌入作為輸入,每一行表示一個詞的詞嵌入,在處理文本時,卷積核通常只能覆蓋上下幾行的詞,因此設置卷積核寬度與輸入詞嵌入寬度一致,這樣操作不僅可以捕捉到連續(xù)詞之間的特征,也可以實現(xiàn)在計算同一類特征時的權重共享。FacebookAI團隊實現(xiàn)了基于卷積神經網絡的機器翻譯模型[5],通過對模型進行訓練可以獲得句子當中各組成成分的語義特征,然后通過學習到的語義特征將源語言句子翻譯為目標語言句子,得到翻譯結果。2.2.2循環(huán)神經網絡翻譯模型RNN的核心思想是使用經過量化后的句子的序列信息進行特征提取,與普通的FNN不同的是,RNN在FNN的基礎上加入了循環(huán)機制,這樣操作使得RNN可以學習到甚至前后沒有關聯(lián)的詞語之間的信息,但是當需要翻譯的句子過長時,RNN依然存在長距離依賴問題[48]且會導致訓練過程中的梯度消失和梯度爆炸問題。為解決RNN在訓練中遇到的這些問題,引入了長短時記憶(LongShort-TermMemory,簡稱LSTM)[49]對RNN進行改進。圖2.3為一個基于注意力機制的雙向LSTM蒙漢機器翻譯模型結構圖:
基于半監(jiān)督方法的蒙漢機器翻譯的研究14圖2.3基于注意力機制的雙向LSTM蒙漢機器翻譯模型結構圖Figure2.3TheStructureofBi-LSTMMongolian-ChineseMachineTranslationModelBasedonAttentionMechanismEncoder的作用是將源語言句子F轉換為矩陣H表示,矩陣中的每一列表示句子中每個詞的詞嵌入。在編碼階段源語言句子的向量表示會通過雙向LSTM結構進行正反向的充分學習,使得輸入可以充分考慮上下文信息。如公式(2-6)-(2-8)所示:)),((1jjjhfembench(2-6))),((1jjjhfembench(2-7)],[jjjhhh(2-8)其中,enc)(為編碼器函數,emb)(為該詞語的向量表示,通過這兩個函數得到if的兩個向量表示,然后將兩個向量連接成雙向向量,最后將這些向量拼接為矩陣H。在解碼階段Decoder每次輸出一個詞,Decoder的隱層狀態(tài)jz是一個用來表示先前的目標詞11je的固定長度的向量。jz與隱層狀態(tài)ih進行相似度計算:),(1jiijzhsim(2-9)sim)(函數為相似度計算函數,該函數有多種選擇方式,本文使用點積后對注意力向量歸一化的方式進行計算:Tkkjijija1)exp()exp((2-10)上下文向量jC通過注意力向量ija和隱層狀態(tài)ih加權后求平均得到:
【參考文獻】
本文編號:2879722
【學位單位】:內蒙古大學
【學位級別】:碩士
【學位年份】:2020
【中圖分類】:TP391.2;TP18
【部分圖文】:
基于半監(jiān)督方法的蒙漢機器翻譯的研究10圖2.1基于短語的蒙漢統(tǒng)計機器翻譯模型架構圖Figure2.1TheMongolian-ChinesePhrasebasedStatisticalMachineTranslationModelArchitecture2.1.1短語表短語表由源語言端n-gram的集合、這些n-gram在目標語言中可能的翻譯以及這個翻譯對應的得分組成。為了系統(tǒng)可以對更長的句子進行翻譯,解碼器將這部分n-gram的翻譯組合起來,根據相應的分數和其余的打分模型對這個候選翻譯進行排序。SMT系統(tǒng)首先從平行語料庫中利用詞對齊模型得到兩個方向的詞對齊,然后抽取一致的短語集合,并根據頻率進行打分,得到最終的短語表。2.1.2反向短語翻譯模型|Pef表示目標端語言句子翻譯為源語言句子的概率,該部分為整個統(tǒng)計機器翻譯模型的核心,假設將源語言句子f分為I個不同的短語片段,記IIffff11,且每個if均可以翻譯得到對應的ei,則反向短語翻譯模型可由公式(2-2)表示:2-2)|,(log),()(11111IaIIIhfeafPe)|,(111IIIeafP為短語對齊模型。短語對齊模型是通過對雙語平行語料中的短語信息進行統(tǒng)計分析后得到的,用于構建兩種語言之間的詞對應關系,短語對齊信息Iaaa1用于描述目標語言句子f中的第i個短語的位置與源語言端第ia個詞的位置的對應關系。經過短語抽取后,可以得到“一對一”的短語表,在翻譯中以短語片段為最小翻譯單元,這樣做可以有效地減少基于詞的翻譯模型中翻譯結果的不連貫問題。表2.1為一個短語對齊信息表述示例:
內蒙古大學碩士學位論文13圖2.2編碼器-解碼器網絡結構圖Figure2.2Encoder-DecoderNetworkStructureDiagram目前應用在機器翻譯任務上的深度神經網絡模型主要有基于CNN的機器翻譯模型、基于RNN的機器翻譯模型以及基于注意力機制的Transformer機器翻譯模型。2.2.1卷積神經網絡機器翻譯模型卷積神經網絡最先應用于圖像處理,后又應用于手寫數字識別任務。在機器翻譯任務中,Dauphin等人的工作[47]展示了如何通過使用多層卷積神經網絡來構造并訓練一個高性能的語言模型。該模型使用一句話構成的詞嵌入作為輸入,每一行表示一個詞的詞嵌入,在處理文本時,卷積核通常只能覆蓋上下幾行的詞,因此設置卷積核寬度與輸入詞嵌入寬度一致,這樣操作不僅可以捕捉到連續(xù)詞之間的特征,也可以實現(xiàn)在計算同一類特征時的權重共享。FacebookAI團隊實現(xiàn)了基于卷積神經網絡的機器翻譯模型[5],通過對模型進行訓練可以獲得句子當中各組成成分的語義特征,然后通過學習到的語義特征將源語言句子翻譯為目標語言句子,得到翻譯結果。2.2.2循環(huán)神經網絡翻譯模型RNN的核心思想是使用經過量化后的句子的序列信息進行特征提取,與普通的FNN不同的是,RNN在FNN的基礎上加入了循環(huán)機制,這樣操作使得RNN可以學習到甚至前后沒有關聯(lián)的詞語之間的信息,但是當需要翻譯的句子過長時,RNN依然存在長距離依賴問題[48]且會導致訓練過程中的梯度消失和梯度爆炸問題。為解決RNN在訓練中遇到的這些問題,引入了長短時記憶(LongShort-TermMemory,簡稱LSTM)[49]對RNN進行改進。圖2.3為一個基于注意力機制的雙向LSTM蒙漢機器翻譯模型結構圖:
基于半監(jiān)督方法的蒙漢機器翻譯的研究14圖2.3基于注意力機制的雙向LSTM蒙漢機器翻譯模型結構圖Figure2.3TheStructureofBi-LSTMMongolian-ChineseMachineTranslationModelBasedonAttentionMechanismEncoder的作用是將源語言句子F轉換為矩陣H表示,矩陣中的每一列表示句子中每個詞的詞嵌入。在編碼階段源語言句子的向量表示會通過雙向LSTM結構進行正反向的充分學習,使得輸入可以充分考慮上下文信息。如公式(2-6)-(2-8)所示:)),((1jjjhfembench(2-6))),((1jjjhfembench(2-7)],[jjjhhh(2-8)其中,enc)(為編碼器函數,emb)(為該詞語的向量表示,通過這兩個函數得到if的兩個向量表示,然后將兩個向量連接成雙向向量,最后將這些向量拼接為矩陣H。在解碼階段Decoder每次輸出一個詞,Decoder的隱層狀態(tài)jz是一個用來表示先前的目標詞11je的固定長度的向量。jz與隱層狀態(tài)ih進行相似度計算:),(1jiijzhsim(2-9)sim)(函數為相似度計算函數,該函數有多種選擇方式,本文使用點積后對注意力向量歸一化的方式進行計算:Tkkjijija1)exp()exp((2-10)上下文向量jC通過注意力向量ija和隱層狀態(tài)ih加權后求平均得到:
【參考文獻】
相關期刊論文 前5條
1 銀花;王斯日古楞;艷紅;;基于短語的蒙漢統(tǒng)計機器翻譯系統(tǒng)的設計與實現(xiàn)[J];內蒙古師范大學學報(自然科學漢文版);2011年01期
2 百順;;基于派生文法的日—蒙動詞短語機器翻譯研究[J];中文信息學報;2008年02期
3 侯宏旭;劉群;那順烏日圖;;基于實例的漢蒙機器翻譯[J];中文信息學報;2007年04期
4 娜步青;;基于統(tǒng)計的蒙漢機器翻譯系統(tǒng)研究[J];內蒙古農業(yè)大學學報(自然科學版);2005年04期
5 馮志偉;機器翻譯——從實驗室走向市場[J];語言文字應用;1997年03期
相關碩士學位論文 前2條
1 王洪彬;多粒度蒙古文漢文神經網絡機器翻譯研究[D];內蒙古大學;2018年
2 蘇傳捷;基于層次短語模型的蒙—漢統(tǒng)計機器翻譯研究[D];內蒙古大學;2014年
本文編號:2879722
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2879722.html
最近更新
教材專著