基于LSTM神經(jīng)網(wǎng)絡(luò)的蒙漢機(jī)器翻譯的研究
發(fā)布時(shí)間:2020-12-27 18:05
信息技術(shù)的發(fā)展和語言交流日趨頻繁,機(jī)器翻譯已逐漸成為不同語言間傳播信息的主要途徑,而機(jī)器翻譯方法的好壞也影響著翻譯質(zhì)量的優(yōu)劣。在蒙漢機(jī)器翻譯中,由于詞語識別困難、語序差異較大和構(gòu)詞結(jié)構(gòu)復(fù)雜等問題導(dǎo)致傳統(tǒng)的機(jī)器翻譯方法語義表述不夠理想,譯文質(zhì)量受到制約。相較傳統(tǒng)翻譯方法,以長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory,LSTM)為基礎(chǔ)的神經(jīng)機(jī)器翻譯模型以其特有的編碼-解碼結(jié)構(gòu)和語義挖掘特性逐漸在機(jī)器翻譯中嶄露頭角。然而目前結(jié)合LSTM的蒙漢神經(jīng)機(jī)器翻譯研究較少,因此論文主要對蒙漢雙語語料預(yù)處理及蒙古語詞素編碼的LSTM模型構(gòu)建和優(yōu)化進(jìn)行研究。在語料預(yù)處理階段,針對傳統(tǒng)蒙漢機(jī)器翻譯詞語匹配不高的問題,本文給出一種GRU-CRF混合算法來進(jìn)行分詞模塊構(gòu)建。通過門控循環(huán)神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)和條件隨機(jī)場(Conditional Random Field,CRF)相結(jié)合的方式來對待標(biāo)注序列進(jìn)行語義分析和標(biāo)注,達(dá)到符合語義關(guān)系的分詞效果,克服了HMM和CRF分詞模型上下文考慮不充分的問題。同時(shí)為了獲取語義的關(guān)聯(lián)性,利用分布式表示方式對切分的...
【文章來源】:內(nèi)蒙古工業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-5分詞語料
其中 K 表示詞典規(guī)模,以單詞在詞典中出現(xiàn)的位置處賦值均賦值 0 的方式來表示單詞對應(yīng)的詞向量,也叫 one-hot 形式。但是式的單詞進(jìn)行關(guān)聯(lián)度計(jì)算時(shí)其正交計(jì)算為 0,直接導(dǎo)致單詞無法與其聯(lián),無法獲取語料中的語義關(guān)系,從而導(dǎo)致數(shù)據(jù)稀疏的問題。并且,one-hot詞向量進(jìn)行關(guān)聯(lián)性計(jì)算時(shí)還會帶來大量的無效計(jì)算,即0 0的用高維詞向量進(jìn)行正交計(jì)算給計(jì)算機(jī)帶來的計(jì)算壓力是非常大的。 one-hot 形式不同,以分布式表示方式(Distributional Representation)用點(diǎn)陣形式進(jìn)行存儲,將矩陣的維度進(jìn)行壓縮并固定,使存儲詞向量小于詞典維度,再融合詞之間的連接權(quán)重可以有效的對詞與詞之間的關(guān)系進(jìn)行表達(dá),在神經(jīng)機(jī)器翻譯系統(tǒng)中的作用是非常重要的,在向量空的語義距離通常用余弦距離或歐式距離進(jìn)行衡量,且不同或同種語言的語義距離相比較不相似詞的距離近。這是分布式表示方式的一個(gè)優(yōu)機(jī)器翻譯問題中,這種空間上近距離的相似詞能夠有效地處理未登錄,圖 3-6 表示的是詞向量的余弦空間表示圖。
第四章 基于詞素編碼的 LSTM 蒙漢翻譯研究名詞形式 ,漢語意為 干活 。體現(xiàn)了蒙古語詞的單一詞干位置提前的特點(diǎn)本文采用蒙古語的詞素向量形式作為編碼器的輸入,擴(kuò)大語義范圍,當(dāng)出現(xiàn)未登錄詞時(shí),根據(jù)相似詞向量空間距離近的特點(diǎn)有效進(jìn)行同義詞替換。詞素切分以詞典為基礎(chǔ),在進(jìn)行切分時(shí)首先需要利用詞頻統(tǒng)計(jì)工具OpenNMT.dict 生成蒙古語語料的詞典,具體如圖 4-1 所示。
本文編號:2942223
【文章來源】:內(nèi)蒙古工業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-5分詞語料
其中 K 表示詞典規(guī)模,以單詞在詞典中出現(xiàn)的位置處賦值均賦值 0 的方式來表示單詞對應(yīng)的詞向量,也叫 one-hot 形式。但是式的單詞進(jìn)行關(guān)聯(lián)度計(jì)算時(shí)其正交計(jì)算為 0,直接導(dǎo)致單詞無法與其聯(lián),無法獲取語料中的語義關(guān)系,從而導(dǎo)致數(shù)據(jù)稀疏的問題。并且,one-hot詞向量進(jìn)行關(guān)聯(lián)性計(jì)算時(shí)還會帶來大量的無效計(jì)算,即0 0的用高維詞向量進(jìn)行正交計(jì)算給計(jì)算機(jī)帶來的計(jì)算壓力是非常大的。 one-hot 形式不同,以分布式表示方式(Distributional Representation)用點(diǎn)陣形式進(jìn)行存儲,將矩陣的維度進(jìn)行壓縮并固定,使存儲詞向量小于詞典維度,再融合詞之間的連接權(quán)重可以有效的對詞與詞之間的關(guān)系進(jìn)行表達(dá),在神經(jīng)機(jī)器翻譯系統(tǒng)中的作用是非常重要的,在向量空的語義距離通常用余弦距離或歐式距離進(jìn)行衡量,且不同或同種語言的語義距離相比較不相似詞的距離近。這是分布式表示方式的一個(gè)優(yōu)機(jī)器翻譯問題中,這種空間上近距離的相似詞能夠有效地處理未登錄,圖 3-6 表示的是詞向量的余弦空間表示圖。
第四章 基于詞素編碼的 LSTM 蒙漢翻譯研究名詞形式 ,漢語意為 干活 。體現(xiàn)了蒙古語詞的單一詞干位置提前的特點(diǎn)本文采用蒙古語的詞素向量形式作為編碼器的輸入,擴(kuò)大語義范圍,當(dāng)出現(xiàn)未登錄詞時(shí),根據(jù)相似詞向量空間距離近的特點(diǎn)有效進(jìn)行同義詞替換。詞素切分以詞典為基礎(chǔ),在進(jìn)行切分時(shí)首先需要利用詞頻統(tǒng)計(jì)工具OpenNMT.dict 生成蒙古語語料的詞典,具體如圖 4-1 所示。
本文編號:2942223
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2942223.html
最近更新
教材專著