天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

蒙漢神經(jīng)機(jī)器翻譯中的未登錄詞處理研究

發(fā)布時(shí)間:2024-04-11 04:50
  神經(jīng)機(jī)器翻譯是以編碼器-解碼器為基本框架的新型機(jī)器翻譯模型,其在翻譯任務(wù)中的表現(xiàn)優(yōu)異。因此神經(jīng)機(jī)器翻譯已成為當(dāng)前機(jī)器翻譯研究熱點(diǎn)。在神經(jīng)機(jī)器翻譯中為了降低計(jì)算時(shí)間和內(nèi)存消耗,通常限制詞匯表的大小。也就是把不在詞匯表中的詞表示成統(tǒng)一的符號(hào)參與神經(jīng)網(wǎng)絡(luò)翻譯模型的訓(xùn)練。這樣會(huì)導(dǎo)致有些句子因?yàn)槟硞(gè)詞的缺失而失去完整的意義,最終會(huì)嚴(yán)重影響翻譯結(jié)果的質(zhì)量。這些用統(tǒng)一符號(hào)表示的詞稱為未登錄詞。本文針對(duì)蒙漢神經(jīng)機(jī)器翻譯的未登錄詞問題進(jìn)行了如下研究:(1)在基于注意力的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)上,對(duì)未登錄詞問題采用了基于語義相似度的未登錄詞替換、基于語言模型的未登錄詞替換和基于蒙漢對(duì)齊詞典的未登錄詞替換三種方法,并做了未登錄詞處理實(shí)驗(yàn)和擴(kuò)充語料實(shí)驗(yàn),其中基于蒙漢對(duì)齊詞典的未登錄詞處理方法的表現(xiàn)最好,BLEU和NIST值分別為0.6351和9.1686。(2)在Tensorflow平臺(tái)上搭建了基于transformer的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng),并進(jìn)行了基于詞素的翻譯實(shí)驗(yàn),實(shí)驗(yàn)表明蒙文端進(jìn)行部分切分,漢文端為詞粒度的情況下評(píng)測(cè)結(jié)果最好,BLEU和NIST值分別為0.6841和9.5922。(3)在基于transf...

【文章頁數(shù)】:53 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2-1seq2seq模型

圖2-1seq2seq模型

射為另外一個(gè)輸出序列。如下圖所示:圖2-1seq2seq模型在圖2-1中左邊部分是一個(gè)神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)會(huì)接收輸入序列“ABCEOS”,其中EOS表示句末標(biāo)記。在這個(gè)過程中每一個(gè)時(shí)間點(diǎn)接收一個(gè)詞或者字,并在讀取到EOS時(shí)終止接受輸入,最后將輸入序列壓縮成指....


圖2-3LSTM的隱層單元結(jié)構(gòu)圖

圖2-3LSTM的隱層單元結(jié)構(gòu)圖

網(wǎng)絡(luò)一般都是全連接結(jié)構(gòu),并且每層之間的節(jié)點(diǎn)本可以通過使用神經(jīng)網(wǎng)絡(luò)來解決,但是普通的神列標(biāo)注這樣的非定長輸入。例如,要預(yù)測(cè)一個(gè)句前詞前面的單詞,因?yàn)樵谝粋(gè)句子中的前后單是有人提出了循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeur的信息并應(yīng)用于當(dāng)前輸出的計(jì)算當(dāng)中,即隱藏層層的輸入不僅包括當(dāng)....


圖2-4注意力機(jī)制示意圖

圖2-4注意力機(jī)制示意圖

入句子長度的增加,基本的編碼器-解碼器題在基本的編碼器-解碼器結(jié)構(gòu)中引入了注目標(biāo)語言端的詞,往往只與源語言端部分詞,它在源語言句子中搜索與之相關(guān)的部分。的上下文向量和前面已生成的單詞,預(yù)測(cè)的編碼器-解碼器架構(gòu)首先使用雙向RNN作N組成。而解碼器主要根據(jù)輸入序列進(jìn)行翻,然后計(jì)....


圖2-5RNN網(wǎng)絡(luò)結(jié)構(gòu)

圖2-5RNN網(wǎng)絡(luò)結(jié)構(gòu)

第二章神經(jīng)機(jī)器翻譯相關(guān)理論萬能的,也有一些不足,它的不足之處集中在以下兩點(diǎn):首先,由于RNN序列特性,導(dǎo)致其并行化的能力很低。從圖2-5可以看出,如果把RNN展開來看的,是一種序列型的網(wǎng)絡(luò),如果想得到的結(jié)果,必須得先計(jì)算出的結(jié),這樣的串行關(guān)系使它的并行度非常低。....



本文編號(hào):3950898

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3950898.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶341d2***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com