蒙漢神經(jīng)機(jī)器翻譯中的未登錄詞處理研究

發(fā)布時(shí)間：2024-04-11 04:50

　　神經(jīng)機(jī)器翻譯是以編碼器-解碼器為基本框架的新型機(jī)器翻譯模型,其在翻譯任務(wù)中的表現(xiàn)優(yōu)異。因此神經(jīng)機(jī)器翻譯已成為當(dāng)前機(jī)器翻譯研究熱點(diǎn)。在神經(jīng)機(jī)器翻譯中為了降低計(jì)算時(shí)間和內(nèi)存消耗,通常限制詞匯表的大小。也就是把不在詞匯表中的詞表示成統(tǒng)一的符號(hào)參與神經(jīng)網(wǎng)絡(luò)翻譯模型的訓(xùn)練。這樣會(huì)導(dǎo)致有些句子因?yàn)槟硞€(gè)詞的缺失而失去完整的意義,最終會(huì)嚴(yán)重影響翻譯結(jié)果的質(zhì)量。這些用統(tǒng)一符號(hào)表示的詞稱為未登錄詞。本文針對(duì)蒙漢神經(jīng)機(jī)器翻譯的未登錄詞問題進(jìn)行了如下研究:(1)在基于注意力的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)上,對(duì)未登錄詞問題采用了基于語義相似度的未登錄詞替換、基于語言模型的未登錄詞替換和基于蒙漢對(duì)齊詞典的未登錄詞替換三種方法,并做了未登錄詞處理實(shí)驗(yàn)和擴(kuò)充語料實(shí)驗(yàn),其中基于蒙漢對(duì)齊詞典的未登錄詞處理方法的表現(xiàn)最好,BLEU和NIST值分別為0.6351和9.1686。(2)在Tensorflow平臺(tái)上搭建了基于transformer的蒙漢神經(jīng)機(jī)器翻譯系統(tǒng),并進(jìn)行了基于詞素的翻譯實(shí)驗(yàn),實(shí)驗(yàn)表明蒙文端進(jìn)行部分切分,漢文端為詞粒度的情況下評(píng)測(cè)結(jié)果最好,BLEU和NIST值分別為0.6841和9.5922。(3)在基于transf...

【文章頁數(shù)】：53 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖2-1seq2seq模型

射為另外一個(gè)輸出序列。如下圖所示:圖2-1seq2seq模型在圖2-1中左邊部分是一個(gè)神經(jīng)網(wǎng)絡(luò)，該神經(jīng)網(wǎng)絡(luò)會(huì)接收輸入序列“ABCEOS”，其中EOS表示句末標(biāo)記。在這個(gè)過程中每一個(gè)時(shí)間點(diǎn)接收一個(gè)詞或者字，并在讀取到EOS時(shí)終止接受輸入，最后將輸入序列壓縮成指....

圖2-3LSTM的隱層單元結(jié)構(gòu)圖

網(wǎng)絡(luò)一般都是全連接結(jié)構(gòu)，并且每層之間的節(jié)點(diǎn)本可以通過使用神經(jīng)網(wǎng)絡(luò)來解決，但是普通的神列標(biāo)注這樣的非定長輸入。例如，要預(yù)測(cè)一個(gè)句前詞前面的單詞，因?yàn)樵谝粋€(gè)句子中的前后單是有人提出了循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeur的信息并應(yīng)用于當(dāng)前輸出的計(jì)算當(dāng)中，即隱藏層層的輸入不僅包括當(dāng)....

圖2-4注意力機(jī)制示意圖

入句子長度的增加，基本的編碼器-解碼器題在基本的編碼器-解碼器結(jié)構(gòu)中引入了注目標(biāo)語言端的詞，往往只與源語言端部分詞，它在源語言句子中搜索與之相關(guān)的部分。的上下文向量和前面已生成的單詞，預(yù)測(cè)的編碼器-解碼器架構(gòu)首先使用雙向RNN作N組成。而解碼器主要根據(jù)輸入序列進(jìn)行翻，然后計(jì)....

圖2-5RNN網(wǎng)絡(luò)結(jié)構(gòu)

第二章神經(jīng)機(jī)器翻譯相關(guān)理論萬能的，也有一些不足，它的不足之處集中在以下兩點(diǎn)：首先，由于RNN序列特性，導(dǎo)致其并行化的能力很低。從圖2-5可以看出，如果把RNN展開來看的，是一種序列型的網(wǎng)絡(luò)，如果想得到的結(jié)果，必須得先計(jì)算出的結(jié)，這樣的串行關(guān)系使它的并行度非常低。....

本文編號(hào)：3950898

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3950898.html

上一篇：基于Android的山東地震局地質(zhì)調(diào)查填圖系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
下一篇：基于Django的測(cè)試工具平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

蒙漢神經(jīng)機(jī)器翻譯中的未登錄詞處理研究