天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

面向漢英專利文獻(xiàn)的神經(jīng)網(wǎng)絡(luò)翻譯模型的集外詞翻譯研究

發(fā)布時(shí)間:2018-04-05 09:08

  本文選題:神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯 切入點(diǎn):集外詞 出處:《北京交通大學(xué)》2017年碩士論文


【摘要】:機(jī)器翻譯(Machine Translation,MT)的目的是為源語(yǔ)言找到一個(gè)意思最為相近的目標(biāo)語(yǔ)言。從本質(zhì)上來(lái)看,機(jī)器翻譯完成的是一個(gè)序列到序列的任務(wù)。近年來(lái)隨著深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)在語(yǔ)音識(shí)別和圖像處理等方面取得突破性進(jìn)展,研究人員開始著手使用深度神經(jīng)網(wǎng)絡(luò)處理符號(hào)變量方面的問(wèn)題,例如自然語(yǔ)言處理領(lǐng)域的機(jī)器翻譯任務(wù)。神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯(Neural Machine Translation,NMT)包含編碼器和解碼器兩個(gè)神經(jīng)網(wǎng)絡(luò),編碼器把源語(yǔ)言轉(zhuǎn)化成一個(gè)向量表示,解碼器根據(jù)源語(yǔ)言的向量表示加上目標(biāo)語(yǔ)言的歷史信息生成目標(biāo)語(yǔ)言的詞序列。為了控制計(jì)算復(fù)雜度,大多數(shù)的NMT系統(tǒng)會(huì)限制源語(yǔ)言和目標(biāo)語(yǔ)言的詞典大小,一般設(shè)置為三萬(wàn)詞到八萬(wàn)詞之間。對(duì)于不在詞典中的詞,也就是集外詞,使用符號(hào)“UNK”來(lái)代替。集外詞帶來(lái)幾個(gè)問(wèn)題,一個(gè)是在測(cè)試過(guò)程中,模型不能夠生成合適的翻譯結(jié)果;另一個(gè)是集外詞導(dǎo)致源語(yǔ)言句子語(yǔ)義無(wú)法正確表示,加重翻譯結(jié)果的歧義現(xiàn)象;第三個(gè)是訓(xùn)練語(yǔ)料中源語(yǔ)言和目標(biāo)語(yǔ)言句子結(jié)構(gòu)被嚴(yán)重破壞,神經(jīng)網(wǎng)絡(luò)參數(shù)質(zhì)量不高。在專利文獻(xiàn)語(yǔ)料中存在大量的低頻詞,導(dǎo)致這幾個(gè)問(wèn)題更為嚴(yán)重。本論文以專利文獻(xiàn)的集外詞翻譯為切入點(diǎn),以中英神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯為主要研究方向,重點(diǎn)研究并提出了一種改善集外詞翻譯問(wèn)題的方法,從而提高神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯的效果。主要研究成果如下:(1)引入統(tǒng)計(jì)機(jī)器翻譯中的對(duì)齊信息,以外部信息的形式加入語(yǔ)料庫(kù)詞典,當(dāng)出現(xiàn)集外詞時(shí)根據(jù)神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯中的注意力機(jī)制,對(duì)集外詞進(jìn)行翻譯。(2)對(duì)語(yǔ)料中的技術(shù)術(shù)語(yǔ)進(jìn)行標(biāo)簽化處理,以前后處理的方式翻譯技術(shù)術(shù)語(yǔ)。(3)加入多模型融合機(jī)制,即同時(shí)訓(xùn)練多個(gè)翻譯模型,在解碼時(shí)根據(jù)多個(gè)翻譯模型得到的結(jié)果調(diào)整注意力機(jī)制權(quán)重信息,挑選最優(yōu)結(jié)果。本文將集外詞處理作為研究重點(diǎn),在中英專利語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法能有效的處理集外詞和專利術(shù)語(yǔ),使翻譯效果得到提升。
[Abstract]:The purpose of machine translation is to find a target language with the most similar meaning for the source language.In essence, machine translation performs a sequence-to-sequence task.In recent years, with the breakthrough of deep Neural network in speech recognition and image processing, researchers have begun to use deep neural networks to deal with symbolic variables.For example, the task of machine translation in the field of natural language processing.Neural Machine Translation (NMTT) consists of two neural networks: encoder and decoder. The encoder converts the source language into a vector representation.Based on the vector representation of the source language and the historical information of the target language, the decoder generates the word sequence of the target language.In order to control computational complexity, most NMT systems limit the size of the dictionary between the source language and the target language, generally between 30,000 and 80,000 words.For words that are not in the dictionary, that is, out-of-set words, the symbol "UNK" is used instead.One is that the model can not produce appropriate translation results in the testing process, the other is that the out-of-set words can not correctly express the sentence semantics of the source language, thus aggravating the ambiguity of the translation results.The third is that the sentence structure of the source language and target language in the training corpus is seriously damaged, and the quality of neural network parameters is not high.The existence of a large number of low-frequency words in the patent literature corpus makes these problems more serious.In this thesis, we focus on the translation of off-set words in patent literature and the main research direction of Chinese-English neural network machine translation, and put forward a method to improve the translation of off-set words in order to improve the effect of neural network machine translation.The main research results are as follows: (1) introducing the alignment information in statistical machine translation, adding the corpus dictionary in the form of external information, and according to the attention mechanism of neural network machine translation when the out-of-set words appear.(2) tagging the technical terms in the corpus, and the former post-processing mode of translating the technical terms. 3) adding a multi-model fusion mechanism, that is, training several translation models simultaneously.In decoding, the weight information of attention mechanism is adjusted according to the results obtained from multiple translation models, and the optimal results are selected.The experimental results on the Chinese and English patent corpus show that the method proposed in this paper can effectively deal with extrinsic words and patent terms and improve the translation effect.
【學(xué)位授予單位】:北京交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:TP391.2;TP183

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 楊曉帥 ,付玫;神經(jīng)網(wǎng)絡(luò)技術(shù)讓管理更輕松[J];軟件世界;2000年11期

2 云中客;新的神經(jīng)網(wǎng)絡(luò)來(lái)自于仿生學(xué)[J];物理;2001年10期

3 唐春明,高協(xié)平;進(jìn)化神經(jīng)網(wǎng)絡(luò)的研究進(jìn)展[J];系統(tǒng)工程與電子技術(shù);2001年10期

4 李智;一種基于神經(jīng)網(wǎng)絡(luò)的煤炭調(diào)運(yùn)優(yōu)化方法[J];長(zhǎng)沙鐵道學(xué)院學(xué)報(bào);2003年02期

5 程科,王士同,楊靜宇;新型模糊形態(tài)神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];計(jì)算機(jī)工程與應(yīng)用;2004年21期

6 王凡,孟立凡;關(guān)于使用神經(jīng)網(wǎng)絡(luò)推定操作者疲勞的研究[J];人類工效學(xué);2004年03期

7 周麗暉;從統(tǒng)計(jì)角度看神經(jīng)網(wǎng)絡(luò)[J];統(tǒng)計(jì)教育;2005年06期

8 趙奇 ,劉開第 ,龐彥軍;灰色補(bǔ)償神經(jīng)網(wǎng)絡(luò)及其應(yīng)用研究[J];微計(jì)算機(jī)信息;2005年14期

9 袁婷;;神經(jīng)網(wǎng)絡(luò)在股票市場(chǎng)預(yù)測(cè)中的應(yīng)用[J];軟件導(dǎo)刊;2006年05期

10 尚晉;楊有;;從神經(jīng)網(wǎng)絡(luò)的過(guò)去談科學(xué)發(fā)展觀[J];重慶三峽學(xué)院學(xué)報(bào);2006年03期

相關(guān)會(huì)議論文 前10條

1 徐春玉;;基于泛集的神經(jīng)網(wǎng)絡(luò)的混沌性[A];1996中國(guó)控制與決策學(xué)術(shù)年會(huì)論文集[C];1996年

2 周樹德;王巖;孫增圻;孫富春;;量子神經(jīng)網(wǎng)絡(luò)[A];2003年中國(guó)智能自動(dòng)化會(huì)議論文集(上冊(cè))[C];2003年

3 羅山;張琳;范文新;;基于神經(jīng)網(wǎng)絡(luò)和簡(jiǎn)單規(guī)劃的識(shí)別融合算法[A];2009系統(tǒng)仿真技術(shù)及其應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2009年

4 郭愛克;馬盡文;丁康;;序言(二)[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

5 鐘義信;;知識(shí)論:神經(jīng)網(wǎng)絡(luò)的新機(jī)遇——紀(jì)念中國(guó)神經(jīng)網(wǎng)絡(luò)10周年[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

6 許進(jìn);保錚;;神經(jīng)網(wǎng)絡(luò)與圖論[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

7 金龍;朱詩(shī)武;趙成志;陳寧;;數(shù)值預(yù)報(bào)產(chǎn)品的神經(jīng)網(wǎng)絡(luò)釋用預(yù)報(bào)應(yīng)用[A];1999年中國(guó)神經(jīng)網(wǎng)絡(luò)與信號(hào)處理學(xué)術(shù)會(huì)議論文集[C];1999年

8 田金亭;;神經(jīng)網(wǎng)絡(luò)在中學(xué)生創(chuàng)造力評(píng)估中的應(yīng)用[A];第十二屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2009年

9 唐墨;王科俊;;自發(fā)展神經(jīng)網(wǎng)絡(luò)的混沌特性研究[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第七分冊(cè))[南京理工大學(xué)學(xué)報(bào)(增刊)][C];2009年

10 張廣遠(yuǎn);萬(wàn)強(qiáng);曹海源;田方濤;;基于遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的故障診斷方法研究[A];第十二屆全國(guó)設(shè)備故障診斷學(xué)術(shù)會(huì)議論文集[C];2010年

相關(guān)重要報(bào)紙文章 前10條

1 美國(guó)明尼蘇達(dá)大學(xué)社會(huì)學(xué)博士 密西西比州立大學(xué)國(guó)家戰(zhàn)略規(guī)劃與分析研究中心資深助理研究員 陳心想;維護(hù)好創(chuàng)新的“神經(jīng)網(wǎng)絡(luò)硬件”[N];中國(guó)教師報(bào);2014年

2 盧業(yè)忠;腦控電腦 驚世駭俗[N];計(jì)算機(jī)世界;2001年

3 葛一鳴 路邊文;人工神經(jīng)網(wǎng)絡(luò)將大顯身手[N];中國(guó)紡織報(bào);2003年

4 中國(guó)科技大學(xué)計(jì)算機(jī)系 邢方亮;神經(jīng)網(wǎng)絡(luò)挑戰(zhàn)人類大腦[N];計(jì)算機(jī)世界;2003年

5 記者 孫剛;“神經(jīng)網(wǎng)絡(luò)”:打開復(fù)雜工藝“黑箱”[N];解放日?qǐng)?bào);2007年

6 本報(bào)記者 劉霞;美用DNA制造出首個(gè)人造神經(jīng)網(wǎng)絡(luò)[N];科技日?qǐng)?bào);2011年

7 健康時(shí)報(bào)特約記者  張獻(xiàn)懷;干細(xì)胞移植:修復(fù)受損的神經(jīng)網(wǎng)絡(luò)[N];健康時(shí)報(bào);2006年

8 劉力;我半導(dǎo)體神經(jīng)網(wǎng)絡(luò)技術(shù)及應(yīng)用研究達(dá)國(guó)際先進(jìn)水平[N];中國(guó)電子報(bào);2001年

9 ;神經(jīng)網(wǎng)絡(luò)和模糊邏輯[N];世界金屬導(dǎo)報(bào);2002年

10 鄒麗梅 陳耀群;江蘇科大神經(jīng)網(wǎng)絡(luò)應(yīng)用研究通過(guò)鑒定[N];中國(guó)船舶報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 楊旭華;神經(jīng)網(wǎng)絡(luò)及其在控制中的應(yīng)用研究[D];浙江大學(xué);2004年

2 李素芳;基于神經(jīng)網(wǎng)絡(luò)的無(wú)線通信算法研究[D];山東大學(xué);2015年

3 石艷超;憶阻神經(jīng)網(wǎng)絡(luò)的混沌性及幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)的同步研究[D];電子科技大學(xué);2014年

4 王新迎;基于隨機(jī)映射神經(jīng)網(wǎng)絡(luò)的多元時(shí)間序列預(yù)測(cè)方法研究[D];大連理工大學(xué);2015年

5 付愛民;極速學(xué)習(xí)機(jī)的訓(xùn)練殘差、穩(wěn)定性及泛化能力研究[D];中國(guó)農(nóng)業(yè)大學(xué);2015年

6 李輝;基于粒計(jì)算的神經(jīng)網(wǎng)絡(luò)及集成方法研究[D];中國(guó)礦業(yè)大學(xué);2015年

7 王衛(wèi)蘋;復(fù)雜網(wǎng)絡(luò)幾類同步控制策略研究及穩(wěn)定性分析[D];北京郵電大學(xué);2015年

8 張海軍;基于云計(jì)算的神經(jīng)網(wǎng)絡(luò)并行實(shí)現(xiàn)及其學(xué)習(xí)方法研究[D];華南理工大學(xué);2015年

9 李艷晴;風(fēng)速時(shí)間序列預(yù)測(cè)算法研究[D];北京科技大學(xué);2016年

10 陳輝;多維超精密定位系統(tǒng)建模與控制關(guān)鍵技術(shù)研究[D];東南大學(xué);2015年

相關(guān)碩士學(xué)位論文 前10條

1 章穎;混合不確定性模塊化神經(jīng)網(wǎng)絡(luò)與高校效益預(yù)測(cè)的研究[D];華南理工大學(xué);2015年

2 賈文靜;基于改進(jìn)型神經(jīng)網(wǎng)絡(luò)的風(fēng)力發(fā)電系統(tǒng)預(yù)測(cè)及控制研究[D];燕山大學(xué);2015年

3 李慧芳;基于憶阻器的渦卷混沌系統(tǒng)及其電路仿真[D];西南大學(xué);2015年

4 陳彥至;神經(jīng)網(wǎng)絡(luò)降維算法研究與應(yīng)用[D];華南理工大學(xué);2015年

5 董哲康;基于憶阻器的組合電路及神經(jīng)網(wǎng)絡(luò)研究[D];西南大學(xué);2015年

6 武創(chuàng)舉;基于神經(jīng)網(wǎng)絡(luò)的遙感圖像分類研究[D];昆明理工大學(xué);2015年

7 李志杰;基于神經(jīng)網(wǎng)絡(luò)的上證指數(shù)預(yù)測(cè)研究[D];華南理工大學(xué);2015年

8 陳少吉;基于神經(jīng)網(wǎng)絡(luò)血壓預(yù)測(cè)研究與系統(tǒng)實(shí)現(xiàn)[D];華南理工大學(xué);2015年

9 張韜;幾類時(shí)滯神經(jīng)網(wǎng)絡(luò)穩(wěn)定性分析[D];渤海大學(xué);2015年

10 邵雪瑩;幾類時(shí)滯不確定神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性分析[D];渤海大學(xué);2015年

,

本文編號(hào):1714104

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1714104.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶24412***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com