稀缺資源機(jī)器翻譯中改進(jìn)的語(yǔ)料級(jí)和短語(yǔ)級(jí)中間語(yǔ)言方法研究
[Abstract]:In this paper, the problem of constructing statistical machine translation system without direct parallel training data from foreign language to Chinese is studied by using English as an intermediate language. In this paper, the machine translation method based on intermediate language is divided into three levels: system level, corpus level and phrase level. In the improved corpus level interlanguage method proposed in this paper the translation performance of the translation system is improved by expanding the scale of generating training data and optimizing the quality of word alignment. In traditional phrase-level interlanguage methods, due to the existence of interlanguage phrases which can not be fused, many high-quality phrase pairs can not be generated. In this paper, the improved method is proposed to expand the translation table of phrases by decoding and generating. Then improve the quality of translation. This paper systematically compares the advantages and disadvantages of three interlanguage methods. It is found by manual analysis that none of them can achieve the best translation performance in all translation tasks. Therefore, the interlanguage method of corpus-phrase fusion is proposed, which achieves the best translation performance in all translation tasks. Finally, the machine translation system of Bengali, Tamil, Uzbek, Hungarian to Chinese was successfully constructed. Compared with the baseline system, the proposed method achieves an increase of 0.8 to 2.8 BLEU points on the test sets of four foreign languages.
【作者單位】: 東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室;
【基金】:中央高校基本科研業(yè)務(wù)專項(xiàng)資金(N140406003) 國(guó)家留學(xué)基金 國(guó)家自然科學(xué)基金(61272376,61300097)資助~~
【分類號(hào)】:TP391.2
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 李筱青,陳暉,陳意云;一種新型類型化中間語(yǔ)言的優(yōu)化實(shí)現(xiàn)技術(shù)[J];計(jì)算機(jī)工程;2005年05期
2 熊文新;宋柔;袁琦;;多語(yǔ)信息交流平臺(tái)的中間語(yǔ)言系統(tǒng)及支撐環(huán)境設(shè)計(jì)[J];計(jì)算機(jī)科學(xué);2006年08期
3 張濤;李迅波;;軟PLC的轉(zhuǎn)換中間語(yǔ)言模型的建立與研究[J];微計(jì)算機(jī)信息;2007年35期
4 申利民,唐勇,柯漢水,陳曉謙;基于中間語(yǔ)言的逆編譯方法[J];東北重型機(jī)械學(xué)院學(xué)報(bào);1997年01期
5 CSDN;;微軟中間語(yǔ)言和即時(shí)編譯[J];程序員;2002年04期
6 胡榮;范明鈺;王光衛(wèi);宮亞峰;;C逆編譯系統(tǒng)的中間語(yǔ)言的一種優(yōu)化表示方法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2010年09期
7 馬希文;樹計(jì)算機(jī)與樹程序[J];計(jì)算機(jī)學(xué)報(bào);1978年01期
8 黎浩宏;;C#語(yǔ)言委托與事件機(jī)制的探討[J];福建電腦;2009年11期
9 劉洪輝;羅勝榮;黎利紅;;一種實(shí)用的計(jì)算機(jī)圖形自動(dòng)評(píng)判方法[J];電腦知識(shí)與技術(shù);2006年23期
10 熊貽青;;針對(duì)微軟中間語(yǔ)言的逆向分析[J];計(jì)算機(jī)應(yīng)用;2006年07期
相關(guān)會(huì)議論文 前2條
1 熊文新;;提升自然語(yǔ)言向中間語(yǔ)言轉(zhuǎn)換準(zhǔn)確性的增強(qiáng)處理[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年
2 李延莉;宮皓宇;;淺談.NET[A];“加入WTO和科學(xué)技術(shù)與吉林經(jīng)濟(jì)發(fā)展——機(jī)遇·挑戰(zhàn)·責(zé)任”吉林省第二屆科學(xué)技術(shù)學(xué)術(shù)年會(huì)論文集(上)[C];2002年
相關(guān)重要報(bào)紙文章 前3條
1 福建 忠英;手機(jī)翻譯時(shí)代的到來(lái)[N];電腦報(bào);2004年
2 南京郵電學(xué)院 李建忠;“Hello,World!”程序[N];計(jì)算機(jī)世界;2002年
3 中國(guó)科學(xué)院自動(dòng)化研究所 徐波;回歸到“通天塔”之前[N];計(jì)算機(jī)世界;2002年
相關(guān)博士學(xué)位論文 前1條
1 尹杰;基于編譯器中間語(yǔ)言的軟件運(yùn)行時(shí)可靠性研究[D];清華大學(xué);2015年
相關(guān)碩士學(xué)位論文 前4條
1 師光達(dá);基于可比較語(yǔ)料庫(kù)的術(shù)語(yǔ)提取方法研究[D];北京化工大學(xué);2015年
2 韓冬;基于虛擬寄存器的中間語(yǔ)言[D];西南交通大學(xué);2009年
3 黃海;基于IDA的代碼解析與中間語(yǔ)言翻譯[D];解放軍信息工程大學(xué);2009年
4 包蘇魯?shù)?多語(yǔ)種機(jī)器翻譯平臺(tái)關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2008年
,本文編號(hào):2180481
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2180481.html