基于質(zhì)量估計的神經(jīng)自動后編輯方法研究
發(fā)布時間:2021-05-22 18:51
近年來,隨著深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域的成功應(yīng)用和深入研究,與之相應(yīng)的譯文自動后編輯方法也由傳統(tǒng)統(tǒng)計模型轉(zhuǎn)向深度學(xué)習(xí)模型,如何將神經(jīng)機(jī)器翻譯模型有效地利用到譯文后編輯領(lǐng)域,成為機(jī)器翻譯相關(guān)的研究熱點(diǎn)之一。自動后編輯中存在的一個普遍問題是過度修正,即在譯文在后編輯過程中被修改的程度超過了實(shí)際需要而引起譯文質(zhì)量下降的情況。對于這個問題,現(xiàn)有的方法一般通過在訓(xùn)練數(shù)據(jù)中增加原始機(jī)器譯文與人工后編輯譯文相同的特殊訓(xùn)練集,或是在候選譯文排序過程中添加懲罰因子以約束后編輯系統(tǒng)對機(jī)器譯文的修改程度。但是這類做法很難同時兼顧系統(tǒng)的性能且減少過度修正。針對現(xiàn)有方法存在的這些不足,本文提出基于翻譯質(zhì)量估計的神經(jīng)自動后編輯方法。我們首先使用TER腳本對后編輯過程中易出現(xiàn)過度修正的原始機(jī)器譯文所需的編輯次數(shù)和類型進(jìn)行統(tǒng)計,并使用Zipf擬合統(tǒng)計結(jié)果加以分析;然后依據(jù)分析結(jié)果將原始機(jī)器譯文分類,對各類譯文分別建立神經(jīng)自動后編輯子模型;最后利用機(jī)器翻譯質(zhì)量估計方法建立候選譯文的分層排序方法將子模型聯(lián)合。為了驗(yàn)證本文所提方法的性能,我們在WMT’16、WMT’17機(jī)器翻譯自動后編輯評測任務(wù)上進(jìn)行了充分的實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果...
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
1 引言
1.1 研究背景及意義
1.2 相關(guān)工作研究現(xiàn)狀
1.2.1 統(tǒng)計譯文自動后編輯方法
1.2.2 神經(jīng)譯文自動后編輯方法
1.3 本文主要工作及內(nèi)容
1.4 文章組織結(jié)構(gòu)
2 關(guān)鍵方法介紹
2.1 基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法
2.1.1 基于RNN的Encoder-Decoder模型
2.1.2 帶注意力機(jī)制的雙向RNN Encoder-Decoder模型
2.2 機(jī)器翻譯質(zhì)量估計方法
2.2.1 基于特征工程的質(zhì)量估計方法
2.2.2 基于神經(jīng)網(wǎng)絡(luò)的質(zhì)量估計方法
2.3 本章小結(jié)
3 基于質(zhì)量估計的神經(jīng)譯文自動后編輯方法
3.1 研究動機(jī)
3.2 無效/過度修正現(xiàn)象分析
3.3 語料分類與模型設(shè)計
3.4 基于質(zhì)量估計的譯文分層排序方法
3.5 本章小結(jié)
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
4.1.1 實(shí)驗(yàn)數(shù)據(jù)
4.1.2 參數(shù)設(shè)置
4.2 實(shí)驗(yàn)結(jié)果
4.3 本章小結(jié)
5 實(shí)驗(yàn)分析
5.1 定性對比分析
5.1.1 WMT'16,WMT'17 APE英譯德子任務(wù)定性分析
5.1.2 WMT'17 APE德譯英子任務(wù)定性分析
5.2 定量對比分析
5.2.1 WMT'16,WMT'17 APE英譯德子任務(wù)定量分析
5.2.2 WMT'17 APE德譯英子任務(wù)定量分析
5.3 WMT'17 APE德譯英子任務(wù)問題分析
6 總結(jié)與展望
參考文獻(xiàn)
致謝
在讀期間公開發(fā)表論文
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)特征的句子級別譯文質(zhì)量估計[J]. 陳志明,李茂西,王明文. 計算機(jī)研究與發(fā)展. 2017(08)
[2]基于句法的統(tǒng)計機(jī)器翻譯模型與方法[J]. 劉群. 中文信息學(xué)報. 2011(06)
本文編號:3201500
【文章來源】:江西師范大學(xué)江西省
【文章頁數(shù)】:51 頁
【學(xué)位級別】:碩士
【文章目錄】:
中文摘要
英文摘要
1 引言
1.1 研究背景及意義
1.2 相關(guān)工作研究現(xiàn)狀
1.2.1 統(tǒng)計譯文自動后編輯方法
1.2.2 神經(jīng)譯文自動后編輯方法
1.3 本文主要工作及內(nèi)容
1.4 文章組織結(jié)構(gòu)
2 關(guān)鍵方法介紹
2.1 基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯方法
2.1.1 基于RNN的Encoder-Decoder模型
2.1.2 帶注意力機(jī)制的雙向RNN Encoder-Decoder模型
2.2 機(jī)器翻譯質(zhì)量估計方法
2.2.1 基于特征工程的質(zhì)量估計方法
2.2.2 基于神經(jīng)網(wǎng)絡(luò)的質(zhì)量估計方法
2.3 本章小結(jié)
3 基于質(zhì)量估計的神經(jīng)譯文自動后編輯方法
3.1 研究動機(jī)
3.2 無效/過度修正現(xiàn)象分析
3.3 語料分類與模型設(shè)計
3.4 基于質(zhì)量估計的譯文分層排序方法
3.5 本章小結(jié)
4 實(shí)驗(yàn)
4.1 實(shí)驗(yàn)設(shè)置
4.1.1 實(shí)驗(yàn)數(shù)據(jù)
4.1.2 參數(shù)設(shè)置
4.2 實(shí)驗(yàn)結(jié)果
4.3 本章小結(jié)
5 實(shí)驗(yàn)分析
5.1 定性對比分析
5.1.1 WMT'16,WMT'17 APE英譯德子任務(wù)定性分析
5.1.2 WMT'17 APE德譯英子任務(wù)定性分析
5.2 定量對比分析
5.2.1 WMT'16,WMT'17 APE英譯德子任務(wù)定量分析
5.2.2 WMT'17 APE德譯英子任務(wù)定量分析
5.3 WMT'17 APE德譯英子任務(wù)問題分析
6 總結(jié)與展望
參考文獻(xiàn)
致謝
在讀期間公開發(fā)表論文
【參考文獻(xiàn)】:
期刊論文
[1]基于神經(jīng)網(wǎng)絡(luò)特征的句子級別譯文質(zhì)量估計[J]. 陳志明,李茂西,王明文. 計算機(jī)研究與發(fā)展. 2017(08)
[2]基于句法的統(tǒng)計機(jī)器翻譯模型與方法[J]. 劉群. 中文信息學(xué)報. 2011(06)
本文編號:3201500
本文鏈接:http://www.sikaile.net/wenyilunwen/hanyulw/3201500.html
最近更新
教材專著