基于機(jī)器翻譯技術(shù)的中文分詞方法研究
發(fā)布時(shí)間:2022-12-11 09:11
中文分詞是中文自然語(yǔ)言處理中最重要的一步,分詞結(jié)果的好壞會(huì)嚴(yán)重影響后續(xù)任務(wù)的性能。目前的研究工作中多是使用深度學(xué)習(xí)方法來(lái)進(jìn)行中文分詞。這些研究工作大多數(shù)只用到句子中局部的上下文信息。近年來(lái),將中文分詞當(dāng)作機(jī)器翻譯問(wèn)題來(lái)解決的新思路受到較多關(guān)注。基于這種思路的中文分詞方法利用機(jī)器翻譯模型直接對(duì)整個(gè)語(yǔ)句進(jìn)行處理,能有效的利用全局的上下文信息。然而,機(jī)器翻譯模型在翻譯的過(guò)程中產(chǎn)生的錯(cuò)誤翻譯會(huì)導(dǎo)致分詞的準(zhǔn)確率降低。通過(guò)研究機(jī)器翻譯問(wèn)題和中文分詞問(wèn)題的不同點(diǎn),提出一種新的基于循環(huán)修正策略的翻譯分詞方法來(lái)解決翻譯錯(cuò)誤問(wèn)題。基于循環(huán)修正策略的翻譯分詞方法在機(jī)器翻譯模型翻譯的過(guò)程中直接利用待分詞的句子來(lái)糾正錯(cuò)誤的譯文,提高模型的分詞的準(zhǔn)確度。設(shè)計(jì)并實(shí)現(xiàn)了集成翻譯器、糾錯(cuò)器的中文分詞模型CWSTransformer,使用翻譯器實(shí)現(xiàn)初步分詞,通過(guò)糾錯(cuò)器完成對(duì)翻譯結(jié)果的糾正。在翻譯器中采用了機(jī)器翻譯模型。在糾錯(cuò)模塊中,采用了基于循環(huán)修正策略的翻譯分詞方法。對(duì)CWSTransformer翻譯器中的輸出部分進(jìn)行改進(jìn),得到分詞速度更快的中文分詞模型CWSTransformer-S。實(shí)驗(yàn)在標(biāo)準(zhǔn)數(shù)據(jù)集PKU和MSR上...
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
2 相關(guān)技術(shù)概述
2.1 機(jī)器翻譯概述
2.2 機(jī)器翻譯在中文分詞中的應(yīng)用原理
2.3 Word2vec
2.4 本章小結(jié)
3 中文分詞模型設(shè)計(jì)
3.1 設(shè)計(jì)思路
3.2 CWSTransformer模型結(jié)構(gòu)
3.3 CWSTransformer分詞過(guò)程
3.4 本章小結(jié)
4 翻譯與糾錯(cuò)方法實(shí)現(xiàn)
4.1 問(wèn)題描述
4.2 基于循環(huán)修正策略的翻譯分詞方法
4.3 循環(huán)修正分詞優(yōu)化
4.4 本章小結(jié)
5 實(shí)驗(yàn)分析
5.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
5.2 預(yù)處理和后處理
5.3 實(shí)驗(yàn)方案
5.4 實(shí)驗(yàn)結(jié)果分析
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
附錄1 攻讀學(xué)位期間發(fā)表的論文
附錄2 攻讀學(xué)位期間參與的主要項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]詞位標(biāo)注漢語(yǔ)分詞中特征模板定量研究[J]. 于江德,王希杰,樊孝忠. 計(jì)算機(jī)工程與設(shè)計(jì). 2012(03)
[2]基于子詞的雙層CRFs中文分詞[J]. 黃德根,焦世斗,周惠巍. 計(jì)算機(jī)研究與發(fā)展. 2010(05)
[3]中文分詞算法概述[J]. 龍樹(shù)全,趙正文,唐華. 電腦知識(shí)與技術(shù). 2009(10)
碩士論文
[1]基于K最短路徑的中文分詞算法研究與實(shí)現(xiàn)[D]. 李兆福.哈爾濱工程大學(xué) 2009
本文編號(hào):3718514
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 本文主要研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
2 相關(guān)技術(shù)概述
2.1 機(jī)器翻譯概述
2.2 機(jī)器翻譯在中文分詞中的應(yīng)用原理
2.3 Word2vec
2.4 本章小結(jié)
3 中文分詞模型設(shè)計(jì)
3.1 設(shè)計(jì)思路
3.2 CWSTransformer模型結(jié)構(gòu)
3.3 CWSTransformer分詞過(guò)程
3.4 本章小結(jié)
4 翻譯與糾錯(cuò)方法實(shí)現(xiàn)
4.1 問(wèn)題描述
4.2 基于循環(huán)修正策略的翻譯分詞方法
4.3 循環(huán)修正分詞優(yōu)化
4.4 本章小結(jié)
5 實(shí)驗(yàn)分析
5.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集
5.2 預(yù)處理和后處理
5.3 實(shí)驗(yàn)方案
5.4 實(shí)驗(yàn)結(jié)果分析
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻(xiàn)
附錄1 攻讀學(xué)位期間發(fā)表的論文
附錄2 攻讀學(xué)位期間參與的主要項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]詞位標(biāo)注漢語(yǔ)分詞中特征模板定量研究[J]. 于江德,王希杰,樊孝忠. 計(jì)算機(jī)工程與設(shè)計(jì). 2012(03)
[2]基于子詞的雙層CRFs中文分詞[J]. 黃德根,焦世斗,周惠巍. 計(jì)算機(jī)研究與發(fā)展. 2010(05)
[3]中文分詞算法概述[J]. 龍樹(shù)全,趙正文,唐華. 電腦知識(shí)與技術(shù). 2009(10)
碩士論文
[1]基于K最短路徑的中文分詞算法研究與實(shí)現(xiàn)[D]. 李兆福.哈爾濱工程大學(xué) 2009
本文編號(hào):3718514
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3718514.html
最近更新
教材專著