基于轉(zhuǎn)換表及上下文環(huán)境的漢語(yǔ)簡(jiǎn)繁文本雙向翻譯
本文關(guān)鍵詞:基于轉(zhuǎn)換表及上下文環(huán)境的漢語(yǔ)簡(jiǎn)繁文本雙向翻譯
更多相關(guān)文章: 簡(jiǎn)繁轉(zhuǎn)換 簡(jiǎn)繁一對(duì)多轉(zhuǎn)換 組合模型 SVM 最大熵 GIS ADMMR 特征選擇
【摘要】:當(dāng)前國(guó)際上使用的漢字包括簡(jiǎn)體字和繁體字兩種形式,大陸和新加坡使用簡(jiǎn)體字,臺(tái)灣、香港、澳門和部分海外華人使用繁體字。隨著華人圈的交流日漸頻繁,這種漢字的差異給交流帶來(lái)了不少障礙,F(xiàn)有的簡(jiǎn)繁轉(zhuǎn)換技術(shù)在處理簡(jiǎn)繁一對(duì)多轉(zhuǎn)換方面效果不好,為了解決這一問(wèn)題,作者提出了基于轉(zhuǎn)換表和上下文的漢語(yǔ)簡(jiǎn)繁文本雙向翻譯方法。作者之前的研究工作在簡(jiǎn)繁評(píng)測(cè)中取得了95.6%的轉(zhuǎn)換準(zhǔn)確率,在此基礎(chǔ)上將更深入研究一對(duì)多簡(jiǎn)體字轉(zhuǎn)繁體字的轉(zhuǎn)換消歧問(wèn)題。一對(duì)多問(wèn)題可以看成是一個(gè)分類問(wèn)題,本文提出在簡(jiǎn)繁轉(zhuǎn)換的一對(duì)多問(wèn)題上使用規(guī)則加組合統(tǒng)計(jì)模型來(lái)解決,所組合的統(tǒng)計(jì)模型為SVM(支持向量機(jī))、最大熵模型和貝葉斯模型。為了優(yōu)化分類效果,作者提出了一種新的文本特征選擇方法ADMMR,該方法的特征選擇效果和期望交叉熵,卡方檢驗(yàn)這兩種特征選擇方法相當(dāng),且經(jīng)實(shí)驗(yàn)表明能夠很好地表示文本,在使用同樣分類模型的前提下ADMMR比信息增益方法的分類性能要好4%以上;同時(shí)提出最大熵模型的特征值使用tf-idf,而不使用0-1值,經(jīng)過(guò)實(shí)驗(yàn)表明特征值使用tf-idf可以比使用0-1值的分類性能好2%;作者提出使用ADMMR、期望交叉熵和卡方檢驗(yàn)作為文本的特征選擇方法,使用tf-idf來(lái)量化每一個(gè)特征,再用SVM和最大熵模型學(xué)習(xí)訓(xùn)練數(shù)據(jù),這樣將得到六個(gè)分類模型,再使用貝葉斯模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)得到第七個(gè)分類模型;前六個(gè)模型進(jìn)行投票選擇,獲得票數(shù)最多的那個(gè)類別作為分類結(jié)果,如果得票最多的類有2個(gè)或2個(gè)以上則使用貝葉斯模型輔助判別。實(shí)驗(yàn)結(jié)果表明組合模型比單獨(dú)使用SVM、最大熵模型或貝葉斯模型的分類效果都要好,且更穩(wěn)定。簡(jiǎn)繁轉(zhuǎn)換問(wèn)題則采用規(guī)則加組合模型的方法:規(guī)則是根據(jù)詞庫(kù)來(lái)將一對(duì)多簡(jiǎn)體字根據(jù)詞組轉(zhuǎn)換到對(duì)應(yīng)的繁體字;而對(duì)于不能成詞的3%一對(duì)多簡(jiǎn)體字則采用組合模型;實(shí)驗(yàn)表明規(guī)則加組合模型的方法能夠達(dá)到98.5%的準(zhǔn)確率,較好地解決了簡(jiǎn)繁轉(zhuǎn)換中的一對(duì)多轉(zhuǎn)換問(wèn)題。
【關(guān)鍵詞】:簡(jiǎn)繁轉(zhuǎn)換 簡(jiǎn)繁一對(duì)多轉(zhuǎn)換 組合模型 SVM 最大熵 GIS ADMMR 特征選擇
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.2
【目錄】:
- 摘要3-5
- ABSTRACT5-11
- 第一章 緒論11-14
- 1.1 研究背景11
- 1.2 研究目的11-12
- 1.3 研究?jī)?nèi)容12
- 1.4 研究成果12-13
- 1.5 本文結(jié)構(gòu)13-14
- 第二章 相關(guān)研究14-26
- 2.1 研究背景14-17
- 2.1.1 建國(guó)后的漢字簡(jiǎn)化14-16
- 2.1.2 漢字簡(jiǎn)化所引起的問(wèn)題16-17
- 2.2 簡(jiǎn)繁轉(zhuǎn)換問(wèn)題17-21
- 2.2.1 一對(duì)多簡(jiǎn)繁關(guān)系17-19
- 2.2.2 兩岸術(shù)語(yǔ)詞的差異19-21
- 2.3 相關(guān)研究21-25
- 2.4 本章小結(jié)25-26
- 第三章 簡(jiǎn)繁轉(zhuǎn)換流程及模型26-41
- 3.1 簡(jiǎn)繁漢字轉(zhuǎn)換流程26-27
- 3.2 簡(jiǎn)繁漢字轉(zhuǎn)換模型27-32
- 3.2.1 一對(duì)多簡(jiǎn)繁分類組合模型28-29
- 3.2.2 文本分詞算法29-31
- 3.2.3 文本分類算法31-32
- 3.3 分類模型32-40
- 3.3.1 SVM分類模型32-36
- 3.3.2 最大熵分類模型36-39
- 3.3.3Bayes分類模型39-40
- 3.3.4 tf-idf40
- 3.4 本章小結(jié)40-41
- 第四章 特征選擇算法41-47
- 4.1 信息增益法(Information Gain)41-42
- 4.2 期望交叉熵(Expected Cross Entropy)42
- 4.3 互信息(Mutual Information)42-43
- 4.4 χ~2檢驗(yàn)法43-45
- 4.5 文本證據(jù)權(quán)(The Weight of Evidence for Text)45-46
- 4.6 ADMMR優(yōu)勢(shì)值 (Absolute Difference of Max-Min Ratios)46
- 4.7 本章小結(jié)46-47
- 第五章 數(shù)據(jù)準(zhǔn)備47-52
- 5.1 機(jī)器學(xué)習(xí)平行語(yǔ)料抽取47-50
- 5.1.1 維基百科簡(jiǎn)介47-49
- 5.1.2 Http Client與Html Parser49
- 5.1.3 字詞上下文抽取49-50
- 5.2 簡(jiǎn)繁詞庫(kù)數(shù)據(jù)抽取50-51
- 5.2.1 MDict及《臺(tái)pcW姙彮典》介紹50-51
- 5.2.2 詞典數(shù)據(jù)提取51
- 5.3 本章小結(jié)51-52
- 第六章 實(shí)驗(yàn)結(jié)果52-61
- 6.1 ADMMR特征選擇實(shí)驗(yàn)52-54
- 6.2 最大熵模型之tf-idf54-55
- 6.3 SVM、Max Ent以及Bayes組合模型55-58
- 6.4 規(guī)則加組合統(tǒng)計(jì)模型實(shí)驗(yàn)58-60
- 6.5 本章小結(jié)60-61
- 第七章 總結(jié)61-62
- 參考文獻(xiàn)62-64
- 致謝64-65
- 附錄A 攻讀學(xué)位期間所發(fā)表的學(xué)術(shù)論文目錄65-67
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 龐禎軍;姚天f ;;基于對(duì)照表以及語(yǔ)義相關(guān)性之簡(jiǎn)繁漢字轉(zhuǎn)換[J];計(jì)算機(jī)工程與應(yīng)用;2015年04期
2 王立軍;王曉明;吳健;;簡(jiǎn)繁對(duì)應(yīng)關(guān)系與簡(jiǎn)繁轉(zhuǎn)換[J];中文信息學(xué)報(bào);2013年04期
3 湯吟菲;;《簡(jiǎn)化字總表》繁簡(jiǎn)字對(duì)應(yīng)關(guān)系的注釋說(shuō)明[J];鄖陽(yáng)師范高等?茖W(xué)校學(xué)報(bào);2010年04期
4 鄭國(guó)政;;基于現(xiàn)有軟件進(jìn)行中文簡(jiǎn)繁體轉(zhuǎn)換的方法[J];電腦知識(shí)與技術(shù)(學(xué)術(shù)交流);2007年07期
5 王思力;張華平;王斌;;雙數(shù)組Trie樹(shù)算法優(yōu)化及其應(yīng)用研究[J];中文信息學(xué)報(bào);2006年05期
6 傅永和;;漢字簡(jiǎn)化五十年回顧[J];中國(guó)語(yǔ)文;2005年06期
7 蘇培成;“發(fā)”字的尷尬[J];語(yǔ)文建設(shè);2001年12期
8 辛春生,孫玉芳;簡(jiǎn)繁漢字轉(zhuǎn)換系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];軟件學(xué)報(bào);2000年11期
9 辛春生,孫玉芳;漢語(yǔ)簡(jiǎn)繁體轉(zhuǎn)換與語(yǔ)詞切分[J];小型微型計(jì)算機(jī)系統(tǒng);2000年09期
,本文編號(hào):867909
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/867909.html