文言文翻譯及閱讀理解關(guān)鍵技術(shù)的研究
本文關(guān)鍵詞:文言文翻譯及閱讀理解關(guān)鍵技術(shù)的研究
更多相關(guān)文章: 正文提取 句子對齊 古漢語翻譯 閱讀理解
【摘要】:在漫長的歷史長河中,古漢語書寫的典籍汗牛充棟。近年來,統(tǒng)計機(jī)器翻譯技術(shù)得到了很大發(fā)展。Moses等開源的翻譯工具只需要雙語平行句對即可訓(xùn)練出翻譯系統(tǒng)。同時,其他自然語言處理技術(shù)的發(fā)展更是激勵著人們解決現(xiàn)實的人工智能問題。本課題的目的在于探索文言文翻譯及閱讀理解答題的關(guān)鍵技術(shù)。為了解決這個任務(wù),我們的研究包含以下幾個方面。(1)古漢語現(xiàn)代漢語平行語料庫的獲取和加工。本文利用互聯(lián)網(wǎng)上存在的古漢語現(xiàn)代漢語平行網(wǎng)頁獲取古漢語現(xiàn)代漢語平行語料庫。本文將平行語料的獲取分為兩個階段,第一個階段是獲取網(wǎng)頁正文,第二個階段是句子對齊。通過對基于DOM樹的文本密度的方法進(jìn)行改進(jìn),我們提出基于DOM樹的標(biāo)點密度的方法。在獲取古漢語現(xiàn)代漢語網(wǎng)頁正文時,我們的方法F值得到了一定的提升。在句子對齊時,我們引入句子長度、匹配模式、同源率,使用對數(shù)線性模型對句子得分進(jìn)行建模。通過不同的框架,我們引入了10個同源率。和基于長度的句子對齊方法相比,我們的方法使結(jié)果得到了較大的提升。(2)基于Moses的古漢語和現(xiàn)代漢語翻譯系統(tǒng)的優(yōu)化。本文在獲取了古漢語現(xiàn)代漢語平行句對后,對翻譯系統(tǒng)的優(yōu)化進(jìn)行研究。我們使用Moses從語言模型和翻譯模型兩個方面進(jìn)行優(yōu)化。在語言模型方面,我們從語料、平滑方法、模型混合等方面進(jìn)行分析。在翻譯模型方面,我們考慮分詞對翻譯模型的影響。我們的方法使翻譯系統(tǒng)性能得到了較大幅度的提升。(3)文言文閱讀理解答題技術(shù)的研究。對選中的三類題進(jìn)行答題技術(shù)的研究。將選項準(zhǔn)確性抽象為某種相似度,最后依據(jù)相似度的大小確定答案。對于翻譯辨析題和概括分析題,依據(jù)詞袋、最長公共子串、編輯距離、余弦相似度、N-gram等設(shè)計了24種相似度。對于詞意辨析,依據(jù)詞袋、短語翻譯表、詞意相似度等設(shè)計了7種相似度。使用相似度答題取得了不錯的答題準(zhǔn)確率。對于詞意辨析題,依據(jù)相似度獲取了8個特征,使用svm-rank進(jìn)行三重交叉校驗,得到了更高的答題準(zhǔn)確率。
【關(guān)鍵詞】:正文提取 句子對齊 古漢語翻譯 閱讀理解
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:H085
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 緒論9-18
- 1.1 本文的研究背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-16
- 1.2.1 正文提取技術(shù)10-13
- 1.2.2 句子對齊技術(shù)13-14
- 1.2.3 機(jī)器翻譯技術(shù)14-15
- 1.2.4 閱讀理解答題技術(shù)15-16
- 1.3 研究內(nèi)容及章節(jié)安排16-18
- 第2章 古漢語現(xiàn)代漢語平行語料庫的獲取和加工18-32
- 2.1 引言18
- 2.2 古漢語現(xiàn)代漢語網(wǎng)頁的獲取和分析18-20
- 2.2.1 古漢語現(xiàn)代漢語網(wǎng)頁的獲取19-20
- 2.2.2 文言文資源的分析20
- 2.3 基于DO M樹的標(biāo)點密度的正文提取20-27
- 2.3.1 DO M介紹20-21
- 2.3.2 文本密度21-22
- 2.3.3 復(fù)雜文本密度22-23
- 2.3.4 標(biāo)點密度23-24
- 2.3.5 密度和24
- 2.3.6 閾值及正文提取算法24-25
- 2.3.7 正文提取實驗結(jié)果和分析25-27
- 2.4 多特征融合的古漢語現(xiàn)代漢語的句子對齊27-31
- 2.4.1 長度特征27-28
- 2.4.2 匹配模式特征28
- 2.4.3 同源詞特征28-29
- 2.4.4 多特征融合的句對得分29-30
- 2.4.5 句子對齊實驗結(jié)果和分析30-31
- 2.5 本章小結(jié)31-32
- 第3章 基于MOSES的古漢語現(xiàn)代漢語翻譯系統(tǒng)的優(yōu)化32-39
- 3.1 引言32-33
- 3.2 語言模型的優(yōu)化33-36
- 3.2.1 語言模型介紹33
- 3.2.2 多種目標(biāo)語料的語言模型33-34
- 3.2.3 混合語言模型34-36
- 3.2.4 實驗結(jié)果和分析36
- 3.3 翻譯模型的優(yōu)化36-38
- 3.3.1 字-字翻譯模型36-37
- 3.3.2 字-詞翻譯模型37
- 3.3.3 字-字詞混合翻譯模型37
- 3.3.4 詞-詞翻譯模型37-38
- 3.3.5 實驗結(jié)果和分析38
- 3.4 本章小結(jié)38-39
- 第4章 高考語文文言文閱讀理解答題技術(shù)的研究39-51
- 4.1 高考語文文言文閱讀理解題型調(diào)研39-43
- 4.1.1 閱讀理解答題介紹41-42
- 4.1.2 文言文閱讀理解的特殊性42-43
- 4.1.3 三類題的一般性分析43
- 4.2 實驗數(shù)據(jù)及實驗評價標(biāo)準(zhǔn)43-44
- 4.3 三類題的答題技術(shù)研究44-50
- 4.3.1 翻譯辨析題答題技術(shù)的研究44-48
- 4.3.2 詞意辨析題答題技術(shù)的研究48-49
- 4.3.3 概括分析題答題技術(shù)的研究49
- 4.3.4 實驗結(jié)果對比分析49-50
- 4.4 本章小結(jié)50-51
- 結(jié)論51-53
- 參考文獻(xiàn)53-59
- 攻讀碩士學(xué)位期間發(fā)表的論文59-61
- 致謝61
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 焦紅波,車玉曉;從翻譯系統(tǒng)理論看《湯姆叔叔的小屋》的不同譯本[J];華北水利水電學(xué)院學(xué)報(社科版);2005年04期
2 T.W.卡爾弗特 ,J.A.蘭迪斯 ,J.查普曼 ,劉建一;計算機(jī)與舞譜[J];文藝研究;1985年06期
3 王爾康;采用世界語的翻譯系統(tǒng)[J];上?萍挤g;1987年06期
4 馮志偉;網(wǎng)絡(luò)翻譯系統(tǒng)市場潛力很大[J];中文信息;1997年06期
5 王樹槐;翻譯系統(tǒng)中信息傳播的優(yōu)化──兼論兩級翻譯學(xué)的建立[J];華中理工大學(xué)學(xué)報(社會科學(xué)版);1999年01期
6 范;;《雅信譯霸英漢翻譯系統(tǒng)98》[J];科技潮;1998年07期
7 姜一平;;美國電腦翻譯研究現(xiàn)狀[J];國外語言學(xué);1986年02期
8 長尾真;楊平;;自動翻譯[J];計算機(jī)科學(xué);1985年02期
9 幼秧;“石油科技文獻(xiàn)計算機(jī)翻譯系統(tǒng)研究”獲得成功[J];中國科技翻譯;1999年03期
10 張俐,李晶皎,趙欣,王寶庫;開放式滿漢輔助翻譯系統(tǒng)的研究和實現(xiàn)[J];東北大學(xué)學(xué)報;1999年06期
中國重要會議論文全文數(shù)據(jù)庫 前8條
1 蘇牧;余勝民;韓兆濱;張樹武;徐波;;一種基于電話的中英雙向翻譯系統(tǒng)[A];第七屆全國人機(jī)語音通訊學(xué)術(shù)會議(NCMMSC7)論文集[C];2003年
2 曾華琳;李堂秋;曹冬林;;機(jī)器輔助翻譯系統(tǒng)用詞典的管理[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
3 潘治文;李怡平;;一個基于語料庫的葡中翻譯系統(tǒng)[A];信息科學(xué)與微電子技術(shù):中國科協(xié)第三屆青年學(xué)術(shù)年會論文集[C];1998年
4 譚詠梅;王樅;王小捷;鐘義信;;基于實例的機(jī)器輔助寫作翻譯系統(tǒng)[A];2006年首屆ICT大會信息、知識、智能及其轉(zhuǎn)換理論第一次高峰論壇會議論文集[C];2006年
5 吐爾根.依布拉音;艾爾肯.伊米爾;阿布力米提.阿不都熱依木;;基于翻譯記憶庫與基于規(guī)則的漢維-維漢機(jī)器輔助翻譯系統(tǒng)方法與框架研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
6 謝曉方;喬勇軍;;基于增強(qiáng)現(xiàn)實技術(shù)的翻譯系統(tǒng)建模技術(shù)研究[A];第五屆全國仿真器學(xué)術(shù)會論文集[C];2004年
7 方李成;宗成慶;;基于層次短語的統(tǒng)計翻譯系統(tǒng)中規(guī)則冗余的高效約束方法[A];第四屆全國學(xué)生計算語言學(xué)研討會會議論文集[C];2008年
8 陳振標(biāo);黃泰翼;徐波;;語音翻譯中的口音建模與處理[A];第六屆全國人機(jī)語音通訊學(xué)術(shù)會議論文集[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前6條
1 楊文利;中國口語翻譯系統(tǒng)在國際評測中奪魁[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2007年
2 李大慶;CASIA口語翻譯系統(tǒng)在國際評測中奪魁[N];科技日報;2007年
3 ;輕松跨越語言障礙[N];中國電腦教育報;2004年
4 馮沙;俄漢智能輔助翻譯系統(tǒng)問世[N];科技日報;2002年
5 記者 王艷紅;德推出同步口語翻譯系統(tǒng)[N];新華每日電訊;2001年
6 L&H公司高級副總裁及亞太區(qū)總裁 胡國輝博士;自然語言技術(shù)支持新一代語音上網(wǎng)[N];中國計算機(jī)報;2000年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前2條
1 姜海濤;內(nèi)核級二進(jìn)制翻譯系統(tǒng)設(shè)計及性能優(yōu)化[D];中國科學(xué)技術(shù)大學(xué);2013年
2 馬湘寧;二進(jìn)制翻譯關(guān)鍵技術(shù)研究[D];中國科學(xué)院研究生院(計算技術(shù)研究所);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 柳賢花;古典漢文翻譯系統(tǒng)標(biāo)準(zhǔn)化方案研究[D];延邊大學(xué);2012年
2 陸少斌;口語翻譯系統(tǒng)[D];北京工業(yè)大學(xué);2003年
3 徐帆;軟硬協(xié)同動態(tài)二進(jìn)制翻譯系統(tǒng)設(shè)計與實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2010年
4 李曉龍;基于多核平臺的多線程動態(tài)二進(jìn)制翻譯系統(tǒng)優(yōu)化框架[D];上海交通大學(xué);2010年
5 吳浩;二進(jìn)制翻譯系統(tǒng)QEMU的優(yōu)化技術(shù)[D];上海交通大學(xué);2007年
6 車玉曉;從Uncle Tom's Cabin的不同譯本看翻譯系統(tǒng)理論[D];鄭州大學(xué);2005年
7 馬舒蘭;動態(tài)二進(jìn)制翻譯中的TCache的設(shè)計與實現(xiàn)[D];上海交通大學(xué);2008年
8 王清;基于Globish的規(guī)范子集英漢翻譯系統(tǒng)研究[D];上海師范大學(xué);2008年
9 衡良;基于神經(jīng)網(wǎng)絡(luò)的數(shù)字化工藝設(shè)計卡片翻譯系統(tǒng)研究[D];四川大學(xué);2006年
10 屈慶琳;嵌入式語音翻譯系統(tǒng)的研究[D];安徽理工大學(xué);2012年
,本文編號:677666
本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanxuelw/677666.html