天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于機器翻譯的漢維文可比語料自動獲取系統(tǒng)的構(gòu)建與研究

發(fā)布時間:2017-12-16 02:33

  本文關(guān)鍵詞:基于機器翻譯的漢維文可比語料自動獲取系統(tǒng)的構(gòu)建與研究


  更多相關(guān)文章: 可比語料庫 漢維文可比語料庫構(gòu)建 命名實體識別 文檔相似度


【摘要】:可比語料庫作為自然語言處理領(lǐng)域研究的熱點一直被眾多學(xué)者關(guān)注,其能為機器翻譯,跨語言信息檢索、搜索引擎等應(yīng)用提供基礎(chǔ)資源。隨著互聯(lián)網(wǎng)信息的井噴式發(fā)展,語料庫的規(guī)模變得越來越大,而跨語言可比語料中包含的翻譯等價對,專業(yè)術(shù)語互譯對,新詞互譯對等內(nèi)容也逐漸被研究員們重視起來。可比語料庫具有資源規(guī)模大、時效性強、內(nèi)容范圍廣等特點,作為基礎(chǔ)資源庫,在信息處理等方面都有大量的應(yīng)用。因此,可比語料獲取系統(tǒng)的構(gòu)建研究十分重要。為了滿足漢文-維吾爾文在可比語料庫上的需求,在分析了現(xiàn)有研究工作基礎(chǔ)上,本文提出構(gòu)建漢維可比語料自動獲取系統(tǒng)。本系統(tǒng)主要完成以下四個層次功能的設(shè)計與實現(xiàn):第一,根據(jù)網(wǎng)頁內(nèi)容的多樣性,本系統(tǒng)設(shè)計了針對新疆漢維文雙語網(wǎng)站的網(wǎng)頁內(nèi)容獲取方案并利用機器翻譯系統(tǒng)對維吾爾語進行翻譯。第二,對維吾爾譯文與中文語料進行去停用詞,分詞等預(yù)處理,利用命名實體識別、詞性分析對文本進行打分并剔除得分較低的文本。第三,利用神經(jīng)網(wǎng)絡(luò)模型對文本進行分類,分類的結(jié)果更有利于文本相似度的計算。第四,使用關(guān)鍵詞抽取技術(shù),潛語義分析算法對漢文-維吾爾文進行相似度計算并建立索引,達到獲取漢維可比語料系統(tǒng)構(gòu)建的目的。本系統(tǒng)可以在網(wǎng)絡(luò)中獲取較高質(zhì)量的漢維文可比語料,相較于傳統(tǒng)的基于主題提取計算文本相似度的方法,系統(tǒng)設(shè)計可比文檔篩選方案,并使用關(guān)鍵詞提取與潛語義分析相結(jié)合的方法提高了可比語料的獲取質(zhì)量。提出的采集方案具有時效性好,涉及領(lǐng)域廣,質(zhì)量較高等特點,適合構(gòu)建跨語言可比語料獲取系統(tǒng)。
【學(xué)位授予單位】:新疆大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前9條

1 龐偉;;雙語語料庫構(gòu)建研究綜述[J];信息技術(shù)與信息化;2015年03期

2 孫昌年;鄭誠;夏青松;;基于LDA的中文文本相似度計算[J];計算機技術(shù)與發(fā)展;2013年01期

3 康小麗;章成志;;用于雙語術(shù)語抽取的專業(yè)領(lǐng)域中英文可比語料庫構(gòu)建[J];現(xiàn)代圖書情報技術(shù);2012年02期

4 梁建飛;吐爾根·依布拉音;田生偉;賽依旦·阿不力米提;;漢維主題網(wǎng)頁自動獲取技術(shù)的研究[J];計算機應(yīng)用與軟件;2012年01期

5 王靜;劉志鏡;;基于概率模型的Web信息抽取[J];模式識別與人工智能;2010年06期

6 任高舉;吐爾根·伊布拉音;艾山·吾買爾;;統(tǒng)計機器翻譯中漢維短語對抽取的研究[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2010年03期

7 熱西旦·塔依;吐爾根·依布拉音;;漢文-維吾爾文雙語語料庫中段落對齊技術(shù)研究[J];新疆大學(xué)學(xué)報(自然科學(xué)版);2010年01期

8 陳懷興;尹存燕;陳家駿;;一種命名實體翻譯等價對的抽取方法[J];中文信息學(xué)報;2008年04期

9 孫廣范;宋金平;袁琦;肖健;單玉秋;;中英可比語料庫中翻譯等價對抽取方法研究[J];計算機工程與應(yīng)用;2007年32期

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前7條

1 龐偉;基于Web的藏漢雙語可比語料庫構(gòu)建技術(shù)研究[D];中央民族大學(xué);2015年

2 艾山·毛力尼亞孜;維漢雙語平行語料庫加工處理系統(tǒng)的設(shè)計與實現(xiàn)[D];新疆大學(xué);2014年

3 彭哲;跨語言文本相關(guān)性檢測技術(shù)研究[D];中南大學(xué);2014年

4 徐會芳;可比語料中雙語多詞術(shù)語互譯對抽取方法研究[D];大連理工大學(xué);2013年

5 劉颯;專業(yè)領(lǐng)域可比語料的構(gòu)建與評價研究[D];南京理工大學(xué);2012年

6 梁建飛;網(wǎng)絡(luò)環(huán)境下獲取漢維篇章級平行語料的研究[D];新疆大學(xué);2011年

7 于海濤;可比較語料庫的研究與構(gòu)建[D];大連理工大學(xué);2009年

,

本文編號:1294400

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1294400.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1a602***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com