基于音節(jié)統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)

發(fā)布時間：2016-10-02 18:13

本文關鍵詞：基于統(tǒng)計的搜索引擎中文輸入糾錯技術研究，由筆耕文化傳播整理發(fā)布。

《內蒙古大學》 2007年

趙軍

【摘要】： 隨著社會的信息化不斷深入發(fā)展，電子雜志、報刊、文檔等各種電子出版物不斷涌現(xiàn)。如何保證這些文本的正確性，已經(jīng)成為自然語言處理研究人員關注的熱點。目前，在蒙古文信息處理研究中，校對領域的工作一直以來是一個空白。長期以來，研究人員采用基于字典的校對方法。該方法在詞典信息量小的情況下，其效率還能被用戶接受。但隨著信息量的不斷增大，，校對的效率將會下降。本文的目標是提出一個能夠很好解決目前蒙古文校對領域問題的新方法。主要工作如下：首先，介紹了蒙古文詞法和語法方面的相關知識。結合蒙古文的詞法特點，從蒙古文單詞包含的字符數(shù)量、音節(jié)數(shù)量和音節(jié)位置三個角度對蒙古文詞匯特性進行了初步分析。其次，重點研究了在自然語言處理領域常用的計算模型和文本相似度計算領域的相關技術。結合對蒙古文詞匯特性的分析和各計算模型的比較，本文提出了基于音節(jié)的2-gram蒙古文校對模型；同時從校對模型設計、校對模型學習算法設計和校對算法設計三個方面進行詳細論述。另外，結合蒙古文的實際特點，論文提出了基于有向圖的文本錯誤分析方法，并對各類型錯誤進行了分析。

【關鍵詞】：
【學位授予單位】：內蒙古大學
【學位級別】：碩士
【學位授予年份】：2007
【分類號】：TP391.1
【目錄】：

摘要4-5

ABSTRACT5-7

目錄7-9

圖表目錄9-10

第一章引言10-14

1.1 自然語言信息處理研究的本質及意義10-11

1.2 本文主要開展的研究工作11-12

1.3 論文結構12-14

第二章自然語言詞匯信息處理研究現(xiàn)狀14-19

2.1 自然語言詞匯信息處理研究的目的和意義14

2.2 國內外自然語言詞匯信息處理研究現(xiàn)狀14-19

2.2.1 英文詞匯信息處理研究15

2.2.2 漢文詞匯信息處理研究15-18

2.2.3 少數(shù)民族語言詞匯信息處理研究18-19

第三章蒙古文詞匯特性分析19-24

3.1 概述19

3.2 語言知識概述19

3.3 蒙古文詞匯信息分析19-24

3.3.1 蒙古文詞長性質分析19-21

3.3.2 音節(jié)特性分析21-24

第四章蒙古文詞匯校對模型24-34

4.1 語言模型24-29

4.1.1 短語結構語法24-25

4.1.2 統(tǒng)計語言模型25-29

4.1.2.1 基于概率分布的語言模型25-26

4.1.2.2 基于上下文信息的語言建模26-29

4.2 蒙古文詞匯校對模型設計29-31

4.3 模型學習算法設計31-32

4.4 蒙古文校對算法32-34

第五章蒙古文音節(jié)相似性度量34-40

5.1 文本相似度34-38

5.1.1 相似度34

5.1.2 相似度計算的主要方法34-38

5.2 蒙古文音節(jié)相似性度量38-40

第六章錯誤類型分析40-44

1、錯誤類型一—多余字母40-41

2、錯誤類型二—遺漏字母41-42

3、錯誤類型三—錯錄字母42-44

第七章校對系統(tǒng)設計與實現(xiàn)44-49

7.1 系統(tǒng)總體模塊劃分及調用關系設計44

7.2 系統(tǒng)實現(xiàn)44-49

7.2.1 預處理模塊實現(xiàn)44-46

7.2.2 音節(jié)切分模塊46

7.2.3 蒙古文校對系統(tǒng)46-49

第八章結論與展望49-51

8.1 主要結論49

8.2 本文的創(chuàng)新之處49

8.3 后續(xù)的研究工作49-51

參考文獻51-54

致謝54

下載全文更多同類文獻

CAJ全文下載

(如何獲取全文？歡迎：購買知網(wǎng)充值卡、在線充值、在線咨詢)

CAJViewer閱讀器支持CAJ、PDF文件格式

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 溫晉根;實用型世界語文本校對程序[J];電腦開發(fā)與應用;1997年04期

2 王永景;劉功申;李生紅;荊濤;;用于文本校對的分詞與詞性標注一體化算法[J];計算機技術與發(fā)展;2008年08期

3 郝莉;敖登巴拉;鞏政;圖雅;;基于貝葉斯算法的蒙古文文本自動校對研究[J];內蒙古大學學報(自然科學版);2010年04期

4 戴文華,焦翠珍,徐斌;基于統(tǒng)計的自然語言處理模型[J];咸寧學院學報;2005年03期

5 張強;陶宏才;;基于HTK的語音識別語言模型設計及性能分析[J];成都信息工程學院學報;2009年02期

6 趙巖;王曉龍;徐志明;劉秉權;;利用詞性信息改進Katz平滑算法[J];哈爾濱工業(yè)大學學報;2007年09期

7 李學明;唐相楨;;基于3-gram模型和數(shù)據(jù)挖掘技術的元數(shù)據(jù)預取[J];重慶大學學報;2008年06期

8 林暉;林劼;;基于Markov模型的改進型疑錯窗口算法[J];實驗科學與技術;2008年04期

9 陳智鵬;呂玉琴;劉華生;劉剛;屠輝;;基于N-gram統(tǒng)計模型的搜索引擎中文糾錯[J];中國電子科學研究院學報;2009年03期

10 胡俊鋒;陳浩;陳蓉;譚斌;于中華;;基于感知器的生物醫(yī)學命名實體邊界識別算法[J];計算機應用;2007年12期

中國重要會議論文全文數(shù)據(jù)庫前4條

1 詹津明;牟曉隆;李樹青;方棣棠;;一個大字表語音識別系統(tǒng)中的語言模型[A];第五屆全國人機語音通訊學術會議論文集[C];1998年

2 趙軍;敖其爾;吉仁尼格;鞏政;葡萄;陳建東;;基于統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年

3 才讓加;頭旦才讓;周毛先;;藏語語料庫加工方法研究[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年

4 努爾艾力·喀迪爾;彭良瑞;;基于SRILM的阿拉伯和維吾爾文語言模型建立方法[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年

中國重要報紙全文數(shù)據(jù)庫前4條

1 《計算機世界》評測實驗室郭見洌;[N];計算機世界;2000年

2 本報實習生譚征;[N];市場報;2002年

3 曉文;[N];通信產(chǎn)業(yè)報;2000年

4 記者李光明　實習生范天嬌;[N];法制日報;2009年

中國碩士學位論文全文數(shù)據(jù)庫前10條

1 趙軍;基于音節(jié)統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)[D];內蒙古大學;2007年

2 郇政永;基于OCR的中文文本校對研究[D];北方工業(yè)大學;2011年

3 秦健;N-gram技術在中文詞法分析中的應用研究[D];中國海洋大學;2009年

4 毛偉;基于統(tǒng)計語言模型的中文自動文本分類系統(tǒng)[D];北京郵電大學;2006年

5 楊永火;組合向量空間模型和語言模型的信息檢索系統(tǒng)[D];天津大學;2006年

6 唐相楨;基于數(shù)據(jù)挖掘的文件元數(shù)據(jù)預取研究與實現(xiàn)[D];重慶大學;2008年

7 伊力亞爾·加爾木哈買提;哈薩克文語料庫詞匯校對研究[D];新疆大學;2008年

8 戚婕;基于遺傳算法的金融高性能計算[D];中南大學;2011年

9 孫善祿;搜索引擎糾錯算法研究與糾錯Bad Case挖掘[D];大連理工大學;2013年

10 陳智鵬;基于統(tǒng)計的搜索引擎中文輸入糾錯技術研究[D];北京郵電大學;2010年

本文關鍵詞：基于統(tǒng)計的搜索引擎中文輸入糾錯技術研究，由筆耕文化傳播整理發(fā)布。

本文編號：129181

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/129181.html

上一篇：基于統(tǒng)計的搜索引擎中文輸入糾錯技術研究.doc 全文免費在線閱讀
下一篇：基于Android的主題搜索引擎的研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于音節(jié)統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)