基于音節(jié)統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)
本文關鍵詞:基于統(tǒng)計的搜索引擎中文輸入糾錯技術研究,由筆耕文化傳播整理發(fā)布。
《內蒙古大學》 2007年
基于音節(jié)統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)
趙軍
【摘要】: 隨著社會的信息化不斷深入發(fā)展,電子雜志、報刊、文檔等各種電子出版物不斷涌現(xiàn)。如何保證這些文本的正確性,已經(jīng)成為自然語言處理研究人員關注的熱點。目前,在蒙古文信息處理研究中,校對領域的工作一直以來是一個空白。長期以來,研究人員采用基于字典的校對方法。該方法在詞典信息量小的情況下,其效率還能被用戶接受。但隨著信息量的不斷增大,,校對的效率將會下降。本文的目標是提出一個能夠很好解決目前蒙古文校對領域問題的新方法。主要工作如下: 首先,介紹了蒙古文詞法和語法方面的相關知識。結合蒙古文的詞法特點,從蒙古文單詞包含的字符數(shù)量、音節(jié)數(shù)量和音節(jié)位置三個角度對蒙古文詞匯特性進行了初步分析。 其次,重點研究了在自然語言處理領域常用的計算模型和文本相似度計算領域的相關技術。結合對蒙古文詞匯特性的分析和各計算模型的比較,本文提出了基于音節(jié)的2-gram蒙古文校對模型;同時從校對模型設計、校對模型學習算法設計和校對算法設計三個方面進行詳細論述。另外,結合蒙古文的實際特點,論文提出了基于有向圖的文本錯誤分析方法,并對各類型錯誤進行了分析。
【關鍵詞】:
【學位授予單位】:內蒙古大學
【學位級別】:碩士
【學位授予年份】:2007
【分類號】:TP391.1
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 溫晉根;實用型世界語文本校對程序[J];電腦開發(fā)與應用;1997年04期
2 王永景;劉功申;李生紅;荊濤;;用于文本校對的分詞與詞性標注一體化算法[J];計算機技術與發(fā)展;2008年08期
3 郝莉;敖登巴拉;鞏政;圖雅;;基于貝葉斯算法的蒙古文文本自動校對研究[J];內蒙古大學學報(自然科學版);2010年04期
4 戴文華,焦翠珍,徐斌;基于統(tǒng)計的自然語言處理模型[J];咸寧學院學報;2005年03期
5 張強;陶宏才;;基于HTK的語音識別語言模型設計及性能分析[J];成都信息工程學院學報;2009年02期
6 趙巖;王曉龍;徐志明;劉秉權;;利用詞性信息改進Katz平滑算法[J];哈爾濱工業(yè)大學學報;2007年09期
7 李學明;唐相楨;;基于3-gram模型和數(shù)據(jù)挖掘技術的元數(shù)據(jù)預取[J];重慶大學學報;2008年06期
8 林暉;林劼;;基于Markov模型的改進型疑錯窗口算法[J];實驗科學與技術;2008年04期
9 陳智鵬;呂玉琴;劉華生;劉剛;屠輝;;基于N-gram統(tǒng)計模型的搜索引擎中文糾錯[J];中國電子科學研究院學報;2009年03期
10 胡俊鋒;陳浩;陳蓉;譚斌;于中華;;基于感知器的生物醫(yī)學命名實體邊界識別算法[J];計算機應用;2007年12期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 詹津明;牟曉隆;李樹青;方棣棠;;一個大字表語音識別系統(tǒng)中的語言模型[A];第五屆全國人機語音通訊學術會議論文集[C];1998年
2 趙軍;敖其爾;吉仁尼格;鞏政;葡萄;陳建東;;基于統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)[A];民族語言文字信息技術研究——第十一屆全國民族語言文字信息學術研討會論文集[C];2007年
3 才讓加;頭旦才讓;周毛先;;藏語語料庫加工方法研究[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
4 努爾艾力·喀迪爾;彭良瑞;;基于SRILM的阿拉伯和維吾爾文語言模型建立方法[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前4條
1 《計算機世界》評測實驗室 郭見洌;[N];計算機世界;2000年
2 本報實習生 譚征;[N];市場報;2002年
3 曉文;[N];通信產(chǎn)業(yè)報;2000年
4 記者 李光明 實習生 范天嬌;[N];法制日報;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 趙軍;基于音節(jié)統(tǒng)計語言模型蒙古文詞匯分析校正器的設計與實現(xiàn)[D];內蒙古大學;2007年
2 郇政永;基于OCR的中文文本校對研究[D];北方工業(yè)大學;2011年
3 秦健;N-gram技術在中文詞法分析中的應用研究[D];中國海洋大學;2009年
4 毛偉;基于統(tǒng)計語言模型的中文自動文本分類系統(tǒng)[D];北京郵電大學;2006年
5 楊永火;組合向量空間模型和語言模型的信息檢索系統(tǒng)[D];天津大學;2006年
6 唐相楨;基于數(shù)據(jù)挖掘的文件元數(shù)據(jù)預取研究與實現(xiàn)[D];重慶大學;2008年
7 伊力亞爾·加爾木哈買提;哈薩克文語料庫詞匯校對研究[D];新疆大學;2008年
8 戚婕;基于遺傳算法的金融高性能計算[D];中南大學;2011年
9 孫善祿;搜索引擎糾錯算法研究與糾錯Bad Case挖掘[D];大連理工大學;2013年
10 陳智鵬;基于統(tǒng)計的搜索引擎中文輸入糾錯技術研究[D];北京郵電大學;2010年
本文關鍵詞:基于統(tǒng)計的搜索引擎中文輸入糾錯技術研究,由筆耕文化傳播整理發(fā)布。
本文編號:129181
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/129181.html