基于字素分割的蒙古文手寫識別研究
本文關(guān)鍵詞: 蒙古文 字素 HMM 手寫識別 出處:《中文信息學(xué)報》2017年05期 論文類型:期刊論文
【摘要】:隱馬爾科夫模型(HMM)對序列數(shù)據(jù)有很強(qiáng)的建模能力,在語音和手寫識別中都得到了廣泛的應(yīng)用。利用HMM研究蒙古文手寫識別,首先需要解決的問題是手寫文字的序列化。從蒙古文的構(gòu)詞和書寫特點看,蒙古文由多個字素從上到下串聯(lián)構(gòu)成。選擇字素集合和詞的字素分割是手寫識別的基礎(chǔ),也是影響識別效果的關(guān)鍵因素。該文根據(jù)蒙古文音節(jié)和編碼知識確定了蒙古文字母集合,共包括1 171個字母。通過相關(guān)性處理、HMM排序篩選等手段得到長字素集合,共包括378個字素。對長字素經(jīng)過人工分解,獲得了50個短字素。最后利用兩層映射給出了詞轉(zhuǎn)字素序列的算法。為了驗證長短字素在手寫識別中的效果,我們在HTK(hidden Markov model toolkit)環(huán)境下利用小規(guī)模字庫實現(xiàn)了手寫識別系統(tǒng),實驗結(jié)果表明短字素比長字素有更好的性能。文中給出的字素集合和詞轉(zhuǎn)字素序列的算法為后續(xù)基于HMM的蒙古文手寫識別研究奠定了基礎(chǔ)。
[Abstract]:Hmm (Hidden Markov Model) has a strong ability to model sequence data and has been widely used in speech recognition and handwritten recognition. HMM is used to study Mongolian handwritten recognition. The first problem to be solved is the serialization of handwritten characters. Mongolian characters are composed of several morphemes in series from top to bottom. The selection of morpheme sets and word morpheme segmentation is the basis of handwritten recognition. It is also the key factor that affects the recognition effect. According to the Mongolian syllable and coding knowledge, this paper determines the Mongolian alphabet set, including 1 171 letters. HMM sorting and screening methods were used to obtain the set of long word elements, which included 378characters. The long words were decomposed manually. In order to verify the effect of long and short morpheme in handwriting recognition, we obtain 50 short morphemes. Finally, we use two-layer mapping to give the algorithm of morpheme sequence. In the environment of HTK(hidden Markov model toolkit, we realized the handwriting recognition system by using a small font library. The experimental results show that the short morpheme has better performance than the long word primer. The algorithm of the morpheme set and the morpheme sequence provided in this paper lays a foundation for the further study of Mongolian handwriting recognition based on HMM.
【作者單位】: 內(nèi)蒙古大學(xué)計算機(jī)學(xué)院;內(nèi)蒙古大學(xué)電子信息工程學(xué)院;
【基金】:內(nèi)蒙古自治區(qū)自然科學(xué)基金(2016MS0603)
【分類號】:TP18;TP391.4
【正文快照】: 1引言各種語言的手寫體識別是人工智能領(lǐng)域最具有挑戰(zhàn)性的研究課題之一,主要包括脫機(jī)手寫體識別和聯(lián)機(jī)手寫體識別。國外在文字識別領(lǐng)域較早地開展了此項工作,由于西文(如英文、法文)大多是拼音文字,字母數(shù)量少且書寫規(guī)整,其印刷體和手寫體識別產(chǎn)品早已問世。在國內(nèi)許多大專院
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 紅梅,敖其爾,白云莉;托忒蒙古文讀音輸入法的設(shè)計與實現(xiàn)[J];內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版);2004年02期
2 嘎日迪,趙小兵,馬紅旭,賽音,白小玲;蒙古文自動處理系統(tǒng)研究[J];中文信息學(xué)報;1999年04期
3 菊花;金良;;使用程序自動分析蒙古文詞的研究[J];內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版);2014年02期
4 S·蘇雅拉圖;蒙古文整詞計算機(jī)生成理論研究[J];中文信息學(xué)報;2001年04期
5 紅梅;基于Windows 2000/XP平臺蒙古文輸入法的設(shè)計技術(shù)[J];內(nèi)蒙古師范大學(xué)學(xué)報(自然科學(xué)漢文版);2005年01期
6 鞏政;郝莉;楊旭華;;非標(biāo)準(zhǔn)蒙古文字符編碼轉(zhuǎn)換為國際編碼的一種方法[J];內(nèi)蒙古大學(xué)學(xué)報(自然科學(xué)版);2008年02期
7 鞏政;關(guān)高娃;;蒙古文停用詞和英文停用詞比較研究[J];中文信息學(xué)報;2011年04期
8 孟和吉雅;山丹;;蒙古文編碼向拉丁轉(zhuǎn)寫轉(zhuǎn)換和分音節(jié)算法實現(xiàn)[J];中文信息學(xué)報;2011年04期
9 高紅霞;馬小蕾;;西里爾蒙古文網(wǎng)頁向傳統(tǒng)蒙古文自動轉(zhuǎn)換系統(tǒng)的文字轉(zhuǎn)換研究[J];內(nèi)蒙古民族大學(xué)學(xué)報;2012年05期
10 王震;劉匯丹;吳健;;新標(biāo)準(zhǔn)體系下蒙古文變形顯現(xiàn)模型的設(shè)計與實現(xiàn)[J];中文信息學(xué)報;2013年01期
相關(guān)會議論文 前10條
1 包艷花;圖格木勒;;多字體印刷蒙古文識別后處理研究[A];中文信息處理前沿進(jìn)展——中國中文信息學(xué)會二十五周年學(xué)術(shù)會議論文集[C];2006年
2 吉仁尼格;;蒙古文同形詞的統(tǒng)計法[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
3 呼斯勒;六月;斯日古楞;;淺談蒙古文通用編輯器幾點基本規(guī)范[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
4 白雙成;胡其圖;木仁;;蒙古文音節(jié)切分算法實現(xiàn)及其應(yīng)用[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
5 孟和吉雅;白音門德;敖其爾;田會利;;蒙古文語音合成技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
6 確精扎布;;蒙古文編碼國際標(biāo)準(zhǔn)通過以后研制的幾種蒙古文錄入系統(tǒng)比較[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年
7 寶金良;;蒙古文文本標(biāo)點符號及其屬性字段設(shè)置[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年
8 林·娜仁圖雅;;關(guān)于蒙古文非編軟件字幕系統(tǒng)的幾個問題[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
9 嘎日迪;趙小兵;;內(nèi)蒙古蒙古語文信息化的回顧與問題剖析[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會論文集[C];2007年
10 包敏娜;華沙寶;;蒙古文掃描識別系統(tǒng)自動校正算法及實驗[A];第十屆全國少數(shù)民族語言文字信息處理學(xué)術(shù)研討會論文集[C];2005年
相關(guān)重要報紙文章 前7條
1 吳薩日娜;市蒙古文教學(xué)軟件開發(fā)應(yīng)用及資源庫建設(shè)榮獲鄂爾多斯科學(xué)技術(shù)進(jìn)步三等獎[N];鄂爾多斯日報;2009年
2 江蘇 MACHO;識別手寫識別[N];電腦報;2001年
3 李爽;手寫識別 外文不再是難題[N];國際商報;2006年
4 聞澤;內(nèi)蒙古蒙古文信息處理軟件研發(fā)成功[N];中國電子報;2008年
5 盧旭成;漢王手寫識別技術(shù)可識別30余國語言[N];中國計算機(jī)報;2007年
6 安徽 屠志成;Office XP手寫識別功能全攻略[N];中國電腦教育報;2001年
7 本報記者 洪奇;手寫筆:21世紀(jì)的主流輸入技術(shù)[N];計算機(jī)世界;2001年
相關(guān)博士學(xué)位論文 前4條
1 蘇向東;基于深度學(xué)習(xí)和知識策略的蒙古文古籍識別研究[D];內(nèi)蒙古大學(xué);2016年
2 巴圖額爾敦;文本資源檢索技術(shù)在西里爾蒙古文遠(yuǎn)程教育系統(tǒng)中的應(yīng)用研究[D];內(nèi)蒙古大學(xué);2017年
3 魏宏喜;蒙古文古籍圖像檢索技術(shù)研究[D];內(nèi)蒙古大學(xué);2012年
4 高巖;基于大規(guī)模無約束數(shù)據(jù)的書寫者自適應(yīng)的中文手寫識別系統(tǒng)研究[D];華南理工大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 關(guān)高娃;蒙古文停用詞和英文停用詞比較研究[D];內(nèi)蒙古大學(xué);2011年
2 劉璐;面向蒙古文增量g┱溝男畔⒓燜骷際躚芯縖D];內(nèi)蒙古大學(xué);2015年
3 李坤;蒙古文網(wǎng)絡(luò)熱點詞提取算法研究[D];內(nèi)蒙古大學(xué);2015年
4 王洪偉;基于規(guī)則和統(tǒng)計的西里爾與傳統(tǒng)蒙古文相互轉(zhuǎn)換方法研究[D];內(nèi)蒙古大學(xué);2015年
5 張畔;蒙古文搜索引擎基本方法的實現(xiàn)[D];內(nèi)蒙古大學(xué);2015年
6 王亞君;基于Linux IBUS的傳統(tǒng)蒙古文輸入法的研究與實現(xiàn)[D];內(nèi)蒙古師范大學(xué);2015年
7 才晶晶;基于CRF的蒙古文人名自動識別[D];內(nèi)蒙古大學(xué);2016年
8 邢朝龍;分布式蒙古文搜索引擎系統(tǒng)的研究與實現(xiàn)[D];內(nèi)蒙古大學(xué);2016年
9 蔣玉鵬;基于LDA的西里爾蒙古文主題模型研究[D];內(nèi)蒙古大學(xué);2016年
10 莫日根;基于規(guī)則的傳統(tǒng)蒙古文句法分析研究[D];內(nèi)蒙古大學(xué);2016年
,本文編號:1466329
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/1466329.html