基于深度學(xué)習(xí)和知識(shí)策略的蒙古文古籍識(shí)別研究
本文關(guān)鍵詞:基于深度學(xué)習(xí)和知識(shí)策略的蒙古文古籍識(shí)別研究 出處:《內(nèi)蒙古大學(xué)》2016年博士論文 論文類(lèi)型:學(xué)位論文
更多相關(guān)文章: 蒙古文古籍 整詞識(shí)別 基于切分的單詞識(shí)別 卷積神經(jīng)網(wǎng)絡(luò) 知識(shí)策略 錯(cuò)誤校正
【摘要】:蒙古文古籍為研究蒙古社會(huì)政治和歷史文化提供了豐富和可靠的資料。為更好地?fù)尵、整理和利用蒙古文古?內(nèi)蒙古大學(xué)圖書(shū)館啟動(dòng)了古籍電子化工作,將其掃描轉(zhuǎn)換成圖像格式存儲(chǔ),并向讀者提供了電子化服務(wù)。但是,古籍圖像不能再編輯,且檢索效率低,分析和挖掘難度大,亟需利用文字識(shí)別技術(shù)將其轉(zhuǎn)換為文本文檔。蒙古文古籍采用木刻雕版工藝印刷,具有排版不夠規(guī)整、字形差異顯著、文字顏料擴(kuò)散和脫落等特點(diǎn),給識(shí)別工作帶來(lái)很大挑戰(zhàn)。本文以《御制蒙古文甘珠爾經(jīng)》為研究對(duì)象,在蒙古文古籍識(shí)別方面開(kāi)展了一系列研究,主要內(nèi)容如下:1.本文提出了蒙古文古籍單詞的有效識(shí)別方法。在分析整詞識(shí)別和基于切分的單詞識(shí)別兩種方案優(yōu)缺點(diǎn)的基礎(chǔ)上,結(jié)合蒙古文古籍單詞特點(diǎn),提出了整詞識(shí)別和基于切分的單詞識(shí)別的混合策略,對(duì)高度較低且字形基元切分難度大的單詞采用整詞識(shí)別的方法進(jìn)行識(shí)別,對(duì)其余單詞采用基于字形基元切分的識(shí)別方法進(jìn)行識(shí)別,通過(guò)實(shí)驗(yàn)確定了兩種方法的選擇依據(jù)。2.本文提出了半自動(dòng)樣本選取方法。為達(dá)到理想的識(shí)別精度,需要大量樣本訓(xùn)練識(shí)別中使用的卷積神經(jīng)網(wǎng)絡(luò),為克服人工選取樣本效率低的缺點(diǎn),提出了半自動(dòng)的樣本選取方法,首先利用分類(lèi)器對(duì)未分類(lèi)的全部樣本進(jìn)行粗分類(lèi),然后人工去除每類(lèi)中不正確的樣本,最后將每類(lèi)中剩余樣本作為最終訓(xùn)練樣本。訓(xùn)練樣本選取分類(lèi)器的過(guò)程采用了書(shū)寫(xiě)者適應(yīng)性調(diào)整、利用形態(tài)學(xué)方法生成偽訓(xùn)練樣本、多次循環(huán)策略。3.本文提出了蒙古文古籍單詞的字形基元切分方法。由于蒙古文古籍單詞存在嚴(yán)重的形變和字形基元重疊現(xiàn)象,針對(duì)機(jī)器印刷體蒙古文單詞的切分方法難以奏效。分析了蒙古文古籍單詞外形特征,提出了基于輪廓分析的字形基元切分方法,首先提取單詞輪廓上的關(guān)鍵點(diǎn),其次利用輪廓關(guān)鍵點(diǎn)定位單詞主干線,最后利用輪廓關(guān)鍵點(diǎn)和主干線信息生成分割線。為簡(jiǎn)化輪廓關(guān)鍵點(diǎn)檢測(cè)步驟并避免輪廓噪聲的影響,利用多邊形作為單詞外輪廓的近似。4.本文提出了三種基于知識(shí)的策略來(lái)提升單詞識(shí)別精度。在基于切分的單詞識(shí)別方法中,字形基元的識(shí)別結(jié)果用于生成單詞的識(shí)別結(jié)果,通過(guò)分析識(shí)別結(jié)果,發(fā)現(xiàn)導(dǎo)致單詞識(shí)別錯(cuò)誤的原因是字形基元切分不合理和字形基元識(shí)別錯(cuò)誤。為進(jìn)一步提升單詞識(shí)別精度,結(jié)合蒙古文的構(gòu)詞知識(shí)提出三種策略并應(yīng)用于字形基元識(shí)別環(huán)節(jié),分別是整合主干線信息策略、字形基元分組策略,以及識(shí)別欠切分和過(guò)切分片段策略。5.本文提出了古典蒙古文詞典的構(gòu)建方法和基于字形基元相鄰規(guī)則的錯(cuò)誤檢測(cè)方法,并評(píng)測(cè)了基于詞典和基于字形基元相鄰規(guī)則的錯(cuò)誤檢測(cè)方法各自的性能,分別采用加權(quán)編輯距離模型和噪聲信道模型進(jìn)行錯(cuò)誤校正,根據(jù)識(shí)別結(jié)果和字形知識(shí)為這兩種模型分配編輯操作的權(quán)重,結(jié)合識(shí)別方法簡(jiǎn)化噪聲信道模型以減少計(jì)算量。
[Abstract]:This paper presents an effective identification method for Mongolian ancient books . According to the recognition result and the font knowledge , the weights of the editing operations are assigned to the two models , and the noise channel model is simplified in combination with the identification method to reduce the calculation amount .
【學(xué)位授予單位】:內(nèi)蒙古大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP391.43
【參考文獻(xiàn)】
相關(guān)期刊論文 前6條
1 魏宏喜;高光來(lái);;基于Word Spotting技術(shù)的蒙古文古籍圖像檢索中的特征選擇[J];計(jì)算機(jī)應(yīng)用;2011年11期
2 魏宏喜;高光來(lái);;一種基于連通域的蒙古文文檔圖像版面分析方法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年05期
3 魏宏喜;高光來(lái);;蒙文文檔圖像的傾斜檢測(cè)方法[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年04期
4 魏宏喜;高光來(lái);;印刷體蒙古文字識(shí)別中蒙古文字特征的選擇[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2006年06期
5 李振宏,高光來(lái);印刷體蒙古文文字識(shí)別中常用特征的獲取[J];微機(jī)發(fā)展;2003年11期
6 李偉,高光來(lái),侯宏旭,李振宏;印刷體蒙古文字識(shí)別技術(shù)中切分方法的設(shè)計(jì)與實(shí)現(xiàn)[J];內(nèi)蒙古大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年03期
相關(guān)博士學(xué)位論文 前1條
1 魏宏喜;蒙古文古籍圖像檢索技術(shù)研究[D];內(nèi)蒙古大學(xué);2012年
相關(guān)碩士學(xué)位論文 前8條
1 王霈s,
本文編號(hào):1378659
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1378659.html