基于音節(jié)切分的藏文烏金印刷體識(shí)別技術(shù)研究
發(fā)布時(shí)間:2023-03-20 03:53
文字識(shí)別過程是集模式識(shí)別、圖像處理和文字處理相結(jié)合的一種技術(shù)。藏文印刷體識(shí)別是藏文信息處理的重要組成部分,這種技術(shù)能成倍節(jié)約藏文字錄入、編輯和處理等工作成本。對(duì)藏文相關(guān)新聞出版印刷業(yè)、辦公自動(dòng)化、古籍資料的整理和數(shù)字圖書館等領(lǐng)域有重要的應(yīng)用價(jià)值。與其它文字相比,藏文具有橫向字丁間距緊密和縱向字丁層數(shù)不同的音節(jié)結(jié)構(gòu)特征,而且音節(jié)分類數(shù)目眾多,這對(duì)藏文印刷體識(shí)別研究帶來了挑戰(zhàn)。傳統(tǒng)的藏文印刷體識(shí)別是以藏文字丁為分割單位,采用規(guī)則與統(tǒng)計(jì)相結(jié)合的識(shí)別方法。隨著信息技術(shù)的進(jìn)步和發(fā)展,神經(jīng)網(wǎng)絡(luò)模型在圖像識(shí)別領(lǐng)域取得了巨大的成功,這類模型可以在大規(guī)模數(shù)據(jù)集上,學(xué)習(xí)更長(zhǎng)分割單位的結(jié)構(gòu)特征,能夠有效提高識(shí)別系統(tǒng)的性能。因此,本文以藏文烏金字體為研究對(duì)象,展開了藏文音節(jié)為識(shí)別單位的研究工作。主要完成了如下工作:1.本論文為了解決訓(xùn)練圖像與標(biāo)簽對(duì)齊問題和構(gòu)建高覆蓋度的藏文音節(jié)文本語(yǔ)料庫(kù),深入分析研究藏文字組合結(jié)構(gòu),提出了基于混合模式的藏文文本音節(jié)切分方法,并研發(fā)了藏文自動(dòng)音節(jié)切分系統(tǒng),通過此方法共搜集了626類藏文字丁和19450類音節(jié)文本語(yǔ)料庫(kù)。2.針對(duì)藏文字體非常緊密、文本圖像分割難度大的問題,本文提出...
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 國(guó)內(nèi)外印刷體識(shí)別研究現(xiàn)狀
1.2.2 藏文印刷體識(shí)別研究現(xiàn)狀
1.2.3 藏文印刷體識(shí)別存在的難點(diǎn)
1.3 研究?jī)?nèi)容和目標(biāo)
第2章 藏文印刷體文本圖像預(yù)處理
2.1 圖像二值化
2.2 形態(tài)學(xué)處理
2.2.1 腐蝕
2.2.2 膨脹
2.3 圖像矯正
2.4 規(guī)范化
2.5 本章小結(jié)
第3章 藏文印刷體文本圖像分割
3.1 藏文印刷體按行分割
3.2 藏文印刷體按列分割
3.2.1 藏文音節(jié)切分與統(tǒng)計(jì)
3.2.2 藏文印刷體按字丁分割
3.2.3 藏文印刷體按音節(jié)分割
3.3 分割實(shí)驗(yàn)
3.3.1 投影分割實(shí)驗(yàn)結(jié)果
3.3.2 連通域分割實(shí)驗(yàn)結(jié)果
3.4 本章小結(jié)
第4章 基于卷積神經(jīng)網(wǎng)絡(luò)的藏文烏金印刷體識(shí)別技術(shù)
4.1 卷積神經(jīng)網(wǎng)絡(luò)模型簡(jiǎn)介
4.2 數(shù)據(jù)集
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 藏文字丁識(shí)別實(shí)驗(yàn)結(jié)果及分析
4.3.2 藏文音節(jié)識(shí)別實(shí)驗(yàn)結(jié)果及分析
4.3.3 卷積神經(jīng)網(wǎng)絡(luò)模型的調(diào)參技術(shù)
4.4 本章小結(jié)
第5章 系統(tǒng)實(shí)現(xiàn)及分析
5.1 系統(tǒng)模塊設(shè)計(jì)
5.1.1 預(yù)處理模塊
5.1.2 分割模塊
5.1.3 識(shí)別模塊
5.2 藏文烏金印刷體識(shí)別系統(tǒng)實(shí)現(xiàn)
5.3 實(shí)驗(yàn)及結(jié)果分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷
本文編號(hào):3766627
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 研究現(xiàn)狀
1.2.1 國(guó)內(nèi)外印刷體識(shí)別研究現(xiàn)狀
1.2.2 藏文印刷體識(shí)別研究現(xiàn)狀
1.2.3 藏文印刷體識(shí)別存在的難點(diǎn)
1.3 研究?jī)?nèi)容和目標(biāo)
第2章 藏文印刷體文本圖像預(yù)處理
2.1 圖像二值化
2.2 形態(tài)學(xué)處理
2.2.1 腐蝕
2.2.2 膨脹
2.3 圖像矯正
2.4 規(guī)范化
2.5 本章小結(jié)
第3章 藏文印刷體文本圖像分割
3.1 藏文印刷體按行分割
3.2 藏文印刷體按列分割
3.2.1 藏文音節(jié)切分與統(tǒng)計(jì)
3.2.2 藏文印刷體按字丁分割
3.2.3 藏文印刷體按音節(jié)分割
3.3 分割實(shí)驗(yàn)
3.3.1 投影分割實(shí)驗(yàn)結(jié)果
3.3.2 連通域分割實(shí)驗(yàn)結(jié)果
3.4 本章小結(jié)
第4章 基于卷積神經(jīng)網(wǎng)絡(luò)的藏文烏金印刷體識(shí)別技術(shù)
4.1 卷積神經(jīng)網(wǎng)絡(luò)模型簡(jiǎn)介
4.2 數(shù)據(jù)集
4.3 實(shí)驗(yàn)結(jié)果及分析
4.3.1 藏文字丁識(shí)別實(shí)驗(yàn)結(jié)果及分析
4.3.2 藏文音節(jié)識(shí)別實(shí)驗(yàn)結(jié)果及分析
4.3.3 卷積神經(jīng)網(wǎng)絡(luò)模型的調(diào)參技術(shù)
4.4 本章小結(jié)
第5章 系統(tǒng)實(shí)現(xiàn)及分析
5.1 系統(tǒng)模塊設(shè)計(jì)
5.1.1 預(yù)處理模塊
5.1.2 分割模塊
5.1.3 識(shí)別模塊
5.2 藏文烏金印刷體識(shí)別系統(tǒng)實(shí)現(xiàn)
5.3 實(shí)驗(yàn)及結(jié)果分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
個(gè)人簡(jiǎn)歷
本文編號(hào):3766627
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3766627.html
最近更新
教材專著