天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的朝鮮古籍中文種辨識(shí)方法的研究

發(fā)布時(shí)間:2020-07-25 21:46
【摘要】:十五世紀(jì)后的朝鮮古籍中不僅包含朝鮮文字,還包含漢字、滿文、蒙古文等文字,且排版多采用多文種混排形式。朝鮮語古籍這種多文種混排的特點(diǎn)為古籍圖像的字符識(shí)別和切分帶來了困難,影響了朝鮮語古籍的數(shù)字化進(jìn)程。直接識(shí)別多文種文字圖像會(huì)增加字符識(shí)別算法的復(fù)雜度、降低識(shí)別效率和準(zhǔn)確率,所以多文種辨識(shí)是古籍全文文本數(shù)字化的前提和基礎(chǔ)。另外,大量研究證明,對(duì)于文本圖像很難找到一種普適性的版面分析和處理算法。所以,多文種混排古籍圖像的字符切分仍是文本切分領(lǐng)域未解決的問題之一,具有一定的研究意義和現(xiàn)實(shí)應(yīng)用價(jià)值。為了更好地推進(jìn)朝鮮語古籍?dāng)?shù)字化進(jìn)程,本文在研究古籍圖像文種辨識(shí)方法的過程中針對(duì)朝鮮語古籍多文種混排,字體大小不一,字間距變化大,粘連情況復(fù)雜的特點(diǎn),研究并提出了適用于這類特點(diǎn)的古籍文字切分方法。首先,提出了一種連通域規(guī)則和投影法結(jié)合的古籍圖像列切分算法。該算法不僅能夠去除古籍中存在的分隔線,還可對(duì)粘連列進(jìn)行切分。有效地解決了朝鮮語古籍中間隔線存在間斷、傾斜或者列之間存在粘連等問題。其次,提出一種基于連通域規(guī)則的多步字切分算法,對(duì)古籍列圖像中的文字先進(jìn)行粗切分再進(jìn)行細(xì)切分。這種多步字切分算法對(duì)多文種混排,字符大小不一,字符橫向、縱向混合排版的古籍圖像切分效果良好。針對(duì)粘連字符個(gè)數(shù)未知,粘連方向未知的粘連字符圖像,本文還提出一種k-means改進(jìn)的遞歸滴水粘連字切分算法,實(shí)現(xiàn)了復(fù)雜粘連文字圖像的準(zhǔn)確切分。然后,利用切分出的文字圖像建立了相似文種古籍文本圖像庫。最后,本文對(duì)相似文種古籍文本圖像庫中的文字圖像進(jìn)行了字符級(jí)別的文種辨識(shí)研究,利用深度學(xué)習(xí)中的Inception-v4卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)了的高準(zhǔn)確率文種分類,解決了傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)朝、漢相似文種分類錯(cuò)誤率高的問題,為進(jìn)一步研究朝漢字符識(shí)別算法提供了準(zhǔn)確可靠的數(shù)據(jù)樣本集。實(shí)驗(yàn)結(jié)果表明,本文研究的朝鮮語古籍列切分算法準(zhǔn)確率為97.69%,字符切分算法準(zhǔn)確率為87.79%,字符級(jí)古籍圖像的文種辨識(shí)準(zhǔn)確率為99.40%。證明本文提出的古籍圖像列切分算法和字切分算法能夠有效地完成具有多文種且排版復(fù)雜的古籍圖像的切分工作。同時(shí),本文研究的利用卷積神經(jīng)網(wǎng)絡(luò)的文種辨識(shí)方法對(duì)存在大量噪聲的朝、漢相似文種古籍圖像具有很好的辨識(shí)效果。
【學(xué)位授予單位】:延邊大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.41;TP18
【圖文】:

掃描圖,同文,掃描圖,文種


為了得到文種辨識(shí)研究的基礎(chǔ)研究對(duì)象,建立文種辨識(shí)數(shù)據(jù)集,本文設(shè)計(jì)提逡逑出了適用于多文種復(fù)雜排版古籍的文字切分方法用于對(duì)朝鮮語古籍進(jìn)行字符逡逑切分。本文的主要研究?jī)?nèi)容如圖1-2所示,先將朝鮮古籍圖像進(jìn)行字符切分,逡逑然后對(duì)字符切分得到的單字符圖像進(jìn)行文種辨識(shí),得到己知文種圖像,將其逡逑作為光學(xué)字符識(shí)別系統(tǒng)的研究對(duì)象。逡逑一邋7邋—逡逑

示意圖,圖像矩陣,示意圖,像素


2邋1邋2逡逑2逡逑圖2-2邋4鄰域示意圖逡逑Fig.2-2邋Diagram邋of邋4-connected邋boundary逡逑具有D4=l的像素是像素(x,W的4鄰域。p和9之間的棋盤距離D8定義為:逡逑i)8邋=邋max(|x邋-斗邋|少—小邐(2-7)逡逑在這種定義下,距離(Xy)棋盤距離小于或等于2的像素形成了一個(gè)以逡逑為中心的方形如下圖所示:逡逑2邋2邋2邋2邋2逡逑2邋1112逡逑2邋10邋12逡逑2邋1112逡逑2邋2邋2邋2邋2逡逑圖2-3邋8鄰域示意圖逡逑Fig.2-3邋Diagram邋of邋8-connected邋boundary逡逑具有Z)8=l的像素是像素的8鄰域。假設(shè)像素點(diǎn)p和g的坐標(biāo)分別為逡逑(X,>0和(5^),從到^的通路是一組特定的像素序列,通路的坐標(biāo)序列為:逡逑(2-8)逡逑—12邋—逡逑

關(guān)系圖,連通域,關(guān)系圖,文字


逡逑兩連通域之間主要有圖2-5所示的幾種關(guān)系,包括相離、包含、交叉,其逡逑中相離關(guān)系又可以根據(jù)連通域位置關(guān)系的不同分為多種情況,比如上下相離,逡逑左右相離等,可根據(jù)文字連通域之間的關(guān)系對(duì)其進(jìn)行切分。逡逑□邐邋邐邋邐邋邐邋邐逡逑□逡逑□邋□J邐□逡逑邐邋邐□邋□邋邐逡逑□邋□逡逑圖2-5連通域關(guān)系圖逡逑Fig.2-5邋Relation邋diagram邋of邋connected邋boundary逡逑2.2.4投影切分方法逡逑在文字圖像中經(jīng)常使用投影法對(duì)文字進(jìn)行行切分,如果文字豎向書寫,逡逑可使用水平投影切分法,如果文字橫向書寫,可使用垂直投影切分法[67】。垂逡逑直投影就是將圖像的中每一個(gè)像素按每列求和。垂直投影后,存在文字的部逡逑分投影值大,文字之間的間隔在理想情況下是沒有像素的,因此投影值為0。逡逑將投影值為0的點(diǎn)作為切分點(diǎn)對(duì)圖像進(jìn)行切分即能完成文字的列切分。但一逡逑般文字之間由于受到噪聲影響,會(huì)存在一定像素,因此投影值不為0,所以投逡逑影法需要一定的改進(jìn)才能更好地完成文字列切分工作。常用的改進(jìn)方法為使逡逑用閾值的投影法。假設(shè)將一幅長(zhǎng)為width寬為height的文字圖像(白底黑字)進(jìn)逡逑行二值化

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 童莉;周林;平西建;徐森;;基于高斯衍生濾波器組的文種識(shí)別算法[J];數(shù)據(jù)采集與處理;2014年05期

2 張娜;陳露軍;王緒本;;基于水平垂直投影的考古文字修復(fù)識(shí)別方法[J];科技通報(bào);2014年06期

3 孫陽光;蔡志華;;一種基于局部自適應(yīng)的女書字符圖像分割算法[J];微電子學(xué)與計(jì)算機(jī);2014年03期

4 金t熻

本文編號(hào):2770411


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2770411.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7f207***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com