天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于深度學習的自然場景下多方向中文文本識別

發(fā)布時間:2021-06-02 22:13
  圖像中的文本信息能為人們和計算機解讀圖像場景提供重要的幫助,對自然場景下的圖像進行文本識別是當前最熱門的研究領域之一。自然場景下的文本識別一般要經過檢測圖像中的文本區(qū)域和對文本區(qū)域進行文字識別這二個步驟。本文主要研究自然場景下的文本檢測和文本識別算法,最后將檢測和識別連接起來,實現了文本識別的端到端系統(tǒng)。針對自然場景下的圖像文本檢測,本文提出了基于改進Faster RCNN的多方向文本檢測算法。通過在VGG16特征提取網絡中加入SE模塊,提升了網絡性能。對于bounding box的回歸,加入了文本塊矩形的角度信息,可以檢測多方向的文本。針對場景文本的多方向特點,在anchor選取上加入了角度變量生成更多的anchor。最后在公開的標準數據集上對本文提出的檢測算法進行實驗,通過對比一些現有的檢測算法,表明本文的算法有較好的檢測性能。本文還研究了中文文本的識別方法,提出了改進的STN-CRNN方法識別檢測出的文本區(qū)域。STN-CRNN先將文本框圖像進行文本矯正,再送入文本識別網絡進行識別。文本識別網絡對矯正后的文本圖像進行特征提取,編碼生成特征向量序列。然后在解碼器模塊引入注意力機制來對... 

【文章來源】:南昌大學江西省 211工程院校

【文章頁數】:65 頁

【學位級別】:碩士

【部分圖文】:

基于深度學習的自然場景下多方向中文文本識別


原圖及其MSER區(qū)域

二值圖像,梯度,信息,文本


第2章相關理論知識介紹9自然場景下的文本區(qū)域不同于背景區(qū)域,文本區(qū)域一般都有相似的像素值,因此把圖像中的文字區(qū)域可當作最大穩(wěn)定極值區(qū)域。利用文本區(qū)域的這一特性可以從場景圖像中提取出文字候選區(qū)域,采用特定的過濾規(guī)則把非文字區(qū)域部分過濾掉,得到最終的文字區(qū)域。MSER特征雖然在英文文本檢測中能有很好的效果,但由于中文中筆畫分離的字符比較多,這些都是不連通的,因此用MSER檢測方法來檢測中文,就會效果不好。2.1.2筆畫寬度變換筆畫寬度變換(StrokeWidthTransformation,SWT)[30]是由EOfek等人提出的特征。根據在同一行文本中筆畫的寬度大致相同這一特點,找到筆畫寬度類似的區(qū)域就是圖像的文本區(qū)域。SWT提取特征不同于其它特征提取方式,采用對像素組的區(qū)域進行特征提取的方式,對文本區(qū)域采用自上而下的合并方式,而不是通過對單個像素進行特征提齲SWT方法對先驗知識減少了依賴,可將其應用到不同語種的文本檢測任務上。算法用單通道的灰度圖像作為輸入,最終輸出的是二值圖像,該二值圖像包含檢測到的文本區(qū)域。SWT算法的過程展示如圖2.2所示,對圖像中的所有的像素點進行計算梯度方向和Canny邊緣化操作。設定一個矩陣大小等于輸入圖像的維度的二維矩陣I,初始化I中每一個元素為正無窮。然后讀取圖像的每個邊緣點和該點對應的梯度信息,沿著與該梯度方向相反的方向尋找邊緣點,在矩陣I中寫入計算得到的兩點間的距離w,取對應點的初始值和w中的較小值填充進I中對應位置。計算完所有的邊緣點進行矩陣I的更新,得到的就是該圖像的筆畫寬度圖。由于是通過計算得到的筆畫寬度不是完全一致的,要想得到最終的包含文本區(qū)域的圖像,還要合并離散點為連通區(qū)域。圖2.2筆畫、邊緣與梯度信息

流程圖,流程,目標檢測,算法


第2章相關理論知識介紹11率,而one-stage目標檢測算法比two-stage目標檢測算法有更快的檢測速度。二種目標檢測算法最大的區(qū)別是有無生成候選區(qū)域的過程。本節(jié)主要介紹R-CNN系列、YOLO、SSD的目標檢測算法。2.2.1基于R-CNN的目標檢測傳統(tǒng)的檢測算法目前已經有了很多的成果,但是這些目標檢測算法的性能已經到了上限。互聯(lián)網大數據的發(fā)展導致圖像的數據量和標注信息有了井噴式增加,在越來越多的場景上CNN算法體現出了其優(yōu)越性,因此目標檢測的研究重點是以CNN為基矗RossGirshick等[34]在2014年設計并提出了RegionCNN目標檢測算法,緊接著又先后提出了基于RegionCNN的缺點而改進的FastR-CNN和FasterR-CNN算法。2.2.1.1R-CNN在傳統(tǒng)的目標檢測方法中,候選區(qū)域的獲取尤為重要,一般采用滑動窗口的方法來獲取,但滑動窗口存在的缺陷就是不能將圖像的全局特征利用起來,而且容易出現冗余的情況。傳統(tǒng)的物體檢測方法的時間復雜度相對較高。首次將深度學習方法應用到物體檢測上的通用算法框架就是R-CNN,R-CNN不同于傳統(tǒng)的手工設計特征和滑動窗口方式,采用CNN分類和生成候選區(qū)域的方式,這是目標檢測領域的一個階段性的巨大發(fā)展。R-CNN的整體檢測流程如圖2.3所示。圖2.3R-CNN的檢測流程與滑動窗口技術不同,R-CNN在提取候選區(qū)域時選用的是selectivesearch選擇性搜索算法[28]。該算法提取圖像特征時綜合了邊緣、紋理和色彩等信息,在候選窗口較少的情況下,也能得到較高的召回率。不同于長寬比固定的滑動窗口,通過選擇性搜索算法獲取到的候選窗口的大小不統(tǒng)一,這樣有利于各種形狀的

【參考文獻】:
期刊論文
[1]自然場景圖像中的文本檢測綜述[J]. 王潤民,桑農,丁丁,陳杰,葉齊祥,高常鑫,劉麗.  自動化學報. 2018(12)
[2]基于深度學習的場景文字檢測與識別[J]. 白翔,楊明錕,石葆光,廖明輝.  中國科學:信息科學. 2018(05)
[3]自然場景圖像中的中文文本檢測算法[J]. 繆裕青,劉水清,張萬楨,歐威健,蔡國永.  計算機工程與設計. 2018(03)
[4]基于筆畫角度變換和寬度特征的自然場景文本檢測[J]. 陳碩,鄭建彬,詹恩奇,汪陽.  計算機應用研究. 2019(04)
[5]視頻和圖像文本提取方法綜述[J]. 蔣夢迪,程江華,陳明輝,庫錫樹.  計算機科學. 2017(S2)
[6]自然場景圖像中的文字檢測綜述[J]. 楊飛.  電子設計工程. 2016(24)
[7]自然場景下基于連通域檢測的文字識別算法研究[J]. 劉新瀚,錢侃,王宇飛,朱向霄,孫知信.  計算機技術與發(fā)展. 2015(05)
[8]深度學習研究綜述[J]. 尹寶才,王文通,王立春.  北京工業(yè)大學學報. 2015(01)

碩士論文
[1]自然場景下漢字定位與識別方法研究[D]. 柴偉佳.東北師范大學 2018
[2]基于深度學習的自然場景文字識別[D]. 黃攀.浙江大學 2016
[3]自然場景中路牌漢字識別技術研究[D]. 孫彩虹.南京理工大學 2014



本文編號:3210847

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3210847.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶2a914***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com