自然場景下的文本檢測與識別方法研究
發(fā)布時間:2021-04-07 04:30
作為計算機(jī)視覺應(yīng)用的重要分支,自然場景中的文本閱讀一直以來都是基于深度學(xué)習(xí)的計算機(jī)視覺領(lǐng)域內(nèi)最受歡迎的熱門研究領(lǐng)域之一,在最近十年被廣泛的進(jìn)行了研究。由許多現(xiàn)實世界的應(yīng)用所驅(qū)動,對于助盲系統(tǒng)、智慧交通系統(tǒng)、無人駕駛導(dǎo)航系統(tǒng)等方向均具有實際應(yīng)用的現(xiàn)實意義由于場景文本的多樣性及背景的復(fù)雜性,場景文本檢測識別目前面臨著很多挑戰(zhàn)。在自然場景中閱讀文本分為文本檢測和文本識別兩個過程。其與光學(xué)字符識別(OCR)并不完全相似,在檢測難度、識別精度需求上還存在很大的差別。尤其是在無人駕駛導(dǎo)航的路標(biāo)信息提取中,對識別精準(zhǔn)度要求極高,OCR技術(shù)難以實現(xiàn)高準(zhǔn)度識別。目前的場景文本檢測及識別方法多為基于深度學(xué)習(xí)的方法,在面對復(fù)雜場景時深度學(xué)習(xí)具有傳統(tǒng)方法不可比擬的泛化能力。本文對自然場景的文本檢測與識別進(jìn)行了深入研究,提出了基于YOLOv3的多向文本檢測算法,以及基于CRNN的不定長字符識別方法。本文具體研究內(nèi)容如下:(1)本文提出了一種場景文本圖像預(yù)處理方法,同時提出了一個長文本子數(shù)據(jù)集用于長文本檢測,以及一個大規(guī)模合成中文字符數(shù)據(jù)集用于中文字符識別。本文使用了 PCA對圖片進(jìn)行了降維,并提出了改進(jìn)的中值濾...
【文章來源】:東北電力大學(xué)吉林省
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?申備網(wǎng)備訓(xùn)Suig…??由于卷積計算過程在二維空間內(nèi)完成,包括計算過程的參數(shù)、輸入輸出數(shù)據(jù)和計算關(guān)??
?(2-3)??其中*表示卷積。??假設(shè)是二維的卷積,則表達(dá)式為:??^?y)?=?(X?x?^)?(/,?y)?=?(/?-m,j-n)w(m,?n)?(2-4)??m?n??在這個公式中,X為輸入,W為卷積核。若輸入的X是一個二維矩陣,則w也是一??個二維矩陣。??根據(jù)上面的數(shù)學(xué)卷積過程來對CNN的卷積過程進(jìn)行理解。圖像卷積主要使用卷積層??的卷積核(濾波器)在圖像上按從左至右從上至下的順序進(jìn)行滑動,卷積核參數(shù)與對應(yīng)圖片??的像素值進(jìn)行相乘運算后再相加。卷積過程示意圖如圖2-3所示,輸入數(shù)據(jù)是二維3X3矩??陣,其9個值為圖像像素值矩陣,采用2X2的卷積核對圖像進(jìn)行計算。右側(cè)圖為最終輸出??的卷積后的由4個像素構(gòu)成的特征圖。最終卷積值為aw?+?6x?+辦+?ez、+?+?+聲、??i/vv?+?ex?+?gy?+?Zzz、£w+_y5c?+?/^?+?/z。實際運算中,為了避免丟失邊緣信息,會在外層補上一??圈0后再進(jìn)行卷積,此過程稱為padding。同時,為了實現(xiàn)不同的網(wǎng)絡(luò)功能,卷積的步長可??以為任意值,通常使用步長為1進(jìn)行特征提取,使用步長為2進(jìn)行下采樣。??Da?9^?c?????Ed?|e?f?=>?mmj^L????dw+ex.?ew+fx+??gy+h??hy+iz??g?h?i?L.--」??圖2-3卷積計算過程??2.?2.?2池化層??與卷積層的復(fù)雜度相比,池化層要簡單得多。池化的主要目的是進(jìn)一步減少卷積后參??數(shù)的數(shù)據(jù)量,即降維。具體過程如下:對于mxm矩陣數(shù)據(jù),使用nxn矩陣用于池化過濾,??從而可以獲得矩陣,從而可以減少輸入矩陣的維數(shù)。??n?n??若要將
第2章相關(guān)理論介紹??4?〇??Mil?q?剛??6?0?6?5?4?4??7?3?14??a)平均池化??T7^??■V??j?: ̄—■-■——i?????6?0?6?5?7?6??7?3?14??b)最大池化??圖2-4池化過程??2.?2.?3全連接層??閣像數(shù)據(jù)經(jīng)過了卷積操作后提取到了有效的特征向量,再利用池化過濾器對特征提取??到的特征向量數(shù)據(jù)進(jìn)行降維,以減少計算的參數(shù)暈。卷積和池化后由全連接層對特征向量??進(jìn)行融合,全連接的結(jié)構(gòu)示意閣如閣2-5所示,前一層的所有神經(jīng)元均與后??層的所有祌??經(jīng)元進(jìn)行連接,運算后得到輸出結(jié)果的特征表達(dá),輸出的最后一層使用激活函數(shù)實現(xiàn)對于??文本的分類。??_??圖2-5全連接層結(jié)構(gòu)示意圖??-9?-??
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字識別[J]. 代賀,陳洪密,李志申. 貴州師范大學(xué)學(xué)報(自然科學(xué)版). 2017(05)
[2]利用SVM的聚類算法在時間序列信號識別中的應(yīng)用[J]. 汪永濤. 微電子學(xué)與計算機(jī). 2012(03)
[3]基于結(jié)構(gòu)特征和灰度特征的車牌字符識別方法[J]. 羅輝武,唐遠(yuǎn)炎,王翊,藍(lán)利君. 計算機(jī)科學(xué). 2011(11)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識別研究[J]. 趙志宏,楊紹普,馬增強(qiáng). 系統(tǒng)仿真學(xué)報. 2010(03)
[5]基于小波的車牌漢字特征提取[J]. 潘翔,葉修梓,張三元. 中國圖象圖形學(xué)報. 2003(10)
[6]基于筆劃和筆順的漢字識別算法[J]. 陳治平,林亞平,李軍義. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2000(04)
碩士論文
[1]自然場景圖像中的文本定位和提取算法研究[D]. 熊玲.東南大學(xué) 2016
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫漢字識別系統(tǒng)[D]. 劉欣.哈爾濱工業(yè)大學(xué) 2015
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 陳先昌.浙江工商大學(xué) 2014
[4]基于圖像匹配的漢字識別系統(tǒng)研究與實現(xiàn)[D]. 武桐.上海交通大學(xué) 2010
[5]基于整體紋理分析的漢字字體識別[D]. 許春曄.河北大學(xué) 2001
本文編號:3122803
【文章來源】:東北電力大學(xué)吉林省
【文章頁數(shù)】:66 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?申備網(wǎng)備訓(xùn)Suig…??由于卷積計算過程在二維空間內(nèi)完成,包括計算過程的參數(shù)、輸入輸出數(shù)據(jù)和計算關(guān)??
?(2-3)??其中*表示卷積。??假設(shè)是二維的卷積,則表達(dá)式為:??^?y)?=?(X?x?^)?(/,?y)?=?(/?-m,j-n)w(m,?n)?(2-4)??m?n??在這個公式中,X為輸入,W為卷積核。若輸入的X是一個二維矩陣,則w也是一??個二維矩陣。??根據(jù)上面的數(shù)學(xué)卷積過程來對CNN的卷積過程進(jìn)行理解。圖像卷積主要使用卷積層??的卷積核(濾波器)在圖像上按從左至右從上至下的順序進(jìn)行滑動,卷積核參數(shù)與對應(yīng)圖片??的像素值進(jìn)行相乘運算后再相加。卷積過程示意圖如圖2-3所示,輸入數(shù)據(jù)是二維3X3矩??陣,其9個值為圖像像素值矩陣,采用2X2的卷積核對圖像進(jìn)行計算。右側(cè)圖為最終輸出??的卷積后的由4個像素構(gòu)成的特征圖。最終卷積值為aw?+?6x?+辦+?ez、+?+?+聲、??i/vv?+?ex?+?gy?+?Zzz、£w+_y5c?+?/^?+?/z。實際運算中,為了避免丟失邊緣信息,會在外層補上一??圈0后再進(jìn)行卷積,此過程稱為padding。同時,為了實現(xiàn)不同的網(wǎng)絡(luò)功能,卷積的步長可??以為任意值,通常使用步長為1進(jìn)行特征提取,使用步長為2進(jìn)行下采樣。??Da?9^?c?????Ed?|e?f?=>?mmj^L????dw+ex.?ew+fx+??gy+h??hy+iz??g?h?i?L.--」??圖2-3卷積計算過程??2.?2.?2池化層??與卷積層的復(fù)雜度相比,池化層要簡單得多。池化的主要目的是進(jìn)一步減少卷積后參??數(shù)的數(shù)據(jù)量,即降維。具體過程如下:對于mxm矩陣數(shù)據(jù),使用nxn矩陣用于池化過濾,??從而可以獲得矩陣,從而可以減少輸入矩陣的維數(shù)。??n?n??若要將
第2章相關(guān)理論介紹??4?〇??Mil?q?剛??6?0?6?5?4?4??7?3?14??a)平均池化??T7^??■V??j?: ̄—■-■——i?????6?0?6?5?7?6??7?3?14??b)最大池化??圖2-4池化過程??2.?2.?3全連接層??閣像數(shù)據(jù)經(jīng)過了卷積操作后提取到了有效的特征向量,再利用池化過濾器對特征提取??到的特征向量數(shù)據(jù)進(jìn)行降維,以減少計算的參數(shù)暈。卷積和池化后由全連接層對特征向量??進(jìn)行融合,全連接的結(jié)構(gòu)示意閣如閣2-5所示,前一層的所有神經(jīng)元均與后??層的所有祌??經(jīng)元進(jìn)行連接,運算后得到輸出結(jié)果的特征表達(dá),輸出的最后一層使用激活函數(shù)實現(xiàn)對于??文本的分類。??_??圖2-5全連接層結(jié)構(gòu)示意圖??-9?-??
【參考文獻(xiàn)】:
期刊論文
[1]基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字識別[J]. 代賀,陳洪密,李志申. 貴州師范大學(xué)學(xué)報(自然科學(xué)版). 2017(05)
[2]利用SVM的聚類算法在時間序列信號識別中的應(yīng)用[J]. 汪永濤. 微電子學(xué)與計算機(jī). 2012(03)
[3]基于結(jié)構(gòu)特征和灰度特征的車牌字符識別方法[J]. 羅輝武,唐遠(yuǎn)炎,王翊,藍(lán)利君. 計算機(jī)科學(xué). 2011(11)
[4]基于卷積神經(jīng)網(wǎng)絡(luò)LeNet-5的車牌字符識別研究[J]. 趙志宏,楊紹普,馬增強(qiáng). 系統(tǒng)仿真學(xué)報. 2010(03)
[5]基于小波的車牌漢字特征提取[J]. 潘翔,葉修梓,張三元. 中國圖象圖形學(xué)報. 2003(10)
[6]基于筆劃和筆順的漢字識別算法[J]. 陳治平,林亞平,李軍義. 湖南大學(xué)學(xué)報(自然科學(xué)版). 2000(04)
碩士論文
[1]自然場景圖像中的文本定位和提取算法研究[D]. 熊玲.東南大學(xué) 2016
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫漢字識別系統(tǒng)[D]. 劉欣.哈爾濱工業(yè)大學(xué) 2015
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與應(yīng)用研究[D]. 陳先昌.浙江工商大學(xué) 2014
[4]基于圖像匹配的漢字識別系統(tǒng)研究與實現(xiàn)[D]. 武桐.上海交通大學(xué) 2010
[5]基于整體紋理分析的漢字字體識別[D]. 許春曄.河北大學(xué) 2001
本文編號:3122803
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3122803.html
最近更新
教材專著