基于深度學(xué)習(xí)的自然場景中文本檢測方法研究
發(fā)布時間:2021-09-24 11:42
自然場景中的文字信息具有明確的語義,有助于對自然場景內(nèi)容的理解和分析。近幾年,自然場景中的文本檢測和識別作為計算機視覺領(lǐng)域中的重要研究方向,引起了國內(nèi)外學(xué)者和研究機構(gòu)的廣泛關(guān)注,其成果可以廣泛應(yīng)用于場景分類、機動車自動駕駛、機器人視覺等領(lǐng)域。其中,自然場景中的文本區(qū)域檢測和定位的結(jié)果會直接影響下一步文字識別的準確率,F(xiàn)有的文本檢測技術(shù)大多都是根據(jù)文字自身結(jié)構(gòu)特點進行人工的特征提取,然后再結(jié)合機器學(xué)習(xí)的方法來檢測文本區(qū)域。由于自然場景非常復(fù)雜,而且自然場景中的文字具有多樣性,因此,這種人工特征通常只適用于特定條件下的場景,整體的檢測準確率較低。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展和成熟,很多學(xué)者和研究機構(gòu)設(shè)計了不同的文本檢測網(wǎng)絡(luò)模型來實現(xiàn)端到端的文本定位。與前面的傳統(tǒng)方法相比,檢測性能有了大幅提升,但是特征學(xué)習(xí)階段較耗時。因此,本文深入研究了自然場景中文本的傳統(tǒng)特征及深度網(wǎng)絡(luò)特征的提取方法,將傳統(tǒng)特征與深度網(wǎng)絡(luò)特征融合,用傳統(tǒng)特征去指導(dǎo)深度網(wǎng)絡(luò)特征的提取,以提高深度網(wǎng)絡(luò)提取特征的速度。本學(xué)位論文的主要研究內(nèi)容如下:首先,根據(jù)帶有復(fù)雜背景的實際自然場景圖像中文本所具有的多語言、多方向、多尺度、多形態(tài)的特...
【文章來源】:延邊大學(xué)吉林省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?MSER區(qū)域提取示意圖??.-
?j??Ra??圖2-1?MSER區(qū)域提取示意圖??Fig.?2-1?Schematic?map?of?MSER?region?extraction??檢測連通區(qū)域的面積變化快慢方法如式(2-3)所示。??v(/)?=?|Q+a-Q-a|?(2-3)??Q,??其中閾值變化為A(相當于注水過程),2,表示第f?zhèn)連通區(qū)域面積,當??區(qū)域面積變化量與原區(qū)域面積比值為局部最小值時區(qū)域面積最穩(wěn)定。??Step3:在得到的MSER區(qū)域中進行區(qū)域清理,處理掉面積或變化率過大??或過小的區(qū)域。提取的區(qū)域會存在一定的尺度、旋轉(zhuǎn)差異以及扭曲變形等,??然后對不規(guī)則區(qū)域進行橢圓化處理,將其調(diào)整為規(guī)則仿射不變區(qū)域,如圖??2-2。最后可以將橢圓形擬合再歸一化為圓形,然后放大MSER區(qū)域,可以方??便后續(xù)的處理過程[39]。??身??圖2-2橢圓化處理??Fig.?2-2?Ellpticalization??圖像文本字符區(qū)域像素點具有相對統(tǒng)一的亮度且不同于背景區(qū)域,該??屬性與極值區(qū)域相同
圖2-4文本檢測FCN結(jié)構(gòu)??Fig.?2-4?Structure?of?text?detection?FCN??由于文本區(qū)域的文字尺寸變化很大,在祌經(jīng)網(wǎng)絡(luò)中尺寸較大的文字特??征依賴于后期的特征提取階段,而在預(yù)測對小單詞區(qū)域的精確幾何形狀時??需要的是前期階段的低級特征信息。因此在設(shè)計神經(jīng)網(wǎng)絡(luò)模型時為滿足這??些條件,采用了?U-shape[52^、想。??第一部分結(jié)構(gòu)采用PVANet,提取四個階段的特征圖,大小分別為輸??入圖像的?1/32,1/16,1/8?和?1/4。即從?VGG16?中?pooling2-pooling5?的每??一層中分別得到feature?map/。??第二部分借鑒U-net思想進行特征合并,通過反卷積操作調(diào)整特征圖??大小進行連接,計算公式如式(2-24)和(2-25)所示。特征合并過程首先以第??一階段最后生成的特征圖/開始,逐步將/輸入到unpooling層得到與上??一層大小相同的特征圖再連接/+1,然后進入到convl?xl與conv3><3中減少??
【參考文獻】:
期刊論文
[1]多尺度卷積特征融合的SSD目標檢測算法[J]. 陳幻杰,王琦琦,楊國威,韓佳林,尹成娟,陳雋,王以忠. 計算機科學(xué)與探索. 2019(06)
[2]基于全局和局部卷積特征融合的車輛目標檢測[J]. 黃俊潔,陳念年,范勇. 西南科技大學(xué)學(xué)報. 2018(04)
[3]基于特征融合網(wǎng)絡(luò)的自然場景文本檢測[J]. 余崢,王晴晴,呂岳. 計算機系統(tǒng)應(yīng)用. 2018(10)
[4]應(yīng)用MSER和局部二值化的網(wǎng)絡(luò)圖片文本定位[J]. 劉美華,傅彩明,梁開健,周細鳳. 光電子·激光. 2018(06)
[5]基于MSER特征的無人機傾斜影像匹配算法[J]. 韓宇. 礦山測量. 2018(02)
[6]一種基于MSER的仿射不變二進制特征提取算法[J]. 胡漢莉,席志磊. 計算機與數(shù)字工程. 2018(01)
[7]聯(lián)合邊緣增強的MSER自然場景文本檢測[J]. 田清越,高志榮,熊承義,陳少波. 小型微型計算機系統(tǒng). 2017(11)
[8]多方向自然場景文本檢測[J]. 何思楠,郭永金,張利. 計算機應(yīng)用研究. 2018(07)
[9]基于視覺顯著性與邊緣密集度的文本區(qū)域定位[J]. 張鵬,崔榮一. 吉林大學(xué)學(xué)報(信息科學(xué)版). 2017(03)
[10]結(jié)合MSCRs與MSERs的自然場景文本檢測[J]. 易堯華,申春輝,劉菊華,盧利瓊. 中國圖象圖形學(xué)報. 2017 (02)
博士論文
[1]基于視覺注意的駕駛場景顯著性檢測模型研究[D]. 鄧濤.電子科技大學(xué) 2018
[2]復(fù)雜背景圖像的文本信息提取研究[D]. 孫巧榆.華東師范大學(xué) 2012
碩士論文
[1]基于深度學(xué)習(xí)的場景圖像文本檢測技術(shù)[D]. 裴宸平.河南大學(xué) 2018
[2]基于MSER和隨機森林的實時交通標志的檢測和識別[D]. 付文彬.江西理工大學(xué) 2018
[3]基于深度學(xué)習(xí)的自然場景文本檢測算法研究[D]. 王沉燕.杭州電子科技大學(xué) 2018
[4]基于MSER的自然場景文本定位算法研究[D]. 付程琳.西安科技大學(xué) 2017
[5]結(jié)合MSCRs與MSERs的復(fù)雜背景圖像文本檢測方法研究[D]. 申春輝.武漢大學(xué) 2017
[6]復(fù)雜場景下的視覺目標跟蹤研究[D]. 劉行.江南大學(xué) 2017
[7]視頻顯著區(qū)域檢測研究[D]. 田賽.西安電子科技大學(xué) 2015
[8]復(fù)雜目標視覺注意模型研究[D]. 暴林超.華中科技大學(xué) 2011
本文編號:3407694
【文章來源】:延邊大學(xué)吉林省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1?MSER區(qū)域提取示意圖??.-
?j??Ra??圖2-1?MSER區(qū)域提取示意圖??Fig.?2-1?Schematic?map?of?MSER?region?extraction??檢測連通區(qū)域的面積變化快慢方法如式(2-3)所示。??v(/)?=?|Q+a-Q-a|?(2-3)??Q,??其中閾值變化為A(相當于注水過程),2,表示第f?zhèn)連通區(qū)域面積,當??區(qū)域面積變化量與原區(qū)域面積比值為局部最小值時區(qū)域面積最穩(wěn)定。??Step3:在得到的MSER區(qū)域中進行區(qū)域清理,處理掉面積或變化率過大??或過小的區(qū)域。提取的區(qū)域會存在一定的尺度、旋轉(zhuǎn)差異以及扭曲變形等,??然后對不規(guī)則區(qū)域進行橢圓化處理,將其調(diào)整為規(guī)則仿射不變區(qū)域,如圖??2-2。最后可以將橢圓形擬合再歸一化為圓形,然后放大MSER區(qū)域,可以方??便后續(xù)的處理過程[39]。??身??圖2-2橢圓化處理??Fig.?2-2?Ellpticalization??圖像文本字符區(qū)域像素點具有相對統(tǒng)一的亮度且不同于背景區(qū)域,該??屬性與極值區(qū)域相同
圖2-4文本檢測FCN結(jié)構(gòu)??Fig.?2-4?Structure?of?text?detection?FCN??由于文本區(qū)域的文字尺寸變化很大,在祌經(jīng)網(wǎng)絡(luò)中尺寸較大的文字特??征依賴于后期的特征提取階段,而在預(yù)測對小單詞區(qū)域的精確幾何形狀時??需要的是前期階段的低級特征信息。因此在設(shè)計神經(jīng)網(wǎng)絡(luò)模型時為滿足這??些條件,采用了?U-shape[52^、想。??第一部分結(jié)構(gòu)采用PVANet,提取四個階段的特征圖,大小分別為輸??入圖像的?1/32,1/16,1/8?和?1/4。即從?VGG16?中?pooling2-pooling5?的每??一層中分別得到feature?map/。??第二部分借鑒U-net思想進行特征合并,通過反卷積操作調(diào)整特征圖??大小進行連接,計算公式如式(2-24)和(2-25)所示。特征合并過程首先以第??一階段最后生成的特征圖/開始,逐步將/輸入到unpooling層得到與上??一層大小相同的特征圖再連接/+1,然后進入到convl?xl與conv3><3中減少??
【參考文獻】:
期刊論文
[1]多尺度卷積特征融合的SSD目標檢測算法[J]. 陳幻杰,王琦琦,楊國威,韓佳林,尹成娟,陳雋,王以忠. 計算機科學(xué)與探索. 2019(06)
[2]基于全局和局部卷積特征融合的車輛目標檢測[J]. 黃俊潔,陳念年,范勇. 西南科技大學(xué)學(xué)報. 2018(04)
[3]基于特征融合網(wǎng)絡(luò)的自然場景文本檢測[J]. 余崢,王晴晴,呂岳. 計算機系統(tǒng)應(yīng)用. 2018(10)
[4]應(yīng)用MSER和局部二值化的網(wǎng)絡(luò)圖片文本定位[J]. 劉美華,傅彩明,梁開健,周細鳳. 光電子·激光. 2018(06)
[5]基于MSER特征的無人機傾斜影像匹配算法[J]. 韓宇. 礦山測量. 2018(02)
[6]一種基于MSER的仿射不變二進制特征提取算法[J]. 胡漢莉,席志磊. 計算機與數(shù)字工程. 2018(01)
[7]聯(lián)合邊緣增強的MSER自然場景文本檢測[J]. 田清越,高志榮,熊承義,陳少波. 小型微型計算機系統(tǒng). 2017(11)
[8]多方向自然場景文本檢測[J]. 何思楠,郭永金,張利. 計算機應(yīng)用研究. 2018(07)
[9]基于視覺顯著性與邊緣密集度的文本區(qū)域定位[J]. 張鵬,崔榮一. 吉林大學(xué)學(xué)報(信息科學(xué)版). 2017(03)
[10]結(jié)合MSCRs與MSERs的自然場景文本檢測[J]. 易堯華,申春輝,劉菊華,盧利瓊. 中國圖象圖形學(xué)報. 2017 (02)
博士論文
[1]基于視覺注意的駕駛場景顯著性檢測模型研究[D]. 鄧濤.電子科技大學(xué) 2018
[2]復(fù)雜背景圖像的文本信息提取研究[D]. 孫巧榆.華東師范大學(xué) 2012
碩士論文
[1]基于深度學(xué)習(xí)的場景圖像文本檢測技術(shù)[D]. 裴宸平.河南大學(xué) 2018
[2]基于MSER和隨機森林的實時交通標志的檢測和識別[D]. 付文彬.江西理工大學(xué) 2018
[3]基于深度學(xué)習(xí)的自然場景文本檢測算法研究[D]. 王沉燕.杭州電子科技大學(xué) 2018
[4]基于MSER的自然場景文本定位算法研究[D]. 付程琳.西安科技大學(xué) 2017
[5]結(jié)合MSCRs與MSERs的復(fù)雜背景圖像文本檢測方法研究[D]. 申春輝.武漢大學(xué) 2017
[6]復(fù)雜場景下的視覺目標跟蹤研究[D]. 劉行.江南大學(xué) 2017
[7]視頻顯著區(qū)域檢測研究[D]. 田賽.西安電子科技大學(xué) 2015
[8]復(fù)雜目標視覺注意模型研究[D]. 暴林超.華中科技大學(xué) 2011
本文編號:3407694
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3407694.html
最近更新
教材專著