自然場(chǎng)景圖像中的文本檢測(cè)與識(shí)別技術(shù)研究
發(fā)布時(shí)間:2021-04-20 05:36
自然場(chǎng)景圖像中的文本含有豐富而準(zhǔn)確的高層語義信息,這些語義信息對(duì)于盲人障礙導(dǎo)航系統(tǒng)、智能城市交通管理系統(tǒng)、汽車的無人駕駛系統(tǒng)、即時(shí)翻譯系統(tǒng)都具有指導(dǎo)意義。因此,對(duì)自然場(chǎng)景圖像中文本進(jìn)行定位和識(shí)別具有極大的研究?jī)r(jià)值。本文針對(duì)自然場(chǎng)景下的文本定位與識(shí)別進(jìn)行了深入研究,具體的工作如下:1.傳統(tǒng)MSER算法對(duì)光照敏感且在單一的灰度通道上進(jìn)行文本候選區(qū)域提取時(shí)會(huì)出現(xiàn)文本漏檢情況。針對(duì)此問題,本文提出了一種基于多通道光照均衡化的MSER算法。首先,分別在R、G、B通道下對(duì)圖片做光照均衡化處理;然后,在對(duì)應(yīng)通道下用MSER檢測(cè)算子提取文本字符的MSER區(qū)域;最后,合并每個(gè)通道的MSER區(qū)域作為字符候選區(qū)域。經(jīng)過實(shí)驗(yàn)驗(yàn)證,改進(jìn)后的算法針對(duì)光照不均勻或不同復(fù)雜背景上的圖片,都能檢測(cè)到相對(duì)完整的字符區(qū)域,提高了算法的召回率。2.傳統(tǒng)MSER算法對(duì)于復(fù)雜背景的場(chǎng)景文本檢測(cè)時(shí)會(huì)出現(xiàn)誤檢情況。針對(duì)此問題,本文提出一種基于多特征融合的偽字符區(qū)域過濾算法。首先,對(duì)字符候選區(qū)域分別提取HOG特征、LBP特征、CNN特征;然后,將這三種特征進(jìn)行串形融合;最后,利用SVM訓(xùn)練一個(gè)字符判別器來過濾偽字符區(qū)域。經(jīng)實(shí)驗(yàn)驗(yàn)證,此...
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 課題研究的背景與意義
1.2 相關(guān)領(lǐng)域的國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本檢測(cè)和識(shí)別技術(shù)面臨挑戰(zhàn)
1.2.2 場(chǎng)景文本定位研究現(xiàn)狀
1.2.3 場(chǎng)景文本識(shí)別研究現(xiàn)狀
1.3 本文的主要研究?jī)?nèi)容和論文安排
2 相關(guān)理論介紹
2.1 MSER原理介紹
2.2 卷積神經(jīng)網(wǎng)絡(luò)介紹
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)介紹
2.4 數(shù)據(jù)庫(kù)介紹
2.4.1 ICDAR2013 數(shù)據(jù)集
2.4.2 MJSynth數(shù)據(jù)集
2.5 本章小結(jié)
3 基于MSER與多特征融合的場(chǎng)景文本定位
3.1 文本定位步驟
3.2 提取字符候選區(qū)域
3.3 偽字符區(qū)域過濾
3.3.1 候選區(qū)域預(yù)處理
3.3.2 HOG特征提取
3.3.3 LBP特征提取
3.3.4 CNN特征提取
3.3.5 基于SVM的偽字符區(qū)域過濾
3.4 文本行生成
3.5 實(shí)驗(yàn)結(jié)果與分析
3.5.1 文本定位算法衡量標(biāo)準(zhǔn)
3.5.2 實(shí)驗(yàn)結(jié)果分析
3.6 本章小結(jié)
4 基于滑動(dòng)卷積字符模型與LSTM的場(chǎng)景文本識(shí)別
4.1 滑動(dòng)卷積字符模型
4.2 基于滑動(dòng)卷積字符模型與LSTM的場(chǎng)景文本識(shí)別
4.2.1 預(yù)處理
4.2.2 基于CNN序列特征提取
4.2.3 基于LSTM上下文特征提取
4.2.4 基于CTC轉(zhuǎn)錄
4.2.5 模型訓(xùn)練
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 文本識(shí)別結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)
4.3.2 結(jié)果分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間主要研究成果
本文編號(hào):3149078
【文章來源】:西安理工大學(xué)陜西省
【文章頁數(shù)】:62 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 課題研究的背景與意義
1.2 相關(guān)領(lǐng)域的國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 文本檢測(cè)和識(shí)別技術(shù)面臨挑戰(zhàn)
1.2.2 場(chǎng)景文本定位研究現(xiàn)狀
1.2.3 場(chǎng)景文本識(shí)別研究現(xiàn)狀
1.3 本文的主要研究?jī)?nèi)容和論文安排
2 相關(guān)理論介紹
2.1 MSER原理介紹
2.2 卷積神經(jīng)網(wǎng)絡(luò)介紹
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)介紹
2.4 數(shù)據(jù)庫(kù)介紹
2.4.1 ICDAR2013 數(shù)據(jù)集
2.4.2 MJSynth數(shù)據(jù)集
2.5 本章小結(jié)
3 基于MSER與多特征融合的場(chǎng)景文本定位
3.1 文本定位步驟
3.2 提取字符候選區(qū)域
3.3 偽字符區(qū)域過濾
3.3.1 候選區(qū)域預(yù)處理
3.3.2 HOG特征提取
3.3.3 LBP特征提取
3.3.4 CNN特征提取
3.3.5 基于SVM的偽字符區(qū)域過濾
3.4 文本行生成
3.5 實(shí)驗(yàn)結(jié)果與分析
3.5.1 文本定位算法衡量標(biāo)準(zhǔn)
3.5.2 實(shí)驗(yàn)結(jié)果分析
3.6 本章小結(jié)
4 基于滑動(dòng)卷積字符模型與LSTM的場(chǎng)景文本識(shí)別
4.1 滑動(dòng)卷積字符模型
4.2 基于滑動(dòng)卷積字符模型與LSTM的場(chǎng)景文本識(shí)別
4.2.1 預(yù)處理
4.2.2 基于CNN序列特征提取
4.2.3 基于LSTM上下文特征提取
4.2.4 基于CTC轉(zhuǎn)錄
4.2.5 模型訓(xùn)練
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 文本識(shí)別結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)
4.3.2 結(jié)果分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻(xiàn)
攻讀學(xué)位期間主要研究成果
本文編號(hào):3149078
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3149078.html
最近更新
教材專著