基于單元組合的場景圖片文字檢測
發(fā)布時間:2021-04-20 14:06
近年來,研究者提出了很多場景文字檢測方法,在多方向場景文字檢測數(shù)據(jù)集上取得了很不錯的結(jié)果。然而,這些方法很難檢測廣泛存在于商品圖片中的曲形密集文本。為了更好地檢測商品圖片中的文字,在本碩士學(xué)位論文中,我們提出了一種區(qū)域?qū)嵗舾械幕趩卧M合的場景圖片文字檢測框架(ICG)。這是一個靈活的自下而上的文本檢測框架,能夠檢測任意形狀的密集文字。為了解決大多數(shù)自下而上的方法中存在的很難區(qū)分空間距離近的文本區(qū)域的問題,我們提出了文字單元之間單元排斥關(guān)系和吸引關(guān)系的表征。在網(wǎng)絡(luò)訓(xùn)練的過程中引入這一可學(xué)習(xí)的文字單元關(guān)系的表征能夠讓網(wǎng)絡(luò)更加關(guān)注空間距離近的文本區(qū)域。另外,我們還提出了一種區(qū)域?qū)嵗舾械膿p失函數(shù),能夠在網(wǎng)絡(luò)訓(xùn)練過程充分利用圖片中的上下文信息。最后基于學(xué)到的文字單元之間單元的吸引關(guān)系和排斥關(guān)系,我們利用一種改進(jìn)的最小生成樹算法得到所有的文字單元組,最后根據(jù)這些文字單元組提取文字區(qū)域的外接檢測框。為了證明ICG在檢測場景圖片中的文字特別是商品圖片中的文字的有效性,我們引入了一個由商品圖片組成的包含大量任意形狀密集文本的文字檢測數(shù)據(jù)集(DAST1500)。實(shí)驗(yàn)證明,ICG在任意形狀商品密集行數(shù)...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景和意義
1.2 研究的內(nèi)容
1.3 研究的創(chuàng)新點(diǎn)
1.4 論文的結(jié)構(gòu)安排
2 國內(nèi)外研究現(xiàn)狀
2.1 傳統(tǒng)的場景文字檢測
2.2 基于深度學(xué)習(xí)的場景文字檢測
2.2.1 自上而下的場景文字檢測
2.2.2 自下而上的場景文字檢測
2.3 本文提出的方法和其他方法的對比
3 文字檢測框架
3.1 方法概覽
3.2 文字區(qū)域?qū)嵗舾械膯卧M合的文字檢測框架
3.2.1 基于單元之間吸引排斥關(guān)系的單元組合
3.2.2 基于文字區(qū)域?qū)嵗舾械膿p失函數(shù)的網(wǎng)絡(luò)訓(xùn)練
3.3 深度神經(jīng)網(wǎng)絡(luò)框架
3.3.1 文字單元的提取
3.3.2 單元之間吸引關(guān)系和排斥關(guān)系的估計(jì)
3.4 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練標(biāo)簽的生成
3.5 深度神經(jīng)網(wǎng)絡(luò)優(yōu)化
3.5.1 損失函數(shù)
3.5.2 在線困難負(fù)樣本挖掘
3.6 深度神經(jīng)網(wǎng)絡(luò)推理與后處理
3.6.1 基于改動版最小生成樹算法的文字單元組合
3.6.2 文字區(qū)域外接檢測框提取
3.6.3 文字區(qū)域檢測框的非極大值抑制(polygon NMS)
4 實(shí)驗(yàn)驗(yàn)證
4.1 數(shù)據(jù)集和評測方法介紹
4.1.1 DAST1500數(shù)據(jù)集
4.1.2 MTWI網(wǎng)絡(luò)圖片數(shù)據(jù)集
4.1.3 SynthText合成數(shù)據(jù)集
4.1.4 ICDAR15數(shù)據(jù)集
4.1.5 SCUT-CTW1500數(shù)據(jù)集
4.1.6 TotalText數(shù)據(jù)集
4.1.7 評測方法
4.2 實(shí)驗(yàn)細(xì)節(jié)
4.3 DAST1500上的實(shí)驗(yàn)
4.3.1 對比實(shí)驗(yàn)
4.3.2 和其他方法的對比
4.4 MTWI上的實(shí)驗(yàn)
4.5 其他數(shù)據(jù)集上實(shí)驗(yàn)
4.5.1 多方向文字檢測數(shù)據(jù)集ICDAR15
4.5.2 曲形文字檢測數(shù)據(jù)集SCUT-CTW
4.5.3 曲形文字檢測數(shù)據(jù)集TotalText
4.6 效率分析
4.7 方法的局限性
5 結(jié)論與展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位論文期間發(fā)表的論文
本文編號:3149823
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景和意義
1.2 研究的內(nèi)容
1.3 研究的創(chuàng)新點(diǎn)
1.4 論文的結(jié)構(gòu)安排
2 國內(nèi)外研究現(xiàn)狀
2.1 傳統(tǒng)的場景文字檢測
2.2 基于深度學(xué)習(xí)的場景文字檢測
2.2.1 自上而下的場景文字檢測
2.2.2 自下而上的場景文字檢測
2.3 本文提出的方法和其他方法的對比
3 文字檢測框架
3.1 方法概覽
3.2 文字區(qū)域?qū)嵗舾械膯卧M合的文字檢測框架
3.2.1 基于單元之間吸引排斥關(guān)系的單元組合
3.2.2 基于文字區(qū)域?qū)嵗舾械膿p失函數(shù)的網(wǎng)絡(luò)訓(xùn)練
3.3 深度神經(jīng)網(wǎng)絡(luò)框架
3.3.1 文字單元的提取
3.3.2 單元之間吸引關(guān)系和排斥關(guān)系的估計(jì)
3.4 深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練標(biāo)簽的生成
3.5 深度神經(jīng)網(wǎng)絡(luò)優(yōu)化
3.5.1 損失函數(shù)
3.5.2 在線困難負(fù)樣本挖掘
3.6 深度神經(jīng)網(wǎng)絡(luò)推理與后處理
3.6.1 基于改動版最小生成樹算法的文字單元組合
3.6.2 文字區(qū)域外接檢測框提取
3.6.3 文字區(qū)域檢測框的非極大值抑制(polygon NMS)
4 實(shí)驗(yàn)驗(yàn)證
4.1 數(shù)據(jù)集和評測方法介紹
4.1.1 DAST1500數(shù)據(jù)集
4.1.2 MTWI網(wǎng)絡(luò)圖片數(shù)據(jù)集
4.1.3 SynthText合成數(shù)據(jù)集
4.1.4 ICDAR15數(shù)據(jù)集
4.1.5 SCUT-CTW1500數(shù)據(jù)集
4.1.6 TotalText數(shù)據(jù)集
4.1.7 評測方法
4.2 實(shí)驗(yàn)細(xì)節(jié)
4.3 DAST1500上的實(shí)驗(yàn)
4.3.1 對比實(shí)驗(yàn)
4.3.2 和其他方法的對比
4.4 MTWI上的實(shí)驗(yàn)
4.5 其他數(shù)據(jù)集上實(shí)驗(yàn)
4.5.1 多方向文字檢測數(shù)據(jù)集ICDAR15
4.5.2 曲形文字檢測數(shù)據(jù)集SCUT-CTW
4.5.3 曲形文字檢測數(shù)據(jù)集TotalText
4.6 效率分析
4.7 方法的局限性
5 結(jié)論與展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位論文期間發(fā)表的論文
本文編號:3149823
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3149823.html
最近更新
教材專著