基于深度學(xué)習(xí)的文本檢測(cè)與識(shí)別技術(shù)研究
發(fā)布時(shí)間:2021-05-21 01:09
近些年隨著社交網(wǎng)絡(luò)的發(fā)展,處理日益增長(zhǎng)的各種視覺(jué)信息已經(jīng)成為了一個(gè)無(wú)法避免的需求。在這些視覺(jué)信息中有很多是復(fù)雜場(chǎng)景下的圖片,如招牌圖片、商鋪圖片、交通標(biāo)志等自然場(chǎng)景下的圖片,也有試卷、報(bào)紙等印刷體的圖片。復(fù)雜場(chǎng)景下的圖片由于背景復(fù)雜、字體多樣、語(yǔ)種未知、版面格式不統(tǒng)一、光照等因素影響,文本檢測(cè)與識(shí)別的難度大大增加。但理解復(fù)雜場(chǎng)景中的文本信息對(duì)于人機(jī)交互、自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)等都有很多現(xiàn)實(shí)意義。本課題是對(duì)不同的文本檢測(cè)與識(shí)別技術(shù)進(jìn)行研究,分別是傳統(tǒng)OCR的多階段的文本檢測(cè)與識(shí)別技術(shù)和端到端的文本檢測(cè)與識(shí)別技術(shù),然后針對(duì)兩種各有優(yōu)缺點(diǎn)的技術(shù)分別應(yīng)用于兩個(gè)不同的復(fù)雜場(chǎng)景,兩個(gè)應(yīng)用場(chǎng)景具體為多學(xué)科試卷圖文混排的場(chǎng)景和自然場(chǎng)景中語(yǔ)種未知的場(chǎng)景。將傳統(tǒng)OCR的多階段的文本檢測(cè)與識(shí)別技術(shù)應(yīng)用于多學(xué)科試卷圖文混排的復(fù)雜場(chǎng)景下,關(guān)鍵在于多粒度的版面分析。該系統(tǒng)是按照傳統(tǒng)的OCR方法步驟來(lái)進(jìn)行的,按照文本檢測(cè)、文本分割、字符識(shí)別三個(gè)步驟依次進(jìn)行。首先采用均值濾波和Hough變換來(lái)對(duì)圖像進(jìn)行預(yù)處理,然后使用Faster RCNN算法來(lái)進(jìn)行粗粒度分類。接著使用Mask RCNN算法來(lái)進(jìn)行小題的細(xì)粒度分類。最后只...
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:94 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景
1.1.2 研究的目的和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 深度學(xué)習(xí)的研究現(xiàn)狀
1.2.2 文本檢測(cè)的研究現(xiàn)狀
1.2.3 文本識(shí)別的研究現(xiàn)狀
1.2.4 端到端的文本檢測(cè)與識(shí)別的研究現(xiàn)狀
1.2.5 多語(yǔ)種文本的文本檢測(cè)與識(shí)別的研究現(xiàn)狀
1.2.6 文本檢測(cè)與識(shí)別的評(píng)價(jià)指標(biāo)
1.2.7 文本檢測(cè)與識(shí)別的常用數(shù)據(jù)集
1.3 本文主要研究?jī)?nèi)容及章節(jié)安排
第2章 復(fù)雜場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的需求分析和總體設(shè)計(jì)
2.1 引言
2.2 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別子系統(tǒng)的需求分析
2.2.1 系統(tǒng)的功能需求
2.2.2 系統(tǒng)的非功能需求
2.3 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別系統(tǒng)的總體設(shè)計(jì)
2.3.1 系統(tǒng)的總體功能設(shè)計(jì)
2.3.2 粗粒度分類模塊和細(xì)粒度分類模塊的模塊劃分
2.4 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別子系統(tǒng)的需求分析
2.4.1 系統(tǒng)的功能需求
2.4.2 系統(tǒng)的非功能需求
2.5 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的總體設(shè)計(jì)
2.5.1 系統(tǒng)的總體功能設(shè)計(jì)
2.5.2 系統(tǒng)的總體架構(gòu)設(shè)計(jì)
2.6 本章小結(jié)
第3章 復(fù)雜場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.1 引言
3.2 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.1 數(shù)據(jù)標(biāo)注模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.2 數(shù)據(jù)預(yù)處理模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.3 粗粒度分類模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.4 細(xì)粒度分類模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.5 字符識(shí)別模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.1 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的總體算法設(shè)計(jì)
3.3.2 FPN算法的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.3 LNMS(Locality-aware NMS)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.4 spatial transformer layer的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.5 損失函數(shù)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.4 本章小結(jié)
第4章 復(fù)雜場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的測(cè)試和性能分析
4.1 引言
4.2 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別系統(tǒng)的測(cè)試與性能分析
4.2.1 系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù)及參數(shù)設(shè)置
4.2.2 系統(tǒng)的測(cè)試策略
4.2.3 系統(tǒng)的測(cè)試結(jié)論
4.3 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的測(cè)試與性能分析
4.3.1 系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù)及參數(shù)設(shè)置
4.3.2 系統(tǒng)的測(cè)試策略
4.3.3 系統(tǒng)的測(cè)試結(jié)論
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個(gè)人簡(jiǎn)歷
本文編號(hào):3198768
【文章來(lái)源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:94 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景
1.1.2 研究的目的和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 深度學(xué)習(xí)的研究現(xiàn)狀
1.2.2 文本檢測(cè)的研究現(xiàn)狀
1.2.3 文本識(shí)別的研究現(xiàn)狀
1.2.4 端到端的文本檢測(cè)與識(shí)別的研究現(xiàn)狀
1.2.5 多語(yǔ)種文本的文本檢測(cè)與識(shí)別的研究現(xiàn)狀
1.2.6 文本檢測(cè)與識(shí)別的評(píng)價(jià)指標(biāo)
1.2.7 文本檢測(cè)與識(shí)別的常用數(shù)據(jù)集
1.3 本文主要研究?jī)?nèi)容及章節(jié)安排
第2章 復(fù)雜場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的需求分析和總體設(shè)計(jì)
2.1 引言
2.2 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別子系統(tǒng)的需求分析
2.2.1 系統(tǒng)的功能需求
2.2.2 系統(tǒng)的非功能需求
2.3 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別系統(tǒng)的總體設(shè)計(jì)
2.3.1 系統(tǒng)的總體功能設(shè)計(jì)
2.3.2 粗粒度分類模塊和細(xì)粒度分類模塊的模塊劃分
2.4 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別子系統(tǒng)的需求分析
2.4.1 系統(tǒng)的功能需求
2.4.2 系統(tǒng)的非功能需求
2.5 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的總體設(shè)計(jì)
2.5.1 系統(tǒng)的總體功能設(shè)計(jì)
2.5.2 系統(tǒng)的總體架構(gòu)設(shè)計(jì)
2.6 本章小結(jié)
第3章 復(fù)雜場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.1 引言
3.2 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.1 數(shù)據(jù)標(biāo)注模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.2 數(shù)據(jù)預(yù)處理模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.3 粗粒度分類模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.4 細(xì)粒度分類模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.2.5 字符識(shí)別模塊的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.1 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的總體算法設(shè)計(jì)
3.3.2 FPN算法的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.3 LNMS(Locality-aware NMS)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.4 spatial transformer layer的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.3.5 損失函數(shù)的詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)
3.4 本章小結(jié)
第4章 復(fù)雜場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的測(cè)試和性能分析
4.1 引言
4.2 多學(xué)科試卷內(nèi)容檢測(cè)與識(shí)別系統(tǒng)的測(cè)試與性能分析
4.2.1 系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù)及參數(shù)設(shè)置
4.2.2 系統(tǒng)的測(cè)試策略
4.2.3 系統(tǒng)的測(cè)試結(jié)論
4.3 端到端的自然場(chǎng)景文本檢測(cè)與識(shí)別系統(tǒng)的測(cè)試與性能分析
4.3.1 系統(tǒng)的實(shí)驗(yàn)數(shù)據(jù)及參數(shù)設(shè)置
4.3.2 系統(tǒng)的測(cè)試策略
4.3.3 系統(tǒng)的測(cè)試結(jié)論
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的論文及其它成果
致謝
個(gè)人簡(jiǎn)歷
本文編號(hào):3198768
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3198768.html
最近更新
教材專著