基于深度學(xué)習(xí)的自然場(chǎng)景下文本行檢測(cè)算法的研究
發(fā)布時(shí)間:2021-06-11 11:35
本文基于深度學(xué)習(xí)理論對(duì)自然場(chǎng)景下的文本行檢測(cè)方法進(jìn)行了研究。當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的學(xué)術(shù)研究受益于深度學(xué)習(xí)技術(shù)的快速進(jìn)步,在目標(biāo)檢測(cè)、語(yǔ)義分割、物體識(shí)別等子問(wèn)題上都取得了顯著的成績(jī)。自然場(chǎng)景下的文本行檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)基礎(chǔ)且重要的課題,是很多應(yīng)用的關(guān)鍵一環(huán)。本文研究的方法屬于實(shí)例分割,主要研究?jī)?nèi)容可以分為以下三部分:1)總結(jié)闡述當(dāng)前學(xué)術(shù)界在文本行檢測(cè)算法上的最新進(jìn)展,介紹卷積神經(jīng)網(wǎng)絡(luò)中存在缺陷和一些改進(jìn)措施,為新方法的開(kāi)發(fā)打下基礎(chǔ)。針對(duì)文本行檢測(cè)問(wèn)題,當(dāng)前學(xué)術(shù)界基于通用目標(biāo)檢測(cè)算法發(fā)表了諸多改進(jìn)成果,本文對(duì)這些算法進(jìn)行了分類(lèi)歸納。2)改進(jìn)了一種特征增強(qiáng)的網(wǎng)絡(luò)結(jié)構(gòu)CFPM。從基本的FPN網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),本研究設(shè)計(jì)了堆疊的多層級(jí)融合結(jié)構(gòu)來(lái)進(jìn)行特征增強(qiáng)。此外為了更好訓(xùn)練文本行檢測(cè)模型而使用人工合成數(shù)據(jù)集制作預(yù)訓(xùn)練模型,以取得文本行檢測(cè)任務(wù)的準(zhǔn)確性和快速性的良好平衡。特征增強(qiáng)也能夠起到減少訓(xùn)練所需標(biāo)注數(shù)據(jù)的作用,本文提出的CFPM特征增強(qiáng)結(jié)構(gòu)配合DB語(yǔ)義分割網(wǎng)絡(luò)模型,能夠在不增加很多參數(shù)的情況下保證較高的精度和近似實(shí)時(shí)的速度。3)改進(jìn)了基于A(yíng)C Loss的文本行檢測(cè)算法CFPM-DB+。本研究...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Seglink算法示意圖[24]
第一章緒論5開(kāi),避免了重疊的文本區(qū)域被融合為一個(gè)文本示例,針對(duì)圖像中含有密集的文本和彎曲的文本實(shí)例的情況,效果顯著。圖1-3PSENet算法檢測(cè)結(jié)果展示[31]1.2.3基于回歸的文本行檢測(cè)方法這類(lèi)方法通常是從通用的目標(biāo)檢測(cè)算法改進(jìn)而來(lái),可進(jìn)一步細(xì)分為Onestage方法[25],[32]或Twostage方法[22],[28]。Onestage方法直接回歸文本框的坐標(biāo),Twostage方法包含產(chǎn)生候選文本區(qū)域的階段和精細(xì)化文本框的階段。Twostage的方法通常能夠取得較高的準(zhǔn)確率,但也有著較高的計(jì)算力需求。文本行和通常的目標(biāo)檢測(cè)的目標(biāo)不同,文本行在圖像中以多種不規(guī)則的形狀和長(zhǎng)寬比例出現(xiàn)。針對(duì)這種情況,Liao等人在2017年提出了TextBoxes算法[33],該算法通過(guò)修改卷積核和anchor的形狀,來(lái)適應(yīng)形狀多變的文本區(qū)域。進(jìn)一步的,2018年Liao等人提出RotationSensitiveRegressionDetector(RSDD)算法[34],該算法為了充分利用圖像中旋轉(zhuǎn)不變的特征,主動(dòng)采用旋轉(zhuǎn)的卷積核,增強(qiáng)了對(duì)各種方向的文本行的檢測(cè)效果,但也存在著無(wú)法窮盡所有開(kāi)放環(huán)境下的文本行形狀的缺陷。2017年Zhou等人提出的EAST算法是基于回歸的文本行檢測(cè)算法的代表[35],EAST不需要產(chǎn)生文本區(qū)域的候選框,該算法只有兩步簡(jiǎn)潔的流程,取消了中間的候選區(qū)域聚合、文本分詞等操作,通過(guò)全卷積網(wǎng)絡(luò)直接預(yù)測(cè)文本區(qū)域的坐標(biāo),并降低傳統(tǒng)NMS算法的時(shí)間復(fù)雜度達(dá)到了實(shí)時(shí)檢測(cè)的效果。也有一些方法同時(shí)利用了回歸和分割兩種方法的優(yōu)勢(shì),2017年He等人提出的SSTD算法[36],通過(guò)在特征圖上使用注意力機(jī)制,減少無(wú)關(guān)背景的干擾,增強(qiáng)和文本相關(guān)的區(qū)域。當(dāng)前文本行檢測(cè)領(lǐng)域還有更多新算法不斷涌現(xiàn),在公開(kāi)的數(shù)據(jù)集上的記錄不斷被刷新,不少算法為了適應(yīng)移動(dòng)互聯(lián)網(wǎng)時(shí)代朝著網(wǎng)絡(luò)結(jié)構(gòu)輕量化和部署簡(jiǎn)便化的
電子科技大學(xué)碩士學(xué)位論文6趨勢(shì)發(fā)展,并且在準(zhǔn)確性和快速性之間取得了良好的平衡。圖1-4EAST算法檢測(cè)結(jié)果示意圖[35]1.3本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)為了檢測(cè)任意形狀的文本行區(qū)域,本文基于分割的方法來(lái)研究這個(gè)問(wèn)題。本文聚焦于文本行檢測(cè)任務(wù)的快速性和準(zhǔn)確性之間的平衡,研究重點(diǎn)如下:快速性:為了降低算法運(yùn)行耗時(shí),提高每秒處理的幀數(shù),達(dá)到實(shí)用的目標(biāo),本文采用輕型的主干網(wǎng)絡(luò)——Resnet-18[37]。但采用輕型的主干網(wǎng)絡(luò)會(huì)導(dǎo)致提取到的特征不夠充分,為了增強(qiáng)對(duì)小目標(biāo)和大目標(biāo)的檢測(cè)能力,本文基于傳統(tǒng)編碼器-解碼器型的特征提取網(wǎng)絡(luò)結(jié)構(gòu),做出了輕量化的改進(jìn),提出了CFPM特征增強(qiáng)網(wǎng)絡(luò),同時(shí)復(fù)用了該特征增強(qiáng)模塊,在強(qiáng)化特征的表達(dá)能力的同時(shí),減少了運(yùn)算量。準(zhǔn)確性:為了獲得較高的F-measure,本文使用了人工合成的數(shù)據(jù)來(lái)得到預(yù)訓(xùn)練模型,改進(jìn)了DB語(yǔ)義分割模塊的loss函數(shù)設(shè)計(jì)。在語(yǔ)義分割分支的設(shè)計(jì)中,本文同時(shí)使用基于kernel的監(jiān)督標(biāo)簽和基于mask的監(jiān)督標(biāo)簽,既避免了一些邊界標(biāo)注可能不夠精細(xì)情況,又能夠處理任意形狀的文本區(qū)域。另外和重型特征提取主干網(wǎng)絡(luò)相比,輕量的主干網(wǎng)絡(luò)有著特征描述不足的缺陷,為了彌補(bǔ)這個(gè)缺點(diǎn),本文使用可形變卷積替換傳統(tǒng)Resnet-18網(wǎng)絡(luò)的卷積算子。1.4本文的章節(jié)安排本文的內(nèi)容安排如下:第一章:緒論。首先回顧了自然場(chǎng)景下文本行檢測(cè)問(wèn)題的研究歷史和其在實(shí)際應(yīng)用中重要且基礎(chǔ)的作用,其次簡(jiǎn)要說(shuō)明了本領(lǐng)域內(nèi)面臨的復(fù)雜難題,然后闡述了本研究領(lǐng)域內(nèi)近年來(lái)飛速發(fā)展的現(xiàn)狀和取得的顯著成績(jī),最后總結(jié)本文的主要
【參考文獻(xiàn)】:
博士論文
[1]基于圖像分析和深度學(xué)習(xí)的船名標(biāo)識(shí)字符檢測(cè)與識(shí)別研究[D]. 劉寶龍.浙江大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的稅務(wù)票據(jù)自動(dòng)識(shí)別系統(tǒng)的研究及實(shí)現(xiàn)[D]. 湯雷雷.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院人工智能學(xué)院) 2019
[2]基于深度學(xué)習(xí)的路標(biāo)識(shí)別系統(tǒng)研究[D]. 陳林.華東師范大學(xué) 2019
本文編號(hào):3224456
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
Seglink算法示意圖[24]
第一章緒論5開(kāi),避免了重疊的文本區(qū)域被融合為一個(gè)文本示例,針對(duì)圖像中含有密集的文本和彎曲的文本實(shí)例的情況,效果顯著。圖1-3PSENet算法檢測(cè)結(jié)果展示[31]1.2.3基于回歸的文本行檢測(cè)方法這類(lèi)方法通常是從通用的目標(biāo)檢測(cè)算法改進(jìn)而來(lái),可進(jìn)一步細(xì)分為Onestage方法[25],[32]或Twostage方法[22],[28]。Onestage方法直接回歸文本框的坐標(biāo),Twostage方法包含產(chǎn)生候選文本區(qū)域的階段和精細(xì)化文本框的階段。Twostage的方法通常能夠取得較高的準(zhǔn)確率,但也有著較高的計(jì)算力需求。文本行和通常的目標(biāo)檢測(cè)的目標(biāo)不同,文本行在圖像中以多種不規(guī)則的形狀和長(zhǎng)寬比例出現(xiàn)。針對(duì)這種情況,Liao等人在2017年提出了TextBoxes算法[33],該算法通過(guò)修改卷積核和anchor的形狀,來(lái)適應(yīng)形狀多變的文本區(qū)域。進(jìn)一步的,2018年Liao等人提出RotationSensitiveRegressionDetector(RSDD)算法[34],該算法為了充分利用圖像中旋轉(zhuǎn)不變的特征,主動(dòng)采用旋轉(zhuǎn)的卷積核,增強(qiáng)了對(duì)各種方向的文本行的檢測(cè)效果,但也存在著無(wú)法窮盡所有開(kāi)放環(huán)境下的文本行形狀的缺陷。2017年Zhou等人提出的EAST算法是基于回歸的文本行檢測(cè)算法的代表[35],EAST不需要產(chǎn)生文本區(qū)域的候選框,該算法只有兩步簡(jiǎn)潔的流程,取消了中間的候選區(qū)域聚合、文本分詞等操作,通過(guò)全卷積網(wǎng)絡(luò)直接預(yù)測(cè)文本區(qū)域的坐標(biāo),并降低傳統(tǒng)NMS算法的時(shí)間復(fù)雜度達(dá)到了實(shí)時(shí)檢測(cè)的效果。也有一些方法同時(shí)利用了回歸和分割兩種方法的優(yōu)勢(shì),2017年He等人提出的SSTD算法[36],通過(guò)在特征圖上使用注意力機(jī)制,減少無(wú)關(guān)背景的干擾,增強(qiáng)和文本相關(guān)的區(qū)域。當(dāng)前文本行檢測(cè)領(lǐng)域還有更多新算法不斷涌現(xiàn),在公開(kāi)的數(shù)據(jù)集上的記錄不斷被刷新,不少算法為了適應(yīng)移動(dòng)互聯(lián)網(wǎng)時(shí)代朝著網(wǎng)絡(luò)結(jié)構(gòu)輕量化和部署簡(jiǎn)便化的
電子科技大學(xué)碩士學(xué)位論文6趨勢(shì)發(fā)展,并且在準(zhǔn)確性和快速性之間取得了良好的平衡。圖1-4EAST算法檢測(cè)結(jié)果示意圖[35]1.3本文的主要貢獻(xiàn)和創(chuàng)新點(diǎn)為了檢測(cè)任意形狀的文本行區(qū)域,本文基于分割的方法來(lái)研究這個(gè)問(wèn)題。本文聚焦于文本行檢測(cè)任務(wù)的快速性和準(zhǔn)確性之間的平衡,研究重點(diǎn)如下:快速性:為了降低算法運(yùn)行耗時(shí),提高每秒處理的幀數(shù),達(dá)到實(shí)用的目標(biāo),本文采用輕型的主干網(wǎng)絡(luò)——Resnet-18[37]。但采用輕型的主干網(wǎng)絡(luò)會(huì)導(dǎo)致提取到的特征不夠充分,為了增強(qiáng)對(duì)小目標(biāo)和大目標(biāo)的檢測(cè)能力,本文基于傳統(tǒng)編碼器-解碼器型的特征提取網(wǎng)絡(luò)結(jié)構(gòu),做出了輕量化的改進(jìn),提出了CFPM特征增強(qiáng)網(wǎng)絡(luò),同時(shí)復(fù)用了該特征增強(qiáng)模塊,在強(qiáng)化特征的表達(dá)能力的同時(shí),減少了運(yùn)算量。準(zhǔn)確性:為了獲得較高的F-measure,本文使用了人工合成的數(shù)據(jù)來(lái)得到預(yù)訓(xùn)練模型,改進(jìn)了DB語(yǔ)義分割模塊的loss函數(shù)設(shè)計(jì)。在語(yǔ)義分割分支的設(shè)計(jì)中,本文同時(shí)使用基于kernel的監(jiān)督標(biāo)簽和基于mask的監(jiān)督標(biāo)簽,既避免了一些邊界標(biāo)注可能不夠精細(xì)情況,又能夠處理任意形狀的文本區(qū)域。另外和重型特征提取主干網(wǎng)絡(luò)相比,輕量的主干網(wǎng)絡(luò)有著特征描述不足的缺陷,為了彌補(bǔ)這個(gè)缺點(diǎn),本文使用可形變卷積替換傳統(tǒng)Resnet-18網(wǎng)絡(luò)的卷積算子。1.4本文的章節(jié)安排本文的內(nèi)容安排如下:第一章:緒論。首先回顧了自然場(chǎng)景下文本行檢測(cè)問(wèn)題的研究歷史和其在實(shí)際應(yīng)用中重要且基礎(chǔ)的作用,其次簡(jiǎn)要說(shuō)明了本領(lǐng)域內(nèi)面臨的復(fù)雜難題,然后闡述了本研究領(lǐng)域內(nèi)近年來(lái)飛速發(fā)展的現(xiàn)狀和取得的顯著成績(jī),最后總結(jié)本文的主要
【參考文獻(xiàn)】:
博士論文
[1]基于圖像分析和深度學(xué)習(xí)的船名標(biāo)識(shí)字符檢測(cè)與識(shí)別研究[D]. 劉寶龍.浙江大學(xué) 2018
碩士論文
[1]基于深度學(xué)習(xí)的稅務(wù)票據(jù)自動(dòng)識(shí)別系統(tǒng)的研究及實(shí)現(xiàn)[D]. 湯雷雷.中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院人工智能學(xué)院) 2019
[2]基于深度學(xué)習(xí)的路標(biāo)識(shí)別系統(tǒng)研究[D]. 陳林.華東師范大學(xué) 2019
本文編號(hào):3224456
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3224456.html
最近更新
教材專(zhuān)著