面向復(fù)雜自然場(chǎng)景的交通標(biāo)識(shí)文本檢測(cè)研究
發(fā)布時(shí)間:2021-06-15 12:32
目前,自然場(chǎng)景文本檢測(cè)已成為計(jì)算機(jī)視覺(jué)領(lǐng)域中的熱門研究方向,交通標(biāo)識(shí)文本屬于自然場(chǎng)景文本的一種,它在無(wú)人駕駛系統(tǒng)的視覺(jué)感知環(huán)節(jié)中占有重要地位。盡管研究者們?cè)诮煌?biāo)識(shí)檢測(cè)領(lǐng)域已取得了很好的成果,但是針對(duì)交通標(biāo)識(shí)文本檢測(cè)的研究卻很少。事實(shí)上,交通標(biāo)識(shí)文本包含了豐富且有價(jià)值的交通信息,若能將其與交通標(biāo)識(shí)的檢測(cè)相結(jié)合,則可為相關(guān)應(yīng)用的開(kāi)發(fā)帶來(lái)更大的益處。本文針對(duì)國(guó)內(nèi)交通標(biāo)識(shí)文本提出了一種有效的文本檢測(cè)方法,該方法僅包括一個(gè)全卷積網(wǎng)絡(luò)(Fully Convolutional Network,FCN)和一個(gè)簡(jiǎn)單的后處理步驟,特殊設(shè)計(jì)的頭尾文本像素定位法使得該檢測(cè)器對(duì)于尺度較長(zhǎng)、排布稀疏的詞組檢測(cè)性能魯棒。該方法在本課題組構(gòu)建的國(guó)內(nèi)交通標(biāo)識(shí)文本數(shù)據(jù)集(CTST-1600)上進(jìn)行了測(cè)試,所獲得的F值為0.79。與此同時(shí),在公共數(shù)據(jù)集ICDAR 2013和MSRA-TD500上的測(cè)試結(jié)果與相關(guān)最先進(jìn)方法相比也獲得了具有競(jìng)爭(zhēng)力的結(jié)果,實(shí)驗(yàn)結(jié)果表明該方法在應(yīng)對(duì)交通標(biāo)識(shí)文本檢測(cè)以及其他復(fù)雜場(chǎng)景文本檢測(cè)具有較好的適應(yīng)性。實(shí)驗(yàn)中發(fā)現(xiàn)第4章方法在應(yīng)對(duì)復(fù)雜光線條件下的檢測(cè)效果以及網(wǎng)絡(luò)運(yùn)行速度方面存在不足,針對(duì)上述問(wèn)題...
【文章來(lái)源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
VGG16的網(wǎng)絡(luò)結(jié)構(gòu)圖
碩士學(xué)位論文82.1.2殘差網(wǎng)絡(luò)Resnet當(dāng)卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展到一定程度后,研究者們開(kāi)始發(fā)現(xiàn)一個(gè)非常矛盾的問(wèn)題,即按通常思考,網(wǎng)絡(luò)理應(yīng)層數(shù)越深則學(xué)習(xí)能力越強(qiáng),提取特征能力越好,但實(shí)驗(yàn)結(jié)果卻證明當(dāng)模型層數(shù)增加到某種程度時(shí),模型的效果將會(huì)不升反降,2015年,來(lái)自中國(guó)的研究者何凱明提出的殘差網(wǎng)絡(luò)Resnet完美解決了這一問(wèn)題。在深度學(xué)習(xí)領(lǐng)域,憑借“深度學(xué)習(xí)網(wǎng)絡(luò)越深則表達(dá)能力越強(qiáng)”這一基本準(zhǔn)則,CNN(ConvolutionalNeuralNetwork,卷積神經(jīng)網(wǎng)絡(luò))自Alexnet[41]的7層發(fā)展到了VGG的19層,再后來(lái)出現(xiàn)了Googlenet的22層。然而,實(shí)驗(yàn)發(fā)現(xiàn)深層的CNN網(wǎng)絡(luò)在一味地增加至一定層數(shù)后并不能繼續(xù)帶來(lái)性能的提升,反而導(dǎo)致網(wǎng)絡(luò)收斂速度變慢,測(cè)試集上的分類準(zhǔn)確率也變得更差了。這一問(wèn)題給當(dāng)時(shí)的研究學(xué)者們帶來(lái)了困擾,此時(shí)Resnet的作者聯(lián)想到計(jì)算機(jī)視覺(jué)領(lǐng)域常常用到的residualrepresentation(殘差表示)這一概念,并將其用在了CNN模型的構(gòu)建中,它學(xué)習(xí)的是輸入輸出之間的殘差表示,而不像一般CNN網(wǎng)絡(luò)學(xué)習(xí)直接學(xué)習(xí)輸入輸出之間的映射關(guān)系。實(shí)驗(yàn)表明,前一種學(xué)習(xí)方法要比后一種收斂速度更快,且能夠達(dá)到更高的精度。圖2.2為殘差學(xué)習(xí)的基本單元,表示了其學(xué)習(xí)的基本思想。若將輸入設(shè)為X,將某一有參網(wǎng)絡(luò)層設(shè)為H,那么以X為輸入的此層的輸出將為H(X)。一般的CNN網(wǎng)絡(luò)(如Alexnet/VGG等)會(huì)直接通過(guò)訓(xùn)練學(xué)習(xí)出參數(shù)函數(shù)H的表達(dá),從而直接學(xué)習(xí)X->H(X)。而殘差學(xué)習(xí)則是旨在使用多個(gè)有參網(wǎng)絡(luò)層來(lái)學(xué)習(xí)輸入、輸出之間的參差:H(X)-X,即學(xué)習(xí)X->(H(X)-X)+X。其中X這一部分為直接的identitymapping,而H(X)-X則為有參網(wǎng)絡(luò)層要學(xué)習(xí)的輸入輸出間殘差。圖2.2殘差學(xué)習(xí)的基本單元
面向復(fù)雜自然場(chǎng)景的交通標(biāo)識(shí)文本檢測(cè)研究92.1.3全卷積網(wǎng)絡(luò)FCN如上一小節(jié)所述,目標(biāo)檢測(cè)識(shí)別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò),除了常見(jiàn)的VGGNet、ResNet、InceptionNet等以外,還有一些屬于專用網(wǎng)絡(luò)模型,它們來(lái)自于特定場(chǎng)景。例如FCN,它對(duì)圖像細(xì)節(jié)特征的提取頗為擅長(zhǎng),再比如STN[40],它則非常適合做圖形矯正。全卷積網(wǎng)絡(luò)指刪去了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò),最初被用來(lái)實(shí)現(xiàn)語(yǔ)義分割任務(wù),如圖2.3所示,展示了FCN將全連接層轉(zhuǎn)化為卷積層的過(guò)程。FCN的優(yōu)勢(shì)在于利用反卷積(deconvolution)、上池化(unpooling)等上采樣(upsampling)操作,將特征圖放大回與原圖尺寸大小接近,然后為每一個(gè)位置上的像素都預(yù)測(cè)所屬分類,這樣便能使物體邊界的識(shí)別更為清晰;贔CN的模型可經(jīng)由高分辨率的特征圖直接預(yù)測(cè)物體邊框,而不再依賴候選區(qū)域來(lái)回歸。FCN的另一優(yōu)點(diǎn)是它更能很好地預(yù)測(cè)不規(guī)則的物體邊界,因?yàn)樗恍枰馬-CNN系列網(wǎng)絡(luò)那樣預(yù)先在訓(xùn)練前人為設(shè)定候選框的長(zhǎng)寬比例。為了避免對(duì)全卷積部分的輸出直接進(jìn)行反卷積所帶來(lái)的不精細(xì)的結(jié)果。FCN的另一創(chuàng)新點(diǎn)是引入了跳躍連接結(jié)構(gòu),如圖2.4所示,概括地說(shuō),就是將不同池化層的結(jié)果進(jìn)行上采樣,然后結(jié)合這些結(jié)果來(lái)優(yōu)化輸出。對(duì)文本類任務(wù)而言,對(duì)文字進(jìn)行檢測(cè)識(shí)別時(shí),為了辨別不同文字,往往要求文字筆畫具有較高的清晰度,而FCN最后一層特征圖的像素分辨率較高,所以FCN很適合用來(lái)提取文字特征。當(dāng)FCN被用于文字檢測(cè)識(shí)別任務(wù)時(shí),最后一層特征圖中每個(gè)像素將被分成兩個(gè)類別:即文字(前景)和非文字(背景)。圖2.3FCN將全連接層轉(zhuǎn)化為卷積層的示意圖
【參考文獻(xiàn)】:
期刊論文
[1]聚焦難樣本的區(qū)分尺度的文字檢測(cè)方法[J]. 林泓,盧瑤瑤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(08)
[2]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報(bào). 2019(05)
[3]自然場(chǎng)景圖像中的文本檢測(cè)綜述[J]. 王潤(rùn)民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動(dòng)化學(xué)報(bào). 2018(12)
[4]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)與識(shí)別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國(guó)科學(xué):信息科學(xué). 2018(05)
本文編號(hào):3231060
【文章來(lái)源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
VGG16的網(wǎng)絡(luò)結(jié)構(gòu)圖
碩士學(xué)位論文82.1.2殘差網(wǎng)絡(luò)Resnet當(dāng)卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展到一定程度后,研究者們開(kāi)始發(fā)現(xiàn)一個(gè)非常矛盾的問(wèn)題,即按通常思考,網(wǎng)絡(luò)理應(yīng)層數(shù)越深則學(xué)習(xí)能力越強(qiáng),提取特征能力越好,但實(shí)驗(yàn)結(jié)果卻證明當(dāng)模型層數(shù)增加到某種程度時(shí),模型的效果將會(huì)不升反降,2015年,來(lái)自中國(guó)的研究者何凱明提出的殘差網(wǎng)絡(luò)Resnet完美解決了這一問(wèn)題。在深度學(xué)習(xí)領(lǐng)域,憑借“深度學(xué)習(xí)網(wǎng)絡(luò)越深則表達(dá)能力越強(qiáng)”這一基本準(zhǔn)則,CNN(ConvolutionalNeuralNetwork,卷積神經(jīng)網(wǎng)絡(luò))自Alexnet[41]的7層發(fā)展到了VGG的19層,再后來(lái)出現(xiàn)了Googlenet的22層。然而,實(shí)驗(yàn)發(fā)現(xiàn)深層的CNN網(wǎng)絡(luò)在一味地增加至一定層數(shù)后并不能繼續(xù)帶來(lái)性能的提升,反而導(dǎo)致網(wǎng)絡(luò)收斂速度變慢,測(cè)試集上的分類準(zhǔn)確率也變得更差了。這一問(wèn)題給當(dāng)時(shí)的研究學(xué)者們帶來(lái)了困擾,此時(shí)Resnet的作者聯(lián)想到計(jì)算機(jī)視覺(jué)領(lǐng)域常常用到的residualrepresentation(殘差表示)這一概念,并將其用在了CNN模型的構(gòu)建中,它學(xué)習(xí)的是輸入輸出之間的殘差表示,而不像一般CNN網(wǎng)絡(luò)學(xué)習(xí)直接學(xué)習(xí)輸入輸出之間的映射關(guān)系。實(shí)驗(yàn)表明,前一種學(xué)習(xí)方法要比后一種收斂速度更快,且能夠達(dá)到更高的精度。圖2.2為殘差學(xué)習(xí)的基本單元,表示了其學(xué)習(xí)的基本思想。若將輸入設(shè)為X,將某一有參網(wǎng)絡(luò)層設(shè)為H,那么以X為輸入的此層的輸出將為H(X)。一般的CNN網(wǎng)絡(luò)(如Alexnet/VGG等)會(huì)直接通過(guò)訓(xùn)練學(xué)習(xí)出參數(shù)函數(shù)H的表達(dá),從而直接學(xué)習(xí)X->H(X)。而殘差學(xué)習(xí)則是旨在使用多個(gè)有參網(wǎng)絡(luò)層來(lái)學(xué)習(xí)輸入、輸出之間的參差:H(X)-X,即學(xué)習(xí)X->(H(X)-X)+X。其中X這一部分為直接的identitymapping,而H(X)-X則為有參網(wǎng)絡(luò)層要學(xué)習(xí)的輸入輸出間殘差。圖2.2殘差學(xué)習(xí)的基本單元
面向復(fù)雜自然場(chǎng)景的交通標(biāo)識(shí)文本檢測(cè)研究92.1.3全卷積網(wǎng)絡(luò)FCN如上一小節(jié)所述,目標(biāo)檢測(cè)識(shí)別任務(wù)中的基礎(chǔ)網(wǎng)絡(luò),除了常見(jiàn)的VGGNet、ResNet、InceptionNet等以外,還有一些屬于專用網(wǎng)絡(luò)模型,它們來(lái)自于特定場(chǎng)景。例如FCN,它對(duì)圖像細(xì)節(jié)特征的提取頗為擅長(zhǎng),再比如STN[40],它則非常適合做圖形矯正。全卷積網(wǎng)絡(luò)指刪去了全連接(fc)層的基礎(chǔ)網(wǎng)絡(luò),最初被用來(lái)實(shí)現(xiàn)語(yǔ)義分割任務(wù),如圖2.3所示,展示了FCN將全連接層轉(zhuǎn)化為卷積層的過(guò)程。FCN的優(yōu)勢(shì)在于利用反卷積(deconvolution)、上池化(unpooling)等上采樣(upsampling)操作,將特征圖放大回與原圖尺寸大小接近,然后為每一個(gè)位置上的像素都預(yù)測(cè)所屬分類,這樣便能使物體邊界的識(shí)別更為清晰;贔CN的模型可經(jīng)由高分辨率的特征圖直接預(yù)測(cè)物體邊框,而不再依賴候選區(qū)域來(lái)回歸。FCN的另一優(yōu)點(diǎn)是它更能很好地預(yù)測(cè)不規(guī)則的物體邊界,因?yàn)樗恍枰馬-CNN系列網(wǎng)絡(luò)那樣預(yù)先在訓(xùn)練前人為設(shè)定候選框的長(zhǎng)寬比例。為了避免對(duì)全卷積部分的輸出直接進(jìn)行反卷積所帶來(lái)的不精細(xì)的結(jié)果。FCN的另一創(chuàng)新點(diǎn)是引入了跳躍連接結(jié)構(gòu),如圖2.4所示,概括地說(shuō),就是將不同池化層的結(jié)果進(jìn)行上采樣,然后結(jié)合這些結(jié)果來(lái)優(yōu)化輸出。對(duì)文本類任務(wù)而言,對(duì)文字進(jìn)行檢測(cè)識(shí)別時(shí),為了辨別不同文字,往往要求文字筆畫具有較高的清晰度,而FCN最后一層特征圖的像素分辨率較高,所以FCN很適合用來(lái)提取文字特征。當(dāng)FCN被用于文字檢測(cè)識(shí)別任務(wù)時(shí),最后一層特征圖中每個(gè)像素將被分成兩個(gè)類別:即文字(前景)和非文字(背景)。圖2.3FCN將全連接層轉(zhuǎn)化為卷積層的示意圖
【參考文獻(xiàn)】:
期刊論文
[1]聚焦難樣本的區(qū)分尺度的文字檢測(cè)方法[J]. 林泓,盧瑤瑤. 浙江大學(xué)學(xué)報(bào)(工學(xué)版). 2019(08)
[2]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)綜述[J]. 姜維,張重生,殷緒成. 電子學(xué)報(bào). 2019(05)
[3]自然場(chǎng)景圖像中的文本檢測(cè)綜述[J]. 王潤(rùn)民,桑農(nóng),丁丁,陳杰,葉齊祥,高常鑫,劉麗. 自動(dòng)化學(xué)報(bào). 2018(12)
[4]基于深度學(xué)習(xí)的場(chǎng)景文字檢測(cè)與識(shí)別[J]. 白翔,楊明錕,石葆光,廖明輝. 中國(guó)科學(xué):信息科學(xué). 2018(05)
本文編號(hào):3231060
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3231060.html
最近更新
教材專著