基于上下文信息聚合的語義分割與目標(biāo)檢測(cè)算法研究
發(fā)布時(shí)間:2021-01-08 02:47
圖像語義分割(Semantic Segmentation)是計(jì)算機(jī)視覺領(lǐng)域經(jīng)典的任務(wù)之一,它屬于高層次的視覺任務(wù)并且在圖像理解中扮演著及其重要的角色。圖像語義分割屬于密集像素分類問題,它的目的是為圖像中每個(gè)像素點(diǎn)進(jìn)行準(zhǔn)確分類。圖像目標(biāo)檢測(cè)(Object Detection)則是計(jì)算機(jī)視覺中另一個(gè)經(jīng)典任務(wù)。相對(duì)于圖像語義分割,圖像目標(biāo)檢測(cè)屬于計(jì)算機(jī)視覺的中層次任務(wù),它的目的是為圖像中存在的物體進(jìn)行分類并找到其所對(duì)應(yīng)的包圍框。圖像語義分割和圖像目標(biāo)檢測(cè)任務(wù)都是由分類和定位兩個(gè)子任務(wù)組成。近年來,深度學(xué)習(xí)(Deep Learning)在計(jì)算機(jī)視覺領(lǐng)域中發(fā)展迅速,而卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為深度學(xué)習(xí)的重中之重,愈來愈多的研究者將目光聚焦于此。相對(duì)于傳統(tǒng)的圖像處理算法,卷積神經(jīng)網(wǎng)絡(luò)能夠高效地提取圖像特征,基于此特點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)也為圖像語義分割和圖像目標(biāo)檢測(cè)任務(wù)提供了新的研究思路。目前大部分的卷積神經(jīng)網(wǎng)絡(luò)是為圖像物體分類而設(shè)計(jì)的,并不能夠直接用來解決語義分割或者目標(biāo)檢測(cè)問題。這種網(wǎng)絡(luò)的深層可以很好地提取語義信息,這些語義信息雖然對(duì)物體分...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像語義分割說明圖
南京郵電大學(xué)碩士研究生學(xué)位論文第二章相關(guān)背景知識(shí)介紹6第二章相關(guān)背景知識(shí)介紹2.1圖像語義分割關(guān)鍵技術(shù)介紹2.1.1基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割框架介紹JonathanLong發(fā)表在CVPR2015會(huì)議上的《FullyConvolutionalNetworksforSemanticSegmentation》[14]創(chuàng)造性地使用深度學(xué)習(xí)方法來解決圖像語義分割任務(wù)。這篇文章同時(shí)也吸引了愈來愈多的研究者,將目光聚焦在基于深度學(xué)習(xí)的圖像語義分割。文中提出的全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNetworks,FCN)作為卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)用于圖像語義分割的開山鼻祖,后面提出的一系列用于語義分割的卷積網(wǎng)絡(luò)架構(gòu)基本都是基于它的思想提出的,如DeepLab[15,16,17]系列,PSPNet[18]等。對(duì)于圖像分類任務(wù),最后輸出的是該圖片中存在的物體對(duì)應(yīng)數(shù)據(jù)集中每個(gè)類別的概率,CNN必須要通過設(shè)置全連接層來幫助分類。FCN的設(shè)計(jì)思想相對(duì)來說比較簡(jiǎn)單,就是將用于分類任務(wù)的CNN應(yīng)用到語義分割任務(wù)中來。如圖2.1所示,本節(jié)以分類卷積神經(jīng)網(wǎng)絡(luò)為例,它是由卷積層,激活層,池化層和全連接層所構(gòu)成的,且網(wǎng)絡(luò)的最后三層均為全連接層。經(jīng)過分類器之后,網(wǎng)絡(luò)最后輸出的是數(shù)據(jù)集中每個(gè)類別的概率。這種分類網(wǎng)絡(luò)顯然不能夠直接用來解決圖像語義分割任務(wù),因此FCN將分類網(wǎng)絡(luò)中最后的全連接層舍棄并將其轉(zhuǎn)換為卷積層,其余部分保持不變。這樣做的原因是:相對(duì)于全連接層,卷積層可以保留較高的圖像分辨率,有利于圖像語義分割這種像素級(jí)預(yù)測(cè)任務(wù)。也正是因?yàn)镕CN架構(gòu)中只存在卷積層進(jìn)行信息提取,所以它被命名為全卷積神經(jīng)網(wǎng)絡(luò)!柏垺必埖摹癶eatmap”卷積化圖2.1基礎(chǔ)的FCN網(wǎng)絡(luò)結(jié)構(gòu)
┙?薪岷。尽管臍ぐ已?幸恍┕ぷ魈岢雋誦灤退惴ㄈツ夂螪CNN的多層關(guān)聯(lián)性,但DenseCRF與它們對(duì)比具有很大的優(yōu)越性。一方面,DenseCRF在計(jì)算遠(yuǎn)距離像素點(diǎn)與當(dāng)前像素點(diǎn)之前的關(guān)系時(shí),能夠更加高效,另一方面,通過對(duì)周圍像素點(diǎn)關(guān)系的學(xué)習(xí),其可以更好地捕捉圖像中物體的位置和細(xì)節(jié)信息。下采樣是通過池化或者帶步長(zhǎng)的卷積來降低圖像分辨率的操作,因此會(huì)丟失一部分位置信息。Deeplabv1創(chuàng)造性地在DCNN中提出了擴(kuò)張卷積(Dilatedconvolution)來解決這個(gè)問題,擴(kuò)張卷積可以在不改變特征圖分辨率的情況下,增大特征圖的感受野。圖2.2擴(kuò)張卷積如圖2.2所示,其中(a)圖表示擴(kuò)張率為0的擴(kuò)張卷積(即3×3的普通卷積),其感受野大小為3×3,(b)圖表示的是擴(kuò)張率為1的擴(kuò)張卷積,其感受野大小為7×7,(c)圖為擴(kuò)張率為3的擴(kuò)張卷積,其感受野大小為15×15。擴(kuò)張卷積能在不降低分辨率的前提下,增大特征圖的感受野,這種特性就能夠保證像素信息不丟失。PSPNet(PyramidSceneParsingNetwork)[18]是另一個(gè)基于FCN的語義分割網(wǎng)絡(luò)架構(gòu)。PSPNet采用了帶擴(kuò)張卷積的殘差網(wǎng)絡(luò)(ResNet)[4]作為骨干網(wǎng),對(duì)輸入圖像進(jìn)行特征提齲然后使用金字塔池化模塊(ParamidPoolingModule,PPM)對(duì)骨干網(wǎng)輸出的特征圖進(jìn)行多尺度信息提齲PPM是由四個(gè)全局池化層并行組成的。池化層的感受野分別為輸入圖像大小,圖像大小的一半以及更小的區(qū)域。隨后再將池化得到特征與輸入的特征圖堆疊融合作為全局先驗(yàn)信息,最后使用1×1大小的卷積將特征圖映射到語義分?jǐn)?shù)圖(scoremap),經(jīng)過分類器得到最后的分割預(yù)測(cè)圖。PSPNet的網(wǎng)絡(luò)層數(shù)較多,想要端到端進(jìn)行訓(xùn)練存在一定的難度。因此,PSPNet采用了輔助損失函數(shù)來簡(jiǎn)化網(wǎng)絡(luò)模型訓(xùn)練的難度,通過這個(gè)輔助的損失函數(shù)就能將反向傳播的梯度傳到網(wǎng)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度卷積神經(jīng)網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法[J]. 李航,朱明. 計(jì)算機(jī)工程與科學(xué). 2020(04)
[2]深度學(xué)習(xí)目標(biāo)檢測(cè)方法綜述[J]. 趙永強(qiáng),饒?jiān)?董世鵬,張君毅. 中國圖象圖形學(xué)報(bào). 2020(04)
[3]基于深度學(xué)習(xí)的圖像語義分割研究進(jìn)展[J]. 李新葉,宋維. 科學(xué)技術(shù)與工程. 2019(33)
碩士論文
[1]自動(dòng)駕駛場(chǎng)景下的行人檢測(cè)研究[D]. 向國徽.重慶理工大學(xué) 2019
本文編號(hào):2963755
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像語義分割說明圖
南京郵電大學(xué)碩士研究生學(xué)位論文第二章相關(guān)背景知識(shí)介紹6第二章相關(guān)背景知識(shí)介紹2.1圖像語義分割關(guān)鍵技術(shù)介紹2.1.1基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割框架介紹JonathanLong發(fā)表在CVPR2015會(huì)議上的《FullyConvolutionalNetworksforSemanticSegmentation》[14]創(chuàng)造性地使用深度學(xué)習(xí)方法來解決圖像語義分割任務(wù)。這篇文章同時(shí)也吸引了愈來愈多的研究者,將目光聚焦在基于深度學(xué)習(xí)的圖像語義分割。文中提出的全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNetworks,FCN)作為卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)用于圖像語義分割的開山鼻祖,后面提出的一系列用于語義分割的卷積網(wǎng)絡(luò)架構(gòu)基本都是基于它的思想提出的,如DeepLab[15,16,17]系列,PSPNet[18]等。對(duì)于圖像分類任務(wù),最后輸出的是該圖片中存在的物體對(duì)應(yīng)數(shù)據(jù)集中每個(gè)類別的概率,CNN必須要通過設(shè)置全連接層來幫助分類。FCN的設(shè)計(jì)思想相對(duì)來說比較簡(jiǎn)單,就是將用于分類任務(wù)的CNN應(yīng)用到語義分割任務(wù)中來。如圖2.1所示,本節(jié)以分類卷積神經(jīng)網(wǎng)絡(luò)為例,它是由卷積層,激活層,池化層和全連接層所構(gòu)成的,且網(wǎng)絡(luò)的最后三層均為全連接層。經(jīng)過分類器之后,網(wǎng)絡(luò)最后輸出的是數(shù)據(jù)集中每個(gè)類別的概率。這種分類網(wǎng)絡(luò)顯然不能夠直接用來解決圖像語義分割任務(wù),因此FCN將分類網(wǎng)絡(luò)中最后的全連接層舍棄并將其轉(zhuǎn)換為卷積層,其余部分保持不變。這樣做的原因是:相對(duì)于全連接層,卷積層可以保留較高的圖像分辨率,有利于圖像語義分割這種像素級(jí)預(yù)測(cè)任務(wù)。也正是因?yàn)镕CN架構(gòu)中只存在卷積層進(jìn)行信息提取,所以它被命名為全卷積神經(jīng)網(wǎng)絡(luò)!柏垺必埖摹癶eatmap”卷積化圖2.1基礎(chǔ)的FCN網(wǎng)絡(luò)結(jié)構(gòu)
┙?薪岷。尽管臍ぐ已?幸恍┕ぷ魈岢雋誦灤退惴ㄈツ夂螪CNN的多層關(guān)聯(lián)性,但DenseCRF與它們對(duì)比具有很大的優(yōu)越性。一方面,DenseCRF在計(jì)算遠(yuǎn)距離像素點(diǎn)與當(dāng)前像素點(diǎn)之前的關(guān)系時(shí),能夠更加高效,另一方面,通過對(duì)周圍像素點(diǎn)關(guān)系的學(xué)習(xí),其可以更好地捕捉圖像中物體的位置和細(xì)節(jié)信息。下采樣是通過池化或者帶步長(zhǎng)的卷積來降低圖像分辨率的操作,因此會(huì)丟失一部分位置信息。Deeplabv1創(chuàng)造性地在DCNN中提出了擴(kuò)張卷積(Dilatedconvolution)來解決這個(gè)問題,擴(kuò)張卷積可以在不改變特征圖分辨率的情況下,增大特征圖的感受野。圖2.2擴(kuò)張卷積如圖2.2所示,其中(a)圖表示擴(kuò)張率為0的擴(kuò)張卷積(即3×3的普通卷積),其感受野大小為3×3,(b)圖表示的是擴(kuò)張率為1的擴(kuò)張卷積,其感受野大小為7×7,(c)圖為擴(kuò)張率為3的擴(kuò)張卷積,其感受野大小為15×15。擴(kuò)張卷積能在不降低分辨率的前提下,增大特征圖的感受野,這種特性就能夠保證像素信息不丟失。PSPNet(PyramidSceneParsingNetwork)[18]是另一個(gè)基于FCN的語義分割網(wǎng)絡(luò)架構(gòu)。PSPNet采用了帶擴(kuò)張卷積的殘差網(wǎng)絡(luò)(ResNet)[4]作為骨干網(wǎng),對(duì)輸入圖像進(jìn)行特征提齲然后使用金字塔池化模塊(ParamidPoolingModule,PPM)對(duì)骨干網(wǎng)輸出的特征圖進(jìn)行多尺度信息提齲PPM是由四個(gè)全局池化層并行組成的。池化層的感受野分別為輸入圖像大小,圖像大小的一半以及更小的區(qū)域。隨后再將池化得到特征與輸入的特征圖堆疊融合作為全局先驗(yàn)信息,最后使用1×1大小的卷積將特征圖映射到語義分?jǐn)?shù)圖(scoremap),經(jīng)過分類器得到最后的分割預(yù)測(cè)圖。PSPNet的網(wǎng)絡(luò)層數(shù)較多,想要端到端進(jìn)行訓(xùn)練存在一定的難度。因此,PSPNet采用了輔助損失函數(shù)來簡(jiǎn)化網(wǎng)絡(luò)模型訓(xùn)練的難度,通過這個(gè)輔助的損失函數(shù)就能將反向傳播的梯度傳到網(wǎng)
【參考文獻(xiàn)】:
期刊論文
[1]基于深度卷積神經(jīng)網(wǎng)絡(luò)的小目標(biāo)檢測(cè)算法[J]. 李航,朱明. 計(jì)算機(jī)工程與科學(xué). 2020(04)
[2]深度學(xué)習(xí)目標(biāo)檢測(cè)方法綜述[J]. 趙永強(qiáng),饒?jiān)?董世鵬,張君毅. 中國圖象圖形學(xué)報(bào). 2020(04)
[3]基于深度學(xué)習(xí)的圖像語義分割研究進(jìn)展[J]. 李新葉,宋維. 科學(xué)技術(shù)與工程. 2019(33)
碩士論文
[1]自動(dòng)駕駛場(chǎng)景下的行人檢測(cè)研究[D]. 向國徽.重慶理工大學(xué) 2019
本文編號(hào):2963755
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2963755.html
最近更新
教材專著