基于多尺度語義信息融合的目標(biāo)檢測(cè)算法研究
發(fā)布時(shí)間:2020-12-24 21:39
圖像目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域內(nèi)的熱點(diǎn)課題,它的主要任務(wù)是從輸入圖像中定位感興趣的目標(biāo),然后準(zhǔn)確地判斷每個(gè)感興趣目標(biāo)的類別。近年來,隨著深度學(xué)習(xí)技術(shù)的火熱發(fā)展,目標(biāo)檢測(cè)技術(shù)已經(jīng)廣泛應(yīng)用于日常生活安全、機(jī)器人導(dǎo)航、智能視頻監(jiān)控、交通場(chǎng)景檢測(cè)及航天航空等領(lǐng)域。特別是卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用,使目標(biāo)檢測(cè)的性能取得大幅度的提升,并涌現(xiàn)出大量不同的檢測(cè)算法和網(wǎng)絡(luò)模型,從而目標(biāo)檢測(cè)技術(shù)得到快速的發(fā)展。本文對(duì)基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法進(jìn)行充分調(diào)研的基礎(chǔ)下,分析了經(jīng)典的SSD(Single Shot MultiBox Detector)檢測(cè)方法存在的不足并做出了改進(jìn),以下是本文的主要工作:(1)本文首先簡(jiǎn)要的論述了目標(biāo)檢測(cè)的研究背景、意義及其難點(diǎn),接著對(duì)基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法的兩大類進(jìn)行綜述,即基于候選區(qū)域算法和基于回歸算法。對(duì)于第一類算法,先介紹了基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region with Convolutional Neural Network,R-CNN)系列算法的發(fā)展史,然后從四個(gè)維度綜述了研究者在RCNN系列算法基礎(chǔ)上所做的改進(jìn)研究:對(duì)特征提取網(wǎng)絡(luò)的改進(jìn)研究、對(duì)感興趣區(qū)域池化層的改進(jìn)研究、...
【文章來源】:江西理工大學(xué)江西省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
HyperNet的結(jié)構(gòu)[45]
第二章基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究綜述15圖2.5HyperNet的結(jié)構(gòu)[45]2017年Tsung-YiLin等人[30]提出了特征金字塔網(wǎng)絡(luò)(FeaturePyramidNetwork,F(xiàn)PN),它使用了ResNet101作為特征提取網(wǎng)絡(luò),在此基礎(chǔ)上構(gòu)造了一種自頂向下帶有橫向連接的層次結(jié)構(gòu),來產(chǎn)生各個(gè)尺度的高層語義特征,并對(duì)各個(gè)尺度的特征進(jìn)行單獨(dú)的預(yù)測(cè)。首先將輸入的圖像進(jìn)行深度卷積操作,然后使用上采樣方式擴(kuò)張網(wǎng)絡(luò)頂端的特征圖形成自頂向下的結(jié)構(gòu),再通過橫向連接將上采樣的結(jié)果和對(duì)應(yīng)相同尺寸的卷積網(wǎng)絡(luò)特征圖進(jìn)行融合,融合后的特征先進(jìn)行3×3的卷積操作,消除上采樣的混疊效應(yīng),再進(jìn)行單獨(dú)的預(yù)測(cè)。FPN將高層特征圖與底層特征圖相融合,使得融合后的特征圖不僅具有較強(qiáng)的語義信息,還具有較豐富的幾何信息,有利于提高小目標(biāo)的檢測(cè)精度。2018年Bharat等人[46]提出了圖像金字塔的尺度歸一化方法(ScaleNormalizationforImagePyramids,SNIP)用于提高小目標(biāo)檢測(cè)性能。如圖2.6所示,他們借鑒了多尺度訓(xùn)練思想,使用圖像金字塔網(wǎng)絡(luò)將圖像生成三種不同分辨率的輸入圖像,高分辨率圖像只用于小目標(biāo)檢測(cè),中等分辨率圖像只進(jìn)行中等目標(biāo)檢測(cè),低分辨率圖像只進(jìn)行大目標(biāo)檢測(cè)。具體實(shí)現(xiàn)是在訓(xùn)練時(shí),預(yù)先限定了三個(gè)尺度范圍,分別對(duì)應(yīng)大、中、小型目標(biāo)的尺度范圍,然后只對(duì)尺度在指定范圍內(nèi)的目標(biāo)候選區(qū)域進(jìn)行反向傳播,如在高分辨率圖像中,只對(duì)在小目標(biāo)尺度范圍內(nèi)的目標(biāo)候選框進(jìn)行回傳梯度,忽略其他范圍的目標(biāo)候選框。在此基礎(chǔ)上,Bharat等人對(duì)輸入圖像采樣策略進(jìn)行了優(yōu)化,提出了SNIPER方法[47],有效減少了圖像金字塔的計(jì)算開銷。圖2.6SNIP網(wǎng)絡(luò)結(jié)構(gòu)[46]
分別獲取對(duì)象的全局信息和上下文信息,然后有效的結(jié)合候選區(qū)域的局部信息、全局信息和上下文信息進(jìn)行檢測(cè)。Zhu等人[49]對(duì)CoupleNet算法進(jìn)一步改進(jìn),提出了AttentionCoupleNet算法,該算法設(shè)計(jì)了一個(gè)級(jí)聯(lián)的注意力結(jié)構(gòu)用以感知圖像的全局場(chǎng)景,從而生成不知類別的注意力圖,再將注意力圖編碼進(jìn)網(wǎng)絡(luò)中以獲取目標(biāo)感知特征,并使用數(shù)據(jù)集的實(shí)例分割標(biāo)注輔助訓(xùn)練,使得檢測(cè)器的性能有顯著提升。2017年Dai等人[50,51]提出了形變卷積網(wǎng)絡(luò)(DeformationConvolutionNetwork,DCN),設(shè)計(jì)了可形變卷積和可形變感興趣區(qū)域池化層(如圖2.7所示)。這兩種結(jié)構(gòu)的核心思想都是先通過標(biāo)準(zhǔn)卷積給每個(gè)采樣點(diǎn)學(xué)習(xí)到一個(gè)位置偏移量,然后結(jié)合位置偏移量再進(jìn)行卷積或者池化操作。可形變卷積的感受野不再是一成不變的正方形,而是和物體的實(shí)際形狀相匹配,旨在解決檢測(cè)任務(wù)中物體形變問題?尚巫兏信d趣區(qū)域池化層為每個(gè)劃分小塊添加一個(gè)位置偏移量,使網(wǎng)絡(luò)學(xué)習(xí)了更多的空間位置信息,增強(qiáng)了網(wǎng)絡(luò)對(duì)物體的定位能力。圖2.7可形變卷積和可形變ROIPooling[50,51]
本文編號(hào):2936353
【文章來源】:江西理工大學(xué)江西省
【文章頁數(shù)】:72 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
HyperNet的結(jié)構(gòu)[45]
第二章基于深度學(xué)習(xí)的目標(biāo)檢測(cè)研究綜述15圖2.5HyperNet的結(jié)構(gòu)[45]2017年Tsung-YiLin等人[30]提出了特征金字塔網(wǎng)絡(luò)(FeaturePyramidNetwork,F(xiàn)PN),它使用了ResNet101作為特征提取網(wǎng)絡(luò),在此基礎(chǔ)上構(gòu)造了一種自頂向下帶有橫向連接的層次結(jié)構(gòu),來產(chǎn)生各個(gè)尺度的高層語義特征,并對(duì)各個(gè)尺度的特征進(jìn)行單獨(dú)的預(yù)測(cè)。首先將輸入的圖像進(jìn)行深度卷積操作,然后使用上采樣方式擴(kuò)張網(wǎng)絡(luò)頂端的特征圖形成自頂向下的結(jié)構(gòu),再通過橫向連接將上采樣的結(jié)果和對(duì)應(yīng)相同尺寸的卷積網(wǎng)絡(luò)特征圖進(jìn)行融合,融合后的特征先進(jìn)行3×3的卷積操作,消除上采樣的混疊效應(yīng),再進(jìn)行單獨(dú)的預(yù)測(cè)。FPN將高層特征圖與底層特征圖相融合,使得融合后的特征圖不僅具有較強(qiáng)的語義信息,還具有較豐富的幾何信息,有利于提高小目標(biāo)的檢測(cè)精度。2018年Bharat等人[46]提出了圖像金字塔的尺度歸一化方法(ScaleNormalizationforImagePyramids,SNIP)用于提高小目標(biāo)檢測(cè)性能。如圖2.6所示,他們借鑒了多尺度訓(xùn)練思想,使用圖像金字塔網(wǎng)絡(luò)將圖像生成三種不同分辨率的輸入圖像,高分辨率圖像只用于小目標(biāo)檢測(cè),中等分辨率圖像只進(jìn)行中等目標(biāo)檢測(cè),低分辨率圖像只進(jìn)行大目標(biāo)檢測(cè)。具體實(shí)現(xiàn)是在訓(xùn)練時(shí),預(yù)先限定了三個(gè)尺度范圍,分別對(duì)應(yīng)大、中、小型目標(biāo)的尺度范圍,然后只對(duì)尺度在指定范圍內(nèi)的目標(biāo)候選區(qū)域進(jìn)行反向傳播,如在高分辨率圖像中,只對(duì)在小目標(biāo)尺度范圍內(nèi)的目標(biāo)候選框進(jìn)行回傳梯度,忽略其他范圍的目標(biāo)候選框。在此基礎(chǔ)上,Bharat等人對(duì)輸入圖像采樣策略進(jìn)行了優(yōu)化,提出了SNIPER方法[47],有效減少了圖像金字塔的計(jì)算開銷。圖2.6SNIP網(wǎng)絡(luò)結(jié)構(gòu)[46]
分別獲取對(duì)象的全局信息和上下文信息,然后有效的結(jié)合候選區(qū)域的局部信息、全局信息和上下文信息進(jìn)行檢測(cè)。Zhu等人[49]對(duì)CoupleNet算法進(jìn)一步改進(jìn),提出了AttentionCoupleNet算法,該算法設(shè)計(jì)了一個(gè)級(jí)聯(lián)的注意力結(jié)構(gòu)用以感知圖像的全局場(chǎng)景,從而生成不知類別的注意力圖,再將注意力圖編碼進(jìn)網(wǎng)絡(luò)中以獲取目標(biāo)感知特征,并使用數(shù)據(jù)集的實(shí)例分割標(biāo)注輔助訓(xùn)練,使得檢測(cè)器的性能有顯著提升。2017年Dai等人[50,51]提出了形變卷積網(wǎng)絡(luò)(DeformationConvolutionNetwork,DCN),設(shè)計(jì)了可形變卷積和可形變感興趣區(qū)域池化層(如圖2.7所示)。這兩種結(jié)構(gòu)的核心思想都是先通過標(biāo)準(zhǔn)卷積給每個(gè)采樣點(diǎn)學(xué)習(xí)到一個(gè)位置偏移量,然后結(jié)合位置偏移量再進(jìn)行卷積或者池化操作。可形變卷積的感受野不再是一成不變的正方形,而是和物體的實(shí)際形狀相匹配,旨在解決檢測(cè)任務(wù)中物體形變問題?尚巫兏信d趣區(qū)域池化層為每個(gè)劃分小塊添加一個(gè)位置偏移量,使網(wǎng)絡(luò)學(xué)習(xí)了更多的空間位置信息,增強(qiáng)了網(wǎng)絡(luò)對(duì)物體的定位能力。圖2.7可形變卷積和可形變ROIPooling[50,51]
本文編號(hào):2936353
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2936353.html
最近更新
教材專著