基于高分辨率類別激活圖的弱監(jiān)督圖像分割方法研究
發(fā)布時(shí)間:2021-10-06 16:42
圖像分割是計(jì)算機(jī)視覺和圖像處理領(lǐng)域的核心研究問題之一。語義圖像分割,作為其中一個(gè)重要的研究分支,其目標(biāo)是將給定圖像中的每個(gè)像素分類到某個(gè)已知的語義類別。近年來,基于深度卷積神經(jīng)網(wǎng)絡(luò)的語義圖像分割方法取得了快速的發(fā)展,使用像素級(jí)標(biāo)注的全監(jiān)督方法在多個(gè)公開數(shù)據(jù)集上都取得了不錯(cuò)的表現(xiàn)。然而,這些方法的良好表現(xiàn)尤其依賴于大量的人工標(biāo)注的圖像分割數(shù)據(jù)。由于人工標(biāo)注像素類別的成本較高,實(shí)際應(yīng)用中通常難以獲得大量的像素級(jí)標(biāo)注數(shù)據(jù)。為了降低模型對(duì)于全像素標(biāo)注數(shù)據(jù)的依賴,使用稀疏標(biāo)注(例如目標(biāo)邊界框、圖片類別等)的弱監(jiān)督語義圖像分割方法受到越來越多的關(guān)注。目前,針對(duì)基于圖片類別標(biāo)注的弱監(jiān)督語義圖像分割問題,主流方法大多采用了一個(gè)兩階段的訓(xùn)練框架來解決訓(xùn)練中監(jiān)督缺失的問題。在這一框架中,第一階段利用了圖片的類別標(biāo)注來訓(xùn)練一個(gè)圖像分類模型,用以提取圖像中目標(biāo)對(duì)象的粗略定位;第二階段中粗略的定位信息被轉(zhuǎn)化為圖像的偽像素分割標(biāo)注,用以訓(xùn)練語義分割模型。在這當(dāng)中,類別激活圖(CAM)方法常被用于從圖像分類模型中提取圖像中語義目標(biāo)的關(guān)注圖,以反映目標(biāo)的大致定位。目標(biāo)關(guān)注圖的質(zhì)量會(huì)影響偽像素分割標(biāo)注的精確度,從而影響...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
類別激活圖計(jì)算過程示意圖[19]
第1章緒論9錯(cuò)誤的學(xué)習(xí),本文引入注意力機(jī)制來實(shí)現(xiàn)特征的重整和增強(qiáng),使網(wǎng)絡(luò)關(guān)注重要的目標(biāo)區(qū)域,減少無關(guān)區(qū)域的影響。在深度神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制通過學(xué)習(xí)不同區(qū)域的局部特征之間的相關(guān)性,重新調(diào)整分配網(wǎng)絡(luò)學(xué)習(xí)的重點(diǎn)目標(biāo),突出重要區(qū)域的特征的影響,而弱化不重要的區(qū)域的特征的影響。的本文提出了基于“聚合-激活”模塊的多尺寸CAM分類網(wǎng)絡(luò),通過在融合的大尺寸特征圖之后加入注意力模塊,以強(qiáng)化特征表示的學(xué)習(xí)。該方法有效地改善了多尺寸CAM網(wǎng)絡(luò)在提取高分辨率CAM過程中的表現(xiàn)。緩解了高分辨率特征圖中由于噪聲和較小的視覺感受也帶來的不利影響。(3)利用多尺寸特征融合和引入注意力機(jī)制,有效地實(shí)現(xiàn)了CAM分辨率的擴(kuò)張,但是并沒有實(shí)現(xiàn)真正意義上像素級(jí)分辨率的高分辨率CAM生成。受限于分類網(wǎng)絡(luò)訓(xùn)練的固有模式,和CAM提取的固定計(jì)算方法,此類的方法提取的目標(biāo)關(guān)注圖依然很難適應(yīng)復(fù)雜的自然圖像的場(chǎng)景變化;谏疃葘W(xué)習(xí)的圖像分割任務(wù)中,一個(gè)常見的思路是利用解碼網(wǎng)絡(luò),將分類網(wǎng)絡(luò)提取到的多尺寸特征融合起來以獲取一個(gè)高分辨率的特征表示。受到他們的啟發(fā),本文提出了一種全新的CAM生成方式,利用編碼-解碼網(wǎng)絡(luò)更加徹底地融合圖像的個(gè)尺寸中間特征,實(shí)現(xiàn)了圖像級(jí)分辨率的目標(biāo)關(guān)注圖提齲這種基于編解碼網(wǎng)絡(luò)的高分辨率CAM生成模型放棄了傳統(tǒng)的分類網(wǎng)絡(luò)的訓(xùn)練模式和固定的CAM計(jì)算流程,而是采用了啟發(fā)式的語義一致性優(yōu)化目標(biāo),并結(jié)合CAM的稀疏性約束和原始CAM引導(dǎo),實(shí)現(xiàn)了大幅增加CAM精細(xì)度,并有效提升了基于CAM的兩階段框架對(duì)于弱監(jiān)督語義圖像分割任務(wù)的性能表現(xiàn)。圖1-2本文研究?jī)?nèi)容框架圖
第2章基于多尺寸特征融合的高分辨率CAM模型112.2深度卷積網(wǎng)絡(luò)與多尺寸特征區(qū)別于多層感知器(Multi-LayerPerceptron,MLP),深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetwork,DCNN)的網(wǎng)絡(luò)層之間并不是全連接的。下一層的某個(gè)神經(jīng)元只對(duì)上一層的特定局部范圍內(nèi)的神經(jīng)元產(chǎn)生響應(yīng),這個(gè)范圍由卷積核控制,由于是受到貓的視覺皮層研究的啟發(fā),這個(gè)區(qū)域也稱之為感受野。在圖像任務(wù)中,通常我們將輸入圖像視為一個(gè)h×w×c的張量,這里h表示高度,w表示寬度,c表示通道數(shù),對(duì)于彩色輸入圖像,通道數(shù)就是RGB的3通道。對(duì)于此類情形,一個(gè)一般的卷積核就是一個(gè)k×k×c的張量,這里k是卷積核的尺寸。卷積操作是讓卷積核掃描輸入張量的各個(gè)位置,求得相應(yīng)的卷積再輸出得到新的張量,其過程數(shù)學(xué)表述如下:+1(,,)=((,,))=(∑(,,)×(,,)(,,)∈(,,))(21)其中,(x,y,z)表示輸出張量的某個(gè)位點(diǎn),RF(x,y,z)表示以該位點(diǎn)為中心的卷積核的感受野,f則是激活函數(shù)。該過程的一個(gè)簡(jiǎn)單可視化如圖2-1所示(h=w=7,k=3,c=1)。圖2-13×3卷積核卷積操作示意圖對(duì)于每一個(gè)特定的卷積核,我們都可以在一個(gè)輸入張量上卷積得到一個(gè)特征圖輸出,但是僅僅一個(gè)卷積核的特征提取能力是非常有限的,所以我們可以采用多個(gè)不同的卷積核進(jìn)行同樣的操作,再把得到的多個(gè)特征圖重疊起來,就得到了一個(gè)新的張量。圖2-1顯示的是對(duì)于輸入張量通道數(shù)為1且只采用了一個(gè)卷積核的簡(jiǎn)單例子。事實(shí)上,卷積操作還有許多可以設(shè)計(jì)的細(xì)節(jié),例如卷積核在輸入張量上的平移步長(zhǎng)(Stride),是否采用邊緣填補(bǔ)(Padding)等等,關(guān)
本文編號(hào):3420382
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
類別激活圖計(jì)算過程示意圖[19]
第1章緒論9錯(cuò)誤的學(xué)習(xí),本文引入注意力機(jī)制來實(shí)現(xiàn)特征的重整和增強(qiáng),使網(wǎng)絡(luò)關(guān)注重要的目標(biāo)區(qū)域,減少無關(guān)區(qū)域的影響。在深度神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制通過學(xué)習(xí)不同區(qū)域的局部特征之間的相關(guān)性,重新調(diào)整分配網(wǎng)絡(luò)學(xué)習(xí)的重點(diǎn)目標(biāo),突出重要區(qū)域的特征的影響,而弱化不重要的區(qū)域的特征的影響。的本文提出了基于“聚合-激活”模塊的多尺寸CAM分類網(wǎng)絡(luò),通過在融合的大尺寸特征圖之后加入注意力模塊,以強(qiáng)化特征表示的學(xué)習(xí)。該方法有效地改善了多尺寸CAM網(wǎng)絡(luò)在提取高分辨率CAM過程中的表現(xiàn)。緩解了高分辨率特征圖中由于噪聲和較小的視覺感受也帶來的不利影響。(3)利用多尺寸特征融合和引入注意力機(jī)制,有效地實(shí)現(xiàn)了CAM分辨率的擴(kuò)張,但是并沒有實(shí)現(xiàn)真正意義上像素級(jí)分辨率的高分辨率CAM生成。受限于分類網(wǎng)絡(luò)訓(xùn)練的固有模式,和CAM提取的固定計(jì)算方法,此類的方法提取的目標(biāo)關(guān)注圖依然很難適應(yīng)復(fù)雜的自然圖像的場(chǎng)景變化;谏疃葘W(xué)習(xí)的圖像分割任務(wù)中,一個(gè)常見的思路是利用解碼網(wǎng)絡(luò),將分類網(wǎng)絡(luò)提取到的多尺寸特征融合起來以獲取一個(gè)高分辨率的特征表示。受到他們的啟發(fā),本文提出了一種全新的CAM生成方式,利用編碼-解碼網(wǎng)絡(luò)更加徹底地融合圖像的個(gè)尺寸中間特征,實(shí)現(xiàn)了圖像級(jí)分辨率的目標(biāo)關(guān)注圖提齲這種基于編解碼網(wǎng)絡(luò)的高分辨率CAM生成模型放棄了傳統(tǒng)的分類網(wǎng)絡(luò)的訓(xùn)練模式和固定的CAM計(jì)算流程,而是采用了啟發(fā)式的語義一致性優(yōu)化目標(biāo),并結(jié)合CAM的稀疏性約束和原始CAM引導(dǎo),實(shí)現(xiàn)了大幅增加CAM精細(xì)度,并有效提升了基于CAM的兩階段框架對(duì)于弱監(jiān)督語義圖像分割任務(wù)的性能表現(xiàn)。圖1-2本文研究?jī)?nèi)容框架圖
第2章基于多尺寸特征融合的高分辨率CAM模型112.2深度卷積網(wǎng)絡(luò)與多尺寸特征區(qū)別于多層感知器(Multi-LayerPerceptron,MLP),深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetwork,DCNN)的網(wǎng)絡(luò)層之間并不是全連接的。下一層的某個(gè)神經(jīng)元只對(duì)上一層的特定局部范圍內(nèi)的神經(jīng)元產(chǎn)生響應(yīng),這個(gè)范圍由卷積核控制,由于是受到貓的視覺皮層研究的啟發(fā),這個(gè)區(qū)域也稱之為感受野。在圖像任務(wù)中,通常我們將輸入圖像視為一個(gè)h×w×c的張量,這里h表示高度,w表示寬度,c表示通道數(shù),對(duì)于彩色輸入圖像,通道數(shù)就是RGB的3通道。對(duì)于此類情形,一個(gè)一般的卷積核就是一個(gè)k×k×c的張量,這里k是卷積核的尺寸。卷積操作是讓卷積核掃描輸入張量的各個(gè)位置,求得相應(yīng)的卷積再輸出得到新的張量,其過程數(shù)學(xué)表述如下:+1(,,)=((,,))=(∑(,,)×(,,)(,,)∈(,,))(21)其中,(x,y,z)表示輸出張量的某個(gè)位點(diǎn),RF(x,y,z)表示以該位點(diǎn)為中心的卷積核的感受野,f則是激活函數(shù)。該過程的一個(gè)簡(jiǎn)單可視化如圖2-1所示(h=w=7,k=3,c=1)。圖2-13×3卷積核卷積操作示意圖對(duì)于每一個(gè)特定的卷積核,我們都可以在一個(gè)輸入張量上卷積得到一個(gè)特征圖輸出,但是僅僅一個(gè)卷積核的特征提取能力是非常有限的,所以我們可以采用多個(gè)不同的卷積核進(jìn)行同樣的操作,再把得到的多個(gè)特征圖重疊起來,就得到了一個(gè)新的張量。圖2-1顯示的是對(duì)于輸入張量通道數(shù)為1且只采用了一個(gè)卷積核的簡(jiǎn)單例子。事實(shí)上,卷積操作還有許多可以設(shè)計(jì)的細(xì)節(jié),例如卷積核在輸入張量上的平移步長(zhǎng)(Stride),是否采用邊緣填補(bǔ)(Padding)等等,關(guān)
本文編號(hào):3420382
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3420382.html
最近更新
教材專著