基于視覺(jué)注意的圖像描述生成研究
發(fā)布時(shí)間:2021-01-04 23:31
圖像描述生成是最近幾年來(lái)十分熱門(mén)的研究方向,是一個(gè)多模態(tài)的問(wèn)題,包含了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩大領(lǐng)域。本文通過(guò)模擬人類(lèi)的注意力機(jī)制,研究提取視覺(jué)顯著特征的方法,最后借助編解碼框架生成圖像句子描述。本文首先研究多解碼器融合的注意力圖像描述生成模型,然后以此為基礎(chǔ),利用策略梯度對(duì)模型進(jìn)行優(yōu)化、利用區(qū)分性引導(dǎo)在優(yōu)化后的模型上研究相似圖像內(nèi)容的不同句子描述。在MSCOCO圖像描述數(shù)據(jù)集上的實(shí)驗(yàn)證明了論文研究的圖像描述方法的性能。本文主要研究?jī)?nèi)容如下:1)針對(duì)現(xiàn)有圖像描述方法大多難以充分利用空間和目標(biāo)特征,導(dǎo)致圖像描述不足以反映圖像豐富內(nèi)容的問(wèn)題,論文研究空間注意力和目標(biāo)注意力提取顯著特征,并將其分別引入到多層解碼器融合架構(gòu),提出基于多解碼器融合的注意力圖像描述生成方法。多層解碼器由全局解碼層、目標(biāo)解碼層和空間解碼層三層組成,并形成層層遞進(jìn)的解碼結(jié)構(gòu)。對(duì)于目標(biāo)注意力顯著特征是將空間整體特征、目標(biāo)特征以及全局解碼器隱藏狀態(tài)信息輸入到目標(biāo)注意力層生成的,然后將其輸入到目標(biāo)解碼器獲得局部目標(biāo)特征解碼;對(duì)于空間注意力顯著特征是將目標(biāo)整體特征、空間特征、目標(biāo)注意力特征以及目標(biāo)解碼器隱藏狀態(tài)信息輸入到空間...
【文章來(lái)源】:蘇州大學(xué)江蘇省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1基于多解碼器融合的注意力圖書(shū)描述生成框架??
基于視覺(jué)注意的圖像描述生成研宄?第二章基于多解碼器融合的注意力圖像描述生成方法??有16層,如圖2-2所示,它所提出的特征更加的魯棒,具有更強(qiáng)的表達(dá)能力。??微軟研宄所的何凱明等人[41]接著提出了?ResNet網(wǎng)絡(luò),訓(xùn)練了?152層的神經(jīng)網(wǎng)絡(luò),??取得了?2015年ImageNet分類(lèi)任務(wù)的冠軍,同時(shí)參數(shù)比VGG網(wǎng)絡(luò)更低。ResNet創(chuàng)造??性的在網(wǎng)絡(luò)中加入了直連通層,如圖2-3所示,可以直接將輸入信息跳過(guò)一層或幾層??往下傳輸,從而解決信息傳遞的信息丟失以及由于模型太深帶來(lái)的梯度消失問(wèn)題。論??文采用在ImageNet上預(yù)訓(xùn)練的ResNetlOl網(wǎng)絡(luò)結(jié)構(gòu)提取圖像空間特征,提取的是??ResNet網(wǎng)絡(luò)最后一層卷積層的特征,這一層特征既有一定語(yǔ)義信息,又能夠包含很多??的圖像空間特征。??■?■■■■■??〇?〇?^?n?〇?^?〇?〇?〇?^?〇?〇?〇?>*?o?n?o?^?t? ̄?c/5??I一?華華v?琴琴!卜>華學(xué)拳v?學(xué)華1?1一?華I華!g?31??圖2-2?VGG?16結(jié)構(gòu)圖??X????Weight?layer??relu??Weight?layer??^4———??relu??圖2-3殘差塊結(jié)構(gòu)??2.2.2圖像目標(biāo)特征提取??圖像中有著豐富的目標(biāo)特征信息,這些特征信息對(duì)圖像描述中的目標(biāo)類(lèi)的詞生成??具有不可或缺的幫助,而目標(biāo)檢測(cè)的發(fā)展使得目標(biāo)特征信息提取成為可能。目標(biāo)檢測(cè)??的任務(wù)是找出圖像中感興趣的目標(biāo),確定他們的位置,并將它們分類(lèi),但是由于各類(lèi)??物體各有其特點(diǎn),并且對(duì)于計(jì)算機(jī)而言,很難確定圖像中目標(biāo)的高層語(yǔ)義信息和他們??11??
基于視覺(jué)注意的圖像描述生成研究?第二章基于多解碼器融合的注意力圖像描述生成方法??卷積層??特征圖??Region?Proposal??Rol池化??邊框回歸?分類(lèi)??圖2-4?Faster?R-CNN總體結(jié)構(gòu)圖??2.3多解碼器融合的注意力網(wǎng)絡(luò)??圖像描述生成是一個(gè)序列任務(wù),對(duì)于t時(shí)刻,要生成單詞vvt可以通過(guò)條件概率??,1^4,1)來(lái)表示,其中I為圖像特征。它的輸入為圖像以及當(dāng)前時(shí)刻的詞向??量,如何能夠從復(fù)雜的圖像特征中抽取有用的信息成為關(guān)鍵因素之一。注意力機(jī)制的??本質(zhì)為計(jì)算特征的概率分布,并對(duì)特征進(jìn)行加權(quán)求和,獲得注意力特征圖,對(duì)于所需??要的顯著特征賦予更大的權(quán)值。本章使用了兩種注意力機(jī)制來(lái)過(guò)濾圖像中的噪聲,一??種稱之為空間注意力機(jī)制,一種稱之為目標(biāo)注意力機(jī)制,并且通過(guò)這兩種注意力機(jī)制??得到顯著特征輸入多層解碼器融合架構(gòu)中解碼。本章使用三層LSTM解碼器進(jìn)行解??碼,第-層LSTM解碼器為全局解碼器(Global?LSTM),獲取關(guān)聯(lián)之前單詞的整體??上的一個(gè)特征表達(dá),這一層LSTM獲得特征比較粗糙。第二層LSTM稱之為目標(biāo)解??碼器(Object?LSTM),主要解碼的是目標(biāo)注意力特征。第三層LSTM稱之為空間解碼??器(Spatial?LSTM),主要解碼的是空間注意力特征,最終將三層LSTM的隱藏狀態(tài)??輸入到一個(gè)全連接層進(jìn)行融合,輸入到softmax中進(jìn)行分類(lèi)。本小節(jié)將首先介紹主流??的編解碼結(jié)構(gòu),然后介紹使用的空間注意力層和目標(biāo)注意力層提取顯著特征過(guò)程,然??后詳細(xì)講述多層解碼器融合架構(gòu)的解碼過(guò)程。??13??
【參考文獻(xiàn)】:
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長(zhǎng),鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
本文編號(hào):2957560
【文章來(lái)源】:蘇州大學(xué)江蘇省
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1基于多解碼器融合的注意力圖書(shū)描述生成框架??
基于視覺(jué)注意的圖像描述生成研宄?第二章基于多解碼器融合的注意力圖像描述生成方法??有16層,如圖2-2所示,它所提出的特征更加的魯棒,具有更強(qiáng)的表達(dá)能力。??微軟研宄所的何凱明等人[41]接著提出了?ResNet網(wǎng)絡(luò),訓(xùn)練了?152層的神經(jīng)網(wǎng)絡(luò),??取得了?2015年ImageNet分類(lèi)任務(wù)的冠軍,同時(shí)參數(shù)比VGG網(wǎng)絡(luò)更低。ResNet創(chuàng)造??性的在網(wǎng)絡(luò)中加入了直連通層,如圖2-3所示,可以直接將輸入信息跳過(guò)一層或幾層??往下傳輸,從而解決信息傳遞的信息丟失以及由于模型太深帶來(lái)的梯度消失問(wèn)題。論??文采用在ImageNet上預(yù)訓(xùn)練的ResNetlOl網(wǎng)絡(luò)結(jié)構(gòu)提取圖像空間特征,提取的是??ResNet網(wǎng)絡(luò)最后一層卷積層的特征,這一層特征既有一定語(yǔ)義信息,又能夠包含很多??的圖像空間特征。??■?■■■■■??〇?〇?^?n?〇?^?〇?〇?〇?^?〇?〇?〇?>*?o?n?o?^?t? ̄?c/5??I一?華華v?琴琴!卜>華學(xué)拳v?學(xué)華1?1一?華I華!g?31??圖2-2?VGG?16結(jié)構(gòu)圖??X????Weight?layer??relu??Weight?layer??^4———??relu??圖2-3殘差塊結(jié)構(gòu)??2.2.2圖像目標(biāo)特征提取??圖像中有著豐富的目標(biāo)特征信息,這些特征信息對(duì)圖像描述中的目標(biāo)類(lèi)的詞生成??具有不可或缺的幫助,而目標(biāo)檢測(cè)的發(fā)展使得目標(biāo)特征信息提取成為可能。目標(biāo)檢測(cè)??的任務(wù)是找出圖像中感興趣的目標(biāo),確定他們的位置,并將它們分類(lèi),但是由于各類(lèi)??物體各有其特點(diǎn),并且對(duì)于計(jì)算機(jī)而言,很難確定圖像中目標(biāo)的高層語(yǔ)義信息和他們??11??
基于視覺(jué)注意的圖像描述生成研究?第二章基于多解碼器融合的注意力圖像描述生成方法??卷積層??特征圖??Region?Proposal??Rol池化??邊框回歸?分類(lèi)??圖2-4?Faster?R-CNN總體結(jié)構(gòu)圖??2.3多解碼器融合的注意力網(wǎng)絡(luò)??圖像描述生成是一個(gè)序列任務(wù),對(duì)于t時(shí)刻,要生成單詞vvt可以通過(guò)條件概率??,1^4,1)來(lái)表示,其中I為圖像特征。它的輸入為圖像以及當(dāng)前時(shí)刻的詞向??量,如何能夠從復(fù)雜的圖像特征中抽取有用的信息成為關(guān)鍵因素之一。注意力機(jī)制的??本質(zhì)為計(jì)算特征的概率分布,并對(duì)特征進(jìn)行加權(quán)求和,獲得注意力特征圖,對(duì)于所需??要的顯著特征賦予更大的權(quán)值。本章使用了兩種注意力機(jī)制來(lái)過(guò)濾圖像中的噪聲,一??種稱之為空間注意力機(jī)制,一種稱之為目標(biāo)注意力機(jī)制,并且通過(guò)這兩種注意力機(jī)制??得到顯著特征輸入多層解碼器融合架構(gòu)中解碼。本章使用三層LSTM解碼器進(jìn)行解??碼,第-層LSTM解碼器為全局解碼器(Global?LSTM),獲取關(guān)聯(lián)之前單詞的整體??上的一個(gè)特征表達(dá),這一層LSTM獲得特征比較粗糙。第二層LSTM稱之為目標(biāo)解??碼器(Object?LSTM),主要解碼的是目標(biāo)注意力特征。第三層LSTM稱之為空間解碼??器(Spatial?LSTM),主要解碼的是空間注意力特征,最終將三層LSTM的隱藏狀態(tài)??輸入到一個(gè)全連接層進(jìn)行融合,輸入到softmax中進(jìn)行分類(lèi)。本小節(jié)將首先介紹主流??的編解碼結(jié)構(gòu),然后介紹使用的空間注意力層和目標(biāo)注意力層提取顯著特征過(guò)程,然??后詳細(xì)講述多層解碼器融合架構(gòu)的解碼過(guò)程。??13??
【參考文獻(xiàn)】:
期刊論文
[1]深度強(qiáng)化學(xué)習(xí)綜述[J]. 劉全,翟建偉,章宗長(zhǎng),鐘珊,周倩,章鵬,徐進(jìn). 計(jì)算機(jī)學(xué)報(bào). 2018(01)
本文編號(hào):2957560
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2957560.html
最近更新
教材專(zhuān)著