面向共同空間學(xué)習(xí)的多模態(tài)數(shù)據(jù)建模和檢索研究
發(fā)布時(shí)間:2021-11-12 12:11
隨著大數(shù)據(jù)時(shí)代的到來,以文本、圖像、語音等為代表的多媒體數(shù)據(jù)在數(shù)據(jù)量和數(shù)據(jù)多樣性上均達(dá)到了很大的規(guī)模,進(jìn)而對這些多媒體數(shù)據(jù)進(jìn)行檢索和建模也逐漸變得具有吸引力,即針對多媒體數(shù)據(jù)中存在的多模態(tài)性進(jìn)行研究已經(jīng)成為熱點(diǎn)。而為了克服多模態(tài)數(shù)據(jù)存在的數(shù)據(jù)結(jié)構(gòu)多樣性、信息復(fù)雜性和對任務(wù)的不匹配性,多模態(tài)數(shù)據(jù)融合起著很重要的作用,其可以通過整合多模態(tài)中所包含的信息從而得到一個(gè)任務(wù)導(dǎo)向的統(tǒng)一表征。在這其中,面向構(gòu)建統(tǒng)一表征的共同空間學(xué)習(xí)是主要途徑,即針對數(shù)據(jù)中存在的多模態(tài)性進(jìn)行建模,從而為多元輸入學(xué)習(xí)潛在的共同空間從而實(shí)現(xiàn)稠密數(shù)據(jù)檢索和目標(biāo)定位、數(shù)據(jù)不平衡處理和多模態(tài)數(shù)據(jù)檢索。本論文的研究以深度神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)作為共同空間學(xué)習(xí)的主要技術(shù)。首先,針對多模態(tài)數(shù)據(jù)中稠密數(shù)據(jù)的建模,本論文提出了細(xì)粒度漸進(jìn)注意力定位網(wǎng)絡(luò)(FPAN)以完成針對圖像數(shù)據(jù)的檢索和定位工作。即著重對深度學(xué)習(xí)如何建模圖像數(shù)據(jù)進(jìn)行研究,特別是解決輸入目標(biāo)圖像在待檢索圖像上如何進(jìn)行目標(biāo)定位這一關(guān)鍵問題。對這一問題的解決有效地探索了稠密模態(tài)數(shù)據(jù)間的信息交互并有助于推動研究深度學(xué)習(xí)如何用于共同空間學(xué)習(xí)的建模。FPAN以全卷積網(wǎng)絡(luò)、細(xì)粒度“軟”注...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【部分圖文】:
映射到共同空間中的向量的語義保留性和結(jié)構(gòu)不變性
級聯(lián)上采樣N ×圖3.2 細(xì)粒度注意力漸進(jìn)網(wǎng)絡(luò)框圖3.1 FPAN 的主體思想給定圖像 x 和查詢對象 q,模型需要能確定 q 在 x 中的準(zhǔn)確位置。可以用公式 z = {x,q} 表示輸入的一對圖像和查詢。然后,理想的特征函數(shù) 可以從二者中提取最具可分性的特征 , 。同時(shí),檢索函數(shù)需要可以從 x 的背景中將目標(biāo)對象分離并得到查詢對象的位置。在這里,本算法將特征提取和目標(biāo)檢索作為兩個(gè)互相作用的過程。為了聯(lián)合優(yōu)化這個(gè)兩個(gè)過程,提出迭代定位策略,其可用公式表達(dá)如下: +1= +1 +1= +1( ) = , = 1 , … , = ( 1, 2, … , )(3 1)如上述公式可知,本算法采用由粗到細(xì)的定位方式不斷迭代優(yōu)化特征提取和定位函數(shù),其主要包括細(xì)粒度注意力生成函數(shù) T
第三章 用于多模態(tài)數(shù)據(jù)檢索的細(xì)粒度漸進(jìn)注意力定位網(wǎng)絡(luò)征,從而 T 可以據(jù)此生成細(xì)粒度的注意力圖。然后 Ω 整合這些注意力圖前最優(yōu)的注意力分布。進(jìn)而,圖像的特征圖和注意力圖進(jìn)行逐元素相乘以作的輸入。最后,Θ 用于確定查詢目標(biāo)在原圖中的確切位置,而這也有利于圖督。需要注意的是 為很多機(jī)器視覺任務(wù)[41]中常用的已經(jīng)預(yù)訓(xùn)練的深度卷絡(luò)。本章中提出的框架利用漸進(jìn)注意力的思想來確定圖像中查詢目標(biāo)的位和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,其中框架以及其中子模塊的結(jié)構(gòu)細(xì)節(jié)如圖 3.3 中N ×
【參考文獻(xiàn)】:
期刊論文
[1]跨媒體分析與推理:研究進(jìn)展與發(fā)展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
本文編號:3490889
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁數(shù)】:101 頁
【學(xué)位級別】:碩士
【部分圖文】:
映射到共同空間中的向量的語義保留性和結(jié)構(gòu)不變性
級聯(lián)上采樣N ×圖3.2 細(xì)粒度注意力漸進(jìn)網(wǎng)絡(luò)框圖3.1 FPAN 的主體思想給定圖像 x 和查詢對象 q,模型需要能確定 q 在 x 中的準(zhǔn)確位置。可以用公式 z = {x,q} 表示輸入的一對圖像和查詢。然后,理想的特征函數(shù) 可以從二者中提取最具可分性的特征 , 。同時(shí),檢索函數(shù)需要可以從 x 的背景中將目標(biāo)對象分離并得到查詢對象的位置。在這里,本算法將特征提取和目標(biāo)檢索作為兩個(gè)互相作用的過程。為了聯(lián)合優(yōu)化這個(gè)兩個(gè)過程,提出迭代定位策略,其可用公式表達(dá)如下: +1= +1 +1= +1( ) = , = 1 , … , = ( 1, 2, … , )(3 1)如上述公式可知,本算法采用由粗到細(xì)的定位方式不斷迭代優(yōu)化特征提取和定位函數(shù),其主要包括細(xì)粒度注意力生成函數(shù) T
第三章 用于多模態(tài)數(shù)據(jù)檢索的細(xì)粒度漸進(jìn)注意力定位網(wǎng)絡(luò)征,從而 T 可以據(jù)此生成細(xì)粒度的注意力圖。然后 Ω 整合這些注意力圖前最優(yōu)的注意力分布。進(jìn)而,圖像的特征圖和注意力圖進(jìn)行逐元素相乘以作的輸入。最后,Θ 用于確定查詢目標(biāo)在原圖中的確切位置,而這也有利于圖督。需要注意的是 為很多機(jī)器視覺任務(wù)[41]中常用的已經(jīng)預(yù)訓(xùn)練的深度卷絡(luò)。本章中提出的框架利用漸進(jìn)注意力的思想來確定圖像中查詢目標(biāo)的位和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,其中框架以及其中子模塊的結(jié)構(gòu)細(xì)節(jié)如圖 3.3 中N ×
【參考文獻(xiàn)】:
期刊論文
[1]跨媒體分析與推理:研究進(jìn)展與發(fā)展方向(英文)[J]. Yu-xin PENG,Wen-wu ZHU,Yao ZHAO,Chang-sheng XU,Qing-ming HUANG,Han-qing LU,Qing-hua ZHENG,Tie-jun HUANG,Wen GAO. Frontiers of Information Technology & Electronic Engineering. 2017(01)
本文編號:3490889
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3490889.html
最近更新
教材專著