當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于注意力機(jī)制與高層語(yǔ)義的視覺(jué)問(wèn)答研究

發(fā)布時(shí)間：2020-04-16 19:44

【摘要】：隨著大數(shù)據(jù)、高性能計(jì)算工具、深度學(xué)習(xí)技術(shù)的相繼出現(xiàn),人工智能迎來(lái)了第三次發(fā)展熱潮。深度學(xué)習(xí)模型在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、語(yǔ)音識(shí)別等諸多領(lǐng)域取得了突破性的進(jìn)展。在物體識(shí)別、機(jī)器翻譯、自動(dòng)問(wèn)答等多個(gè)單模態(tài)任務(wù)中,基于深度學(xué)習(xí)的方法在某些大規(guī)模數(shù)據(jù)集上取得了和人類(lèi)相匹敵的性能。在現(xiàn)實(shí)世界中,擁有高級(jí)智能的人類(lèi)面對(duì)更加復(fù)雜的環(huán)境時(shí)經(jīng)常需要多模態(tài)信息的感知和推理,從而進(jìn)行各種決策。近年來(lái),基于視覺(jué)和語(yǔ)言的多模態(tài)任務(wù)引起研究者越來(lái)越多的注意,如圖像字幕生成、視覺(jué)敘事、自動(dòng)視覺(jué)問(wèn)答等。不同于傳統(tǒng)的圖像標(biāo)注任務(wù),圖像字幕生成和視覺(jué)敘事旨在于用一句話或者一段話來(lái)描述圖像的主要內(nèi)容,這同時(shí)需要對(duì)圖片內(nèi)容進(jìn)行視覺(jué)理解以及生成與圖片語(yǔ)義一致的描述。視覺(jué)問(wèn)答旨在于讓機(jī)器自動(dòng)回答與圖片內(nèi)容相關(guān)的用自然語(yǔ)言描述的問(wèn)題,其涉及多模態(tài)信息(即視覺(jué)圖片和自然語(yǔ)言描述的問(wèn)題)的輸入,需要對(duì)圖像內(nèi)容進(jìn)行更精細(xì)化的理解。自動(dòng)視覺(jué)問(wèn)答的關(guān)鍵在于視覺(jué)和自然語(yǔ)言的共同語(yǔ)義理解,以及視覺(jué)與語(yǔ)言之間的聯(lián)合推理。注意力機(jī)制是實(shí)現(xiàn)多模態(tài)推理的一種有效方式,高層語(yǔ)義銜接了視覺(jué)和自然語(yǔ)言之間的語(yǔ)義信息。注意力機(jī)制在視覺(jué)問(wèn)答中主要有三個(gè)方面的作用:首先,注意力機(jī)制能夠根據(jù)具體提問(wèn)的問(wèn)題進(jìn)行有效信息的定位和提取;其次,注意力機(jī)制能夠?qū)⒆匀徽Z(yǔ)言和視覺(jué)圖片在語(yǔ)義上對(duì)齊,從而在更細(xì)粒度上實(shí)現(xiàn)推理;最后,注意力機(jī)制通過(guò)對(duì)注意力熱圖可視化從而增加模型的可解釋型。高層語(yǔ)義在視覺(jué)問(wèn)答中的作用也可以分為兩個(gè)方面:一方面,從圖像中生成的高層語(yǔ)義能夠縮小視覺(jué)圖像和自然語(yǔ)言的問(wèn)題之間的語(yǔ)義鴻溝,從而能夠在共同的語(yǔ)義空間中進(jìn)行推理;另一方面,與傳統(tǒng)圖像特征相比,高層語(yǔ)義具有可讀性和可解釋性,因此為答案的推理和問(wèn)答系統(tǒng)的錯(cuò)誤診斷提供依據(jù)。然而現(xiàn)有的自動(dòng)視覺(jué)問(wèn)答模型通常存在以下兩個(gè)問(wèn)題:首先,自動(dòng)視覺(jué)問(wèn)答的問(wèn)題具有多樣性和復(fù)雜性,現(xiàn)有工作通常采用單一層次的圖像表達(dá),無(wú)法滿足各種問(wèn)題需要的信息;其次,現(xiàn)有的注意力模型對(duì)圖像不同區(qū)域獨(dú)立計(jì)算注意力權(quán)重,忽略了圖像中物體之間上下文信息,無(wú)法回答需要關(guān)系推理的問(wèn)題。基于這些問(wèn)題,本文對(duì)自動(dòng)視覺(jué)問(wèn)答中的注意力機(jī)制進(jìn)行深入研究,將注意力網(wǎng)絡(luò)創(chuàng)新性運(yùn)用于圖像不同層次的表達(dá)上,進(jìn)而根據(jù)提出的問(wèn)題進(jìn)行更有效的信息提取,理解和推理。本文的主要工作和創(chuàng)新點(diǎn)總結(jié)如下:基于多層次注意力網(wǎng)絡(luò)的視覺(jué)問(wèn)答本文提出了基于多層次注意力網(wǎng)絡(luò)的視覺(jué)問(wèn)答模型�，F(xiàn)有的基于注意力機(jī)制的視覺(jué)問(wèn)答模型主要從低層次的視覺(jué)信息中推理答案,忽略了圖像中高層語(yǔ)義的建模以及不同區(qū)域之間的空間關(guān)系。本文提出的多層次注意力網(wǎng)絡(luò)對(duì)圖像不同層次的信息進(jìn)行篩選、融合及聯(lián)合推理,通過(guò)語(yǔ)義注意力模塊減少語(yǔ)義鴻溝同時(shí)通過(guò)視覺(jué)注意力機(jī)制進(jìn)行更細(xì)粒度的空間推理。此外本文使用雙向GRU網(wǎng)絡(luò)對(duì)圖像不同區(qū)域進(jìn)行關(guān)系建模,從而編碼區(qū)域的上下文信息。本文在兩個(gè)最有挑戰(zhàn)性的VQA數(shù)據(jù)集上取得了當(dāng)時(shí)的最好結(jié)果�；诙嘣炊鄬哟巫⒁饬W(wǎng)絡(luò)的視覺(jué)問(wèn)答本文提出了多源多層次注意力網(wǎng)絡(luò),解決了多層次注意力網(wǎng)絡(luò)的兩個(gè)不足之處:第一,多層次注意力網(wǎng)絡(luò)只能提取視覺(jué)表達(dá)的不同層次的語(yǔ)義信息,而視覺(jué)問(wèn)答中部分問(wèn)題需要涉及知識(shí)推理;第二,在多層次注意力網(wǎng)絡(luò)中,雙向GRU只能對(duì)圖像區(qū)域進(jìn)行一維線性展開(kāi)后再學(xué)習(xí)空間關(guān)系,這破壞了圖像本身的二維結(jié)構(gòu)。本文提出的多源多層次注意力網(wǎng)絡(luò)有三次創(chuàng)新之處:首先,多源多層次注意力網(wǎng)絡(luò)引入了外部知識(shí)庫(kù),同時(shí)使用來(lái)自視覺(jué)和知識(shí)的多源信息,使得視覺(jué)問(wèn)答系統(tǒng)進(jìn)行基于知識(shí)的推理。其次,本文提出2D-GRU的結(jié)構(gòu),對(duì)圖像的上下左右兩個(gè)維度四個(gè)方向進(jìn)行關(guān)系建模,更符合圖像的結(jié)構(gòu)特征。最后,在兩個(gè)最大的VQA數(shù)據(jù)集上,本文取得了比多層次注意力網(wǎng)絡(luò)顯著更好的結(jié)果。基于圖注意力網(wǎng)絡(luò)的視覺(jué)問(wèn)答本文提出了基于圖注意力網(wǎng)絡(luò),進(jìn)一步解決了多源多層次注意力網(wǎng)絡(luò)的兩個(gè)不足之處:第一,多源多層次注意力網(wǎng)絡(luò)從最后一層卷積層抽取圖像特征,每個(gè)區(qū)域感受野是均勻分割的固定大小的區(qū)域,不符合物體本身多尺度變化的特征;第二,多源多層次注意力網(wǎng)絡(luò)對(duì)視覺(jué)特征按照注意力進(jìn)行加權(quán)平均,丟失區(qū)域的位置信息。針對(duì)這兩個(gè)不足之處,本文提出的圖注意力網(wǎng)絡(luò),能夠?qū)ξ矬w之間的關(guān)系建立圖結(jié)構(gòu),對(duì)圖的節(jié)點(diǎn)和邊分別進(jìn)行注意力建模,然后通過(guò)圖嵌入的方法,解決不同物體信息融合的問(wèn)題�；趯傩院妥帜坏目山忉屢曈X(jué)問(wèn)答本文提出將傳統(tǒng)端到端的視覺(jué)問(wèn)答任務(wù)分解為兩步,解釋和推理,通過(guò)闡明這兩步的中間結(jié)果嘗試建造一個(gè)可解釋的視覺(jué)問(wèn)答系統(tǒng)。本文首先提取屬性和描述性句子作為圖片高層語(yǔ)義的解釋,然后推理模塊通過(guò)利用這些解釋而不是圖片本身推理答案。這樣的分解有兩個(gè)好處:第一,屬性和字幕能夠反映出系統(tǒng)從圖像中提取了那些信息,因此為預(yù)測(cè)的答案提供了解釋;第二,當(dāng)預(yù)測(cè)的答案是錯(cuò)誤的時(shí)候,這些中間結(jié)果能夠?qū)﹀e(cuò)誤原因進(jìn)行診斷,幫助識(shí)別錯(cuò)誤是源于圖像理解還是后續(xù)的推理部分。本文通過(guò)實(shí)驗(yàn)證明,這樣的分解系統(tǒng)取得了和基準(zhǔn)模型相當(dāng)?shù)男阅?同時(shí)具有可解釋性以及用更好質(zhì)量的屬性和字幕改進(jìn)整個(gè)系統(tǒng)的能力。
【圖文】：

網(wǎng)絡(luò)結(jié)構(gòu)圖,網(wǎng)絡(luò)結(jié)構(gòu),高維,桂冠

在這種背景下，基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)開(kāi)始發(fā)揮應(yīng)有的威力，直接推動(dòng)逡逑了人工智能的新一代革命。２０１２年，ＡｌｅｘＫｒｉｚｈｅｖｓｋｙ等人［２］發(fā)表了著名的卷積逡逑神經(jīng)網(wǎng)絡(luò)ＡｌｅｘＮｅｔ，，其網(wǎng)絡(luò)結(jié)構(gòu)如圖１．１。相比傳統(tǒng)的ＣＮＮ網(wǎng)絡(luò)結(jié)果，它的網(wǎng)絡(luò)逡逑層次更深，而且采用了很多新技術(shù)，包括使用ＲｅＬＵ函數(shù)作為激活函數(shù)，降低了逡逑Ｓｉｇｍｏｉｄ類(lèi)函數(shù)的計(jì)算量；利用ｄｒｏｐｏｕｔ技術(shù)在訓(xùn)練期間選擇性地剪掉某些神經(jīng)逡逑元，避免模型過(guò)擬合；引入ｍａｘ－ｐｏｏｌｉｎｇ技術(shù)；引入數(shù)據(jù)增強(qiáng)技術(shù)增加訓(xùn)練樣本。逡逑ＡｌｅｘＮｅｔ不僅比傳統(tǒng)ＣＮＮ的網(wǎng)絡(luò)結(jié)構(gòu)（例如ＬｅＮｅｔ）層數(shù)更深，也可以學(xué)習(xí)更復(fù)雜逡逑的圖像高維特征。由于其更深的網(wǎng)絡(luò)結(jié)構(gòu)和諸多新技術(shù)的應(yīng)用，ＡｌｅｘＮｅｔ在２０１２逡逑年舉辦的大規(guī)模圖形識(shí)別比賽（ＩｍａｇｅＮｅｔ邋Ｌａｒｇｅ邋Ｓｃａｌｅ邋Ｖｉｓｕａｌ邋Ｒｅｃｏｇｎｉｔｉｏｎ邋Ｃｈａｌｌｅｎｇｅ逡逑２０１２）中以遠(yuǎn)超傳統(tǒng)方法的成績(jī)奪得桂冠。ＡｌｅｘＮｅｔ不僅比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)逡逑（Ｃｏｎｖｏｌｕｔｉｏｎａｌ邋Ｎｅｕｒａｌ邋Ｎｅｔｗｏｒｋｓ）�。薜木W(wǎng)絡(luò)結(jié)構(gòu)更深，也可以基于數(shù)據(jù)和具體的任逡逑務(wù)來(lái)學(xué)習(xí)更復(fù)雜的圖形高維表示。基于人工神經(jīng)網(wǎng)絡(luò)的模型在沉寂了將近１０年逡逑后再次引起研究人員的重視。逡逑此外短短幾年內(nèi)，基于深度學(xué)習(xí)的研宄無(wú)論在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)還是新的應(yīng)用逡逑上都獲得了突破性進(jìn)展。２０１４年，Ｓｚｅｇｅｄｙ等人大大增加了邋ＣＮＮ的深度，提逡逑出了超過(guò)２０層的ＣＮＮ結(jié)構(gòu)

多模態(tài),視覺(jué),圖像,自動(dòng)問(wèn)答

署于現(xiàn)實(shí)場(chǎng)景中。隨著人們?cè)谟?jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域都取得了很大的逡逑進(jìn)展，最近幾年，同時(shí)基于視覺(jué)和語(yǔ)言的多模態(tài)學(xué)習(xí)任務(wù)引起了越來(lái)越多研宄者逡逑的關(guān)注，如圖像字幕生成，視覺(jué)敘事，自動(dòng)視覺(jué)問(wèn)答等。如圖１．２，類(lèi)似于嬰兒逡逑學(xué)習(xí)說(shuō)話的過(guò)程，機(jī)器對(duì)圖像的理解正從用若干個(gè)單詞來(lái)標(biāo)注所看到的圖像向逡逑學(xué)習(xí)生成完整的句子或者一段話過(guò)渡。不同于傳統(tǒng)的圖像標(biāo)注任務(wù)，圖像字幕生逡逑成和視覺(jué)敘事需要對(duì)同時(shí)對(duì)圖像內(nèi)容進(jìn)行視覺(jué)理解和相應(yīng)的文本進(jìn)行自然語(yǔ)言逡逑理解，并學(xué)習(xí)兩個(gè)信息源的語(yǔ)義對(duì)應(yīng)關(guān)系。逡逑ｉｉｌｕｉｌｉ邐ＭＨＬｇＭｉ邐ｌｌｌＬｉｇＭｉ逡逑￣邐ＳＳＢ邋￣逡逑人．運(yùn)動(dòng)球邐今天我和問(wèn)學(xué)－？起打棒球＊邋ｍ邐問(wèn)：人們?cè)谕媸裁从螒�？逡逑yU．操場(chǎng)邐ＡＩＩＪ（ｌ．Ｗ５＾．ｒ．ｉＪＰＰ７Ｃ邐糊友來(lái)觀＃比賽，P懼未穡喊羥蟈義隙寂說(shuō)梅鄭危危耗們蚺醯腦碩貝┦裁囪丈模孕�？辶x洗穡焐義賢枷翊艝茉翦問(wèn)洛巫遠(yuǎn)鎬p逡逑圖１．２基于視覺(jué)與語(yǔ)言的多模態(tài)任務(wù)進(jìn)展趨勢(shì)。隨著對(duì)圖像內(nèi)容理解的深入，機(jī)器對(duì)圖像逡逑的描述從個(gè)別單詞到完整的句子再到故事情節(jié)，甚至能夠回答相關(guān)的問(wèn)題。逡逑受到自然語(yǔ)言處理領(lǐng)域中自動(dòng)問(wèn)答任務(wù)的啟發(fā)，研宄人員提出自動(dòng)視覺(jué)問(wèn)逡逑答任務(wù)來(lái)測(cè)試機(jī)器對(duì)多模態(tài)信息的理解和推理能力。在基于文本的自動(dòng)問(wèn)答任逡逑務(wù)中
【學(xué)位授予單位】：中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】：博士
【學(xué)位授予年份】：2019
【分類(lèi)號(hào)】：TP391.41;TP18

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 魏維;游靜;劉鳳玉;許滿武;;音頻高層語(yǔ)義分析[J];中國(guó)圖象圖形學(xué)報(bào);2007年01期

2 歐陽(yáng)軍林;夏利民;張偉偉;;基于高層語(yǔ)義及相關(guān)反饋的圖像檢索[J];計(jì)算機(jī)工程與應(yīng)用;2006年25期

3 許源;薛向陽(yáng);;一種視頻局部高層語(yǔ)義特征提取算法[J];計(jì)算機(jī)科學(xué);2006年11期

4 吳楠;宋方敏;;一種基于圖像高層語(yǔ)義信息的圖像檢索方法[J];中國(guó)圖象圖形學(xué)報(bào);2006年12期

5 王崇駿,楊育彬,陳世福;基于高層語(yǔ)義的圖像檢索算法[J];軟件學(xué)報(bào);2004年10期

6 席彩麗;;基于內(nèi)容的圖像檢索高層語(yǔ)義處理方法[J];圖書(shū)情報(bào)工作;2009年09期

7 李天添;趙丹華;趙江洪;;基于高層語(yǔ)義視覺(jué)表征的意象版工具[J];包裝工程;2018年04期

8 ;2014年《計(jì)算機(jī)研究與發(fā)展》專題(正刊)征文通知——“深度學(xué)習(xí)”[J];計(jì)算機(jī)研究與發(fā)展;2014年01期

9 顧廣華;秦芳;;基于多層次特征表示的圖像場(chǎng)景分類(lèi)算法[J];高技術(shù)通訊;2019年03期

10 賈振超;趙耀;朱振峰;;應(yīng)用對(duì)象語(yǔ)義進(jìn)行圖像檢索的新方法[J];鐵道學(xué)報(bào);2007年04期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條

1 張楊;房斌;徐傳運(yùn);;基于本體和描述邏輯的圖像語(yǔ)義識(shí)別[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議（CACIS·2009）暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集（上冊(cè)）[C];2009年

2 姜志國(guó);張立國(guó);史駿;;基于內(nèi)容的數(shù)字病理切片檢索技術(shù)研究[A];第八屆全國(guó)生物醫(yī)學(xué)體視學(xué)學(xué)術(shù)會(huì)議、第十一屆全軍軍事病理學(xué)學(xué)術(shù)會(huì)議、第七屆全軍定量病理學(xué)學(xué)術(shù)會(huì)議論文（摘要）匯編[C];2012年

3 楊震群;魏驍勇;夏芳;;基于上下文空間的概念融合技術(shù)[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議（HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議（NCMT2010）、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議（CHCI2010）、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議（PCC2010）論文集[C];2010年

4 吳玲達(dá);魏迎梅;謝毓湘;楊征;;MSFAS:一個(gè)媒體語(yǔ)義特征分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議（HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議（NCMT2010）、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議（CHCI2010）、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議（PCC2010）論文集[C];2010年

5 趙海英;彭宏;徐丹;;交互式的基于內(nèi)容的圖像檢索[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年

6 曲云堯;施伯樂(lè);;事務(wù)分層及其調(diào)度技術(shù)的研究[A];數(shù)據(jù)庫(kù)研究與進(jìn)展95——第十三屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1995年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條

1 于東飛;基于注意力機(jī)制與高層語(yǔ)義的視覺(jué)問(wèn)答研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2019年

2 潘瀅煒;基于高層語(yǔ)義的跨模態(tài)應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2018年

3 萬(wàn)華林;圖象檢索中高層語(yǔ)義和低層可視特征的提取研究[D];中國(guó)科學(xué)院研究生院（計(jì)算技術(shù)研究所）;2002年

4 孫元;多媒體語(yǔ)義檢索關(guān)鍵問(wèn)題研究[D];吉林大學(xué);2010年

5 高贊;基于內(nèi)容的視頻分析關(guān)鍵技術(shù)[D];北京郵電大學(xué);2011年

6 姚聰;自然圖像中文字檢測(cè)與識(shí)別研究[D];華中科技大學(xué);2014年

7 韋星星;基于結(jié)構(gòu)化信息的圖像內(nèi)容分析與理解[D];天津大學(xué);2015年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 史建華;基于高層語(yǔ)義的場(chǎng)景分類(lèi)[D];中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院西安光學(xué)精密機(jī)械研究所);2016年

2 王繼宗;基于高層語(yǔ)義特征的圖像檢索關(guān)鍵技術(shù)研究[D];吉林大學(xué);2013年

3 張毅;基于高層語(yǔ)義的圖像檢索研究[D];西安電子科技大學(xué);2007年

4 莫浩瀾;基于高層語(yǔ)義的自然圖像檢索方法研究[D];湘潭大學(xué);2007年

5 陳琴;融合進(jìn)高層語(yǔ)義特征的醫(yī)學(xué)圖像檢索技術(shù)研究[D];寧波大學(xué);2009年

6 王平;基于模糊領(lǐng)域本體的材料外觀腐蝕底層特征與高層語(yǔ)義映射方法研究[D];重慶理工大學(xué);2013年

7 劉繼晴;基于多特征融合的視頻高層語(yǔ)義概念檢測(cè)[D];北京郵電大學(xué);2011年

8 呂軼超;結(jié)合底層特征和高層語(yǔ)義的圖像檢索技術(shù)研究[D];重慶大學(xué);2011年

9 安福定;基于高層語(yǔ)義的圖像檢索研究[D];西北農(nóng)林科技大學(xué);2011年

10 孫子晨;視頻高層語(yǔ)義提取技術(shù)研究與應(yīng)用[D];復(fù)旦大學(xué);2009年

本文編號(hào)：2629958

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2629958.html

上一篇：面向任務(wù)的高斯過(guò)程隱變量模型擴(kuò)展研究
下一篇：基于聚類(lèi)的高光譜圖像壓縮技術(shù)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于注意力機(jī)制與高層語(yǔ)義的視覺(jué)問(wèn)答研究