【摘要】:多模態(tài)關(guān)聯(lián)學習是多媒體理解任務的基石,并且具有廣泛的應用場景。但是多模態(tài)關(guān)聯(lián)學習由于其輸入數(shù)據(jù)不同模態(tài)之間的巨大差異往往被認為是一個很具有挑戰(zhàn)的研究課題。而多模態(tài)關(guān)聯(lián)學習的關(guān)鍵是在于為不同模態(tài)的輸入數(shù)據(jù)建立相互關(guān)聯(lián)關(guān)系。本文專注于包括多模態(tài)數(shù)據(jù)對齊以及多模態(tài)關(guān)聯(lián)特征學習在內(nèi)的關(guān)于圖像-文本多模態(tài)關(guān)聯(lián)學習兩大基礎(chǔ)研究課題,以及與圖像-文本多模態(tài)關(guān)聯(lián)學習最為相關(guān)的兩大重要應用:跨模態(tài)圖像檢索以及多模態(tài)視覺問答。首先,針對多模態(tài)數(shù)據(jù)集對齊任務提出了一套新的框架,該框架基于圖像和文本之間的互補性,同時依托大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù)以及深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)擴充人工標注圖像數(shù)據(jù)集。其中大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù)提供大量包含上下文文本信息的圖像資源,而深度卷積神經(jīng)網(wǎng)絡(luò)則代替人工標注資源在借助文本信息的情況下去除掉大量的噪聲圖像數(shù)據(jù)。實驗結(jié)果表明,基于本文方法可以在保證準確率以及多樣性的情況下,從大規(guī);ヂ(lián)數(shù)據(jù)中顯著擴充現(xiàn)有人工標注數(shù)據(jù)集。通過在圖像識別任務和遷移學習任務上實驗,證明了基于本文方法自動擴充的圖像數(shù)據(jù)集可以帶來顯著的性能提升。這也進一步驗證了基于大規(guī);ヂ(lián)網(wǎng)數(shù)據(jù)的多模態(tài)數(shù)據(jù)增強可以帶來更多有用的監(jiān)督信息幫助模型訓練。其次,提出了一種全新的基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像-文本多模態(tài)關(guān)聯(lián)特征學習的算法。通過該深度卷積神經(jīng)網(wǎng)絡(luò)可以在同一連續(xù)空間中學習文本特征表示和圖像特征表示。另外還引入了一種名為交叉卷積濾波器正則化的技術(shù)加速卷積神經(jīng)網(wǎng)絡(luò)的訓練速度,減少了將近一半的訓練時間消耗。為了進一步驗證基于本文方法學習得到的圖像-文本多模態(tài)關(guān)聯(lián)特征的質(zhì)量,定義了基于多模態(tài)關(guān)聯(lián)特征的文本-文本以及文本-圖像之間的相似度度量方法來自動構(gòu)建圖像數(shù)據(jù)集。這兩個相似度度量方法被用來替代傳統(tǒng)人工數(shù)據(jù)集標注過程中的兩個重要步驟:類別關(guān)鍵詞擴充以及噪聲圖片過濾。最終,在不使用任何人工標注數(shù)據(jù)集的基礎(chǔ)上從頭構(gòu)建了一個全新數(shù)據(jù)集。該數(shù)據(jù)集不但數(shù)據(jù)規(guī)模與大規(guī)模人工標注的數(shù)據(jù)集接近,且在準確率和數(shù)據(jù)多樣性以及跨數(shù)據(jù)集泛化能力上都與人工標注數(shù)據(jù)集不相上下。之后本文主要關(guān)注跟多模態(tài)關(guān)聯(lián)學習相關(guān)的兩大重要應用。對于跨模態(tài)圖像檢索,本文介紹了三種不同的框架。第一種是基于典型關(guān)聯(lián)分析的圖像檢索模型,該方法基于大規(guī)模文本語料學習得到的文本特征表示以及有標注圖像識別任務學習得到的圖像特征表示,通過簡單的線性變換將兩個不同模態(tài)的特征空間映射到同一空間。第二種是基于多任務深度卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索模型,針對該模型本文提出了一種全新的逐任務遷移學習的多任務深度卷積神經(jīng)網(wǎng)絡(luò)訓練方法,且在有噪聲的用戶點擊數(shù)據(jù)上學習面向圖像檢索任務的深度圖像特征。最后一種是基于圖像-文本多模態(tài)關(guān)聯(lián)特征的圖像檢索模型,使用圖像-文本多模態(tài)關(guān)聯(lián)特征計算查詢關(guān)鍵字與圖像之間的相關(guān)度,以及計算圖像與圖像之間的相關(guān)度對檢索后的圖像進行重排序。在大規(guī)模圖像檢索任務上的實驗結(jié)果表明基于圖像-文本多模態(tài)關(guān)聯(lián)特征的圖像檢索模型具有更優(yōu)性能。本文討論的另外一個跟多模態(tài)關(guān)聯(lián)學習相關(guān)的應用是多模態(tài)視覺問答任務。該任務由于需要綜合考慮對圖像內(nèi)容理解的能力,問句文本信息理解的能力以及圖像-問句-答案三元組之間的多模態(tài)推理關(guān)系,往往被認為是一項難度較大的應用。本文提出了一種基于回歸的學習模型來度量圖像-問句-答案三元組之間的相互關(guān)系。此外,還提出了一種基于注意力的深度張量神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來完成三元組推理過程。實驗結(jié)果表明,將本文提出的方法應用在目前廣泛使用的視覺問答模型MLB和MUTAN上之后視覺問答任務的性能有了顯著提升。概括地說,本文為圖像-文本多模態(tài)關(guān)聯(lián)學習提出了若干種解決方案,且在多模態(tài)數(shù)據(jù)關(guān)聯(lián)以及多模態(tài)特征關(guān)聯(lián)這兩個多模態(tài)關(guān)聯(lián)學習的基礎(chǔ)任務上證明了本文提出方法的有效性。同時,本文提出的方法還進一步提升了跨模態(tài)圖像檢索以及多模態(tài)視覺問答這兩大多模態(tài)關(guān)聯(lián)學習關(guān)鍵應用的性能,這也進一步證明了本文研究內(nèi)容的實用價值。
【學位授予單位】:哈爾濱工業(yè)大學
【學位級別】:博士
【學位授予年份】:2018
【分類號】:TP391.41;TP18
【相似文獻】
相關(guān)期刊論文 前10條
1 蘇樹智;朱剛;高鵬連;鄧瀛灝;鄭蘋;;面向多模態(tài)圖像的廣義輔助相關(guān)投影方法[J];安徽理工大學學報(自然科學版);2019年04期
2 周毅;;政務多模態(tài)圖像話語表征探析[J];中國廣播電視學刊;2017年06期
3 王佳宇;;“系統(tǒng)功能符號學”視角下多模態(tài)語篇的批評性分析框架研究[J];外語藝術(shù)教育研究;2011年01期
4 楊?,裴繼紅,謝維信;一種基于頻帶一致性的多模態(tài)圖像校準算法[J];通信學報;2005年04期
5 陳風華;胡冬梅;;多模態(tài)隱喻研究20年(1998—2017)——理論、實踐與進展[J];外國語文;2018年05期
6 楊小敏;;國外政府網(wǎng)站設(shè)計與形象建構(gòu):基于多模態(tài)視覺語法的分析[J];外國語文研究(輯刊);2018年01期
7 劉澤宇;馬龍龍;吳健;孫樂;;基于多模態(tài)神經(jīng)網(wǎng)絡(luò)的圖像中文摘要生成方法[J];中文信息學報;2017年06期
8 朱俊林;;淺析多模態(tài)醫(yī)學圖像的配準與融合技術(shù)[J];醫(yī)療衛(wèi)生裝備;2005年12期
9 黎姿;;電影《流浪地球》海報的多模態(tài)三維解讀[J];藝術(shù)科技;2019年01期
10 閆利;胡修兵;陳長軍;馬振玲;;多模態(tài)圖像配準的梯度一致性算子[J];武漢大學學報(信息科學版);2013年08期
相關(guān)會議論文 前1條
1 林哲;閆敬文;袁野;;基于稀疏表示和PCNN的多模態(tài)圖像融合[A];創(chuàng)新驅(qū)動與轉(zhuǎn)型發(fā)展,推動汕頭騰飛——汕頭市科協(xié)第七屆學術(shù)年會優(yōu)秀論文集[C];2014年
相關(guān)博士學位論文 前4條
1 白亞龍;面向圖像與文本的多模態(tài)關(guān)聯(lián)學習的研究與應用[D];哈爾濱工業(yè)大學;2018年
2 劉沐寒;光學核素多模態(tài)分子影像在肝癌/胃癌腫瘤模型上的應用[D];西安電子科技大學;2017年
3 李盼龍;多模態(tài)核磁共振腦圖像處理方法的研究及其應用[D];鄭州大學;2019年
4 張靜亞;非剛體醫(yī)學圖像配準技術(shù)研究[D];蘇州大學;2015年
相關(guān)碩士學位論文 前10條
1 童靖然;基于多模態(tài)數(shù)據(jù)的目標檢測與追蹤[D];江南大學;2019年
2 王天嬌;多模態(tài)圖像重排序算法研究[D];北京交通大學;2019年
3 王耀煊;面向多模態(tài)高層語義的歧視情感檢測[D];北京交通大學;2019年
4 羅成偉;基于多模態(tài)數(shù)據(jù)融合的視覺目標跟蹤算法研究[D];電子科技大學;2019年
5 朱韋丹;基于多模態(tài)圖像融合的人臉識別算法研究[D];電子科技大學;2019年
6 楊帆;多模態(tài)圖像中的目標檢測問題研究[D];南京大學;2019年
7 湯琪琦;中美影視公益廣告互動意義的多模態(tài)話語對比分析[D];廈門大學;2018年
8 江雙珊;多模態(tài)視角下英文影視片段對培養(yǎng)高中學生英語口語表達能力的研究[D];重慶師范大學;2019年
9 顏晗;基于局部特征的多模態(tài)圖像配準與融合研究[D];齊魯工業(yè)大學;2019年
10 周雅文;HIV感染者大腦運動功能損傷的多模態(tài)磁共振影像學研究[D];中國科學技術(shù)大學;2018年
本文編號:
2775544
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2775544.html