基于注意力機(jī)制與高層語(yǔ)義的視覺(jué)問(wèn)答研究
【圖文】:
在這種背景下,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)開(kāi)始發(fā)揮應(yīng)有的威力,直接推動(dòng)逡逑了人工智能的新一代革命。2012年,AlexKrizhevsky等人[2]發(fā)表了著名的卷積逡逑神經(jīng)網(wǎng)絡(luò)AlexNet,,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1.1。相比傳統(tǒng)的CNN網(wǎng)絡(luò)結(jié)果,它的網(wǎng)絡(luò)逡逑層次更深,而且采用了很多新技術(shù),包括使用ReLU函數(shù)作為激活函數(shù),降低了逡逑Sigmoid類(lèi)函數(shù)的計(jì)算量;利用dropout技術(shù)在訓(xùn)練期間選擇性地剪掉某些神經(jīng)逡逑元,避免模型過(guò)擬合;引入max-pooling技術(shù);引入數(shù)據(jù)增強(qiáng)技術(shù)增加訓(xùn)練樣本。逡逑AlexNet不僅比傳統(tǒng)CNN的網(wǎng)絡(luò)結(jié)構(gòu)(例如LeNet)層數(shù)更深,也可以學(xué)習(xí)更復(fù)雜逡逑的圖像高維特征。由于其更深的網(wǎng)絡(luò)結(jié)構(gòu)和諸多新技術(shù)的應(yīng)用,AlexNet在2012逡逑年舉辦的大規(guī)模圖形識(shí)別比賽(ImageNet邋Large邋Scale邋Visual邋Recognition邋Challenge逡逑2012)中以遠(yuǎn)超傳統(tǒng)方法的成績(jī)奪得桂冠。AlexNet不僅比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)逡逑(Convolutional邋Neural邋Networks)。薜木W(wǎng)絡(luò)結(jié)構(gòu)更深,也可以基于數(shù)據(jù)和具體的任逡逑務(wù)來(lái)學(xué)習(xí)更復(fù)雜的圖形高維表示。基于人工神經(jīng)網(wǎng)絡(luò)的模型在沉寂了將近10年逡逑后再次引起研究人員的重視。逡逑此外短短幾年內(nèi),基于深度學(xué)習(xí)的研宄無(wú)論在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)還是新的應(yīng)用逡逑上都獲得了突破性進(jìn)展。2014年,Szegedy等人大大增加了邋CNN的深度,提逡逑出了超過(guò)20層的CNN結(jié)構(gòu)
署于現(xiàn)實(shí)場(chǎng)景中。隨著人們?cè)谟?jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域都取得了很大的逡逑進(jìn)展,最近幾年,同時(shí)基于視覺(jué)和語(yǔ)言的多模態(tài)學(xué)習(xí)任務(wù)引起了越來(lái)越多研宄者逡逑的關(guān)注,如圖像字幕生成,視覺(jué)敘事,自動(dòng)視覺(jué)問(wèn)答等。如圖1.2,類(lèi)似于嬰兒逡逑學(xué)習(xí)說(shuō)話的過(guò)程,機(jī)器對(duì)圖像的理解正從用若干個(gè)單詞來(lái)標(biāo)注所看到的圖像向逡逑學(xué)習(xí)生成完整的句子或者一段話過(guò)渡。不同于傳統(tǒng)的圖像標(biāo)注任務(wù),圖像字幕生逡逑成和視覺(jué)敘事需要對(duì)同時(shí)對(duì)圖像內(nèi)容進(jìn)行視覺(jué)理解和相應(yīng)的文本進(jìn)行自然語(yǔ)言逡逑理解,并學(xué)習(xí)兩個(gè)信息源的語(yǔ)義對(duì)應(yīng)關(guān)系。逡逑iiluili邐MHLgMi邐lllLigMi逡逑 ̄邐SSB邋 ̄逡逑人.運(yùn)動(dòng)球邐今天我和問(wèn)學(xué)-?起打棒球*邋m邐問(wèn):人們?cè)谕媸裁从螒?逡逑yU.操場(chǎng)邐AIIJ(l.W5^.r.iJPP7C邐糊友來(lái)觀#比賽,P懼未穡喊羥蟈義隙寂說(shuō)梅鄭危危耗們蚺醯腦碩貝┦裁囪丈模孕?辶x洗穡焐義賢枷翊艝茉翦問(wèn)洛巫遠(yuǎn)鎬p逡逑圖1.2基于視覺(jué)與語(yǔ)言的多模態(tài)任務(wù)進(jìn)展趨勢(shì)。隨著對(duì)圖像內(nèi)容理解的深入,機(jī)器對(duì)圖像逡逑的描述從個(gè)別單詞到完整的句子再到故事情節(jié),甚至能夠回答相關(guān)的問(wèn)題。逡逑受到自然語(yǔ)言處理領(lǐng)域中自動(dòng)問(wèn)答任務(wù)的啟發(fā),研宄人員提出自動(dòng)視覺(jué)問(wèn)逡逑答任務(wù)來(lái)測(cè)試機(jī)器對(duì)多模態(tài)信息的理解和推理能力。在基于文本的自動(dòng)問(wèn)答任逡逑務(wù)中
【學(xué)位授予單位】:中國(guó)科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP391.41;TP18
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 魏維;游靜;劉鳳玉;許滿武;;音頻高層語(yǔ)義分析[J];中國(guó)圖象圖形學(xué)報(bào);2007年01期
2 歐陽(yáng)軍林;夏利民;張偉偉;;基于高層語(yǔ)義及相關(guān)反饋的圖像檢索[J];計(jì)算機(jī)工程與應(yīng)用;2006年25期
3 許源;薛向陽(yáng);;一種視頻局部高層語(yǔ)義特征提取算法[J];計(jì)算機(jī)科學(xué);2006年11期
4 吳楠;宋方敏;;一種基于圖像高層語(yǔ)義信息的圖像檢索方法[J];中國(guó)圖象圖形學(xué)報(bào);2006年12期
5 王崇駿,楊育彬,陳世福;基于高層語(yǔ)義的圖像檢索算法[J];軟件學(xué)報(bào);2004年10期
6 席彩麗;;基于內(nèi)容的圖像檢索高層語(yǔ)義處理方法[J];圖書(shū)情報(bào)工作;2009年09期
7 李天添;趙丹華;趙江洪;;基于高層語(yǔ)義視覺(jué)表征的意象版工具[J];包裝工程;2018年04期
8 ;2014年《計(jì)算機(jī)研究與發(fā)展》專題(正刊)征文通知——“深度學(xué)習(xí)”[J];計(jì)算機(jī)研究與發(fā)展;2014年01期
9 顧廣華;秦芳;;基于多層次特征表示的圖像場(chǎng)景分類(lèi)算法[J];高技術(shù)通訊;2019年03期
10 賈振超;趙耀;朱振峰;;應(yīng)用對(duì)象語(yǔ)義進(jìn)行圖像檢索的新方法[J];鐵道學(xué)報(bào);2007年04期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前6條
1 張楊;房斌;徐傳運(yùn);;基于本體和描述邏輯的圖像語(yǔ)義識(shí)別[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
2 姜志國(guó);張立國(guó);史駿;;基于內(nèi)容的數(shù)字病理切片檢索技術(shù)研究[A];第八屆全國(guó)生物醫(yī)學(xué)體視學(xué)學(xué)術(shù)會(huì)議、第十一屆全軍軍事病理學(xué)學(xué)術(shù)會(huì)議、第七屆全軍定量病理學(xué)學(xué)術(shù)會(huì)議論文(摘要)匯編[C];2012年
3 楊震群;魏驍勇;夏芳;;基于上下文空間的概念融合技術(shù)[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
4 吳玲達(dá);魏迎梅;謝毓湘;楊征;;MSFAS:一個(gè)媒體語(yǔ)義特征分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
5 趙海英;彭宏;徐丹;;交互式的基于內(nèi)容的圖像檢索[A];’2004計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)議論文集[C];2004年
6 曲云堯;施伯樂(lè);;事務(wù)分層及其調(diào)度技術(shù)的研究[A];數(shù)據(jù)庫(kù)研究與進(jìn)展95——第十三屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集[C];1995年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 于東飛;基于注意力機(jī)制與高層語(yǔ)義的視覺(jué)問(wèn)答研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2019年
2 潘瀅煒;基于高層語(yǔ)義的跨模態(tài)應(yīng)用研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2018年
3 萬(wàn)華林;圖象檢索中高層語(yǔ)義和低層可視特征的提取研究[D];中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所);2002年
4 孫元;多媒體語(yǔ)義檢索關(guān)鍵問(wèn)題研究[D];吉林大學(xué);2010年
5 高贊;基于內(nèi)容的視頻分析關(guān)鍵技術(shù)[D];北京郵電大學(xué);2011年
6 姚聰;自然圖像中文字檢測(cè)與識(shí)別研究[D];華中科技大學(xué);2014年
7 韋星星;基于結(jié)構(gòu)化信息的圖像內(nèi)容分析與理解[D];天津大學(xué);2015年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 史建華;基于高層語(yǔ)義的場(chǎng)景分類(lèi)[D];中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院西安光學(xué)精密機(jī)械研究所);2016年
2 王繼宗;基于高層語(yǔ)義特征的圖像檢索關(guān)鍵技術(shù)研究[D];吉林大學(xué);2013年
3 張毅;基于高層語(yǔ)義的圖像檢索研究[D];西安電子科技大學(xué);2007年
4 莫浩瀾;基于高層語(yǔ)義的自然圖像檢索方法研究[D];湘潭大學(xué);2007年
5 陳琴;融合進(jìn)高層語(yǔ)義特征的醫(yī)學(xué)圖像檢索技術(shù)研究[D];寧波大學(xué);2009年
6 王平;基于模糊領(lǐng)域本體的材料外觀腐蝕底層特征與高層語(yǔ)義映射方法研究[D];重慶理工大學(xué);2013年
7 劉繼晴;基于多特征融合的視頻高層語(yǔ)義概念檢測(cè)[D];北京郵電大學(xué);2011年
8 呂軼超;結(jié)合底層特征和高層語(yǔ)義的圖像檢索技術(shù)研究[D];重慶大學(xué);2011年
9 安福定;基于高層語(yǔ)義的圖像檢索研究[D];西北農(nóng)林科技大學(xué);2011年
10 孫子晨;視頻高層語(yǔ)義提取技術(shù)研究與應(yīng)用[D];復(fù)旦大學(xué);2009年
本文編號(hào):2629958
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2629958.html