基于深度學(xué)習(xí)的圖文跨模態(tài)檢索
發(fā)布時(shí)間:2021-07-31 07:49
隨著互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等新一代信息技術(shù)的快速發(fā)展,大數(shù)據(jù)分析、跨媒體計(jì)算、群體智能、協(xié)同與優(yōu)化、機(jī)器學(xué)習(xí)、類腦智能等核心理論的研究不斷深入。跨模態(tài)檢索作為跨媒體計(jì)算領(lǐng)域的重要內(nèi)容和應(yīng)用,也受到了越來越廣泛地關(guān)注,F(xiàn)有的大多數(shù)跨模態(tài)檢索方法都在一定程度上存在著模態(tài)特征表示能力不夠強(qiáng)以及特征關(guān)聯(lián)模型有待進(jìn)一步改進(jìn)的問題。本文針對這些問題,提出了基于對抗網(wǎng)絡(luò)的圖文模態(tài)特征關(guān)聯(lián)方法(FCMAN)。該方法首先對圖像模態(tài)的特征表示能力進(jìn)行增強(qiáng),通過融合圖像模態(tài)的不同特征以增強(qiáng)圖像模態(tài)的特征表示能力。其次,在利用一個(gè)對抗網(wǎng)絡(luò)進(jìn)行特征關(guān)聯(lián)建模的基礎(chǔ)上引入了兩個(gè)新的對抗網(wǎng)絡(luò),引入的兩個(gè)對抗網(wǎng)絡(luò)的作用分別是對圖文兩種模態(tài)的真實(shí)標(biāo)簽和投影特征的預(yù)測標(biāo)簽進(jìn)行建模,從而通過多個(gè)對抗網(wǎng)絡(luò)組合的圖文模態(tài)特征關(guān)聯(lián)模型,進(jìn)一步學(xué)習(xí)圖文模態(tài)的特征相關(guān)性。同時(shí),為了檢驗(yàn)FCMAN的性能并直觀地展示檢索效果,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)圖文跨模態(tài)檢索系統(tǒng)。利用該系統(tǒng),用戶可以輸入圖文任一模態(tài)的數(shù)據(jù)進(jìn)行檢索。在初次檢索的基礎(chǔ)上,通過融合相關(guān)反饋技術(shù),使得檢索的準(zhǔn)確率得到進(jìn)一步提高。實(shí)驗(yàn)分析和應(yīng)用結(jié)果表明,本文提出的FCMAN能夠更有...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文總體結(jié)構(gòu)圖
重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)研究12變矩法等。林克正等[40]針對單一梯度直方圖特征提取方法會(huì)丟失圖像局部特征的問題提出了一種新的基于分塊Gabor的圖像特征提取算法。4.空間關(guān)系特征提取方法空間關(guān)系是指圖像中的多個(gè)物體之間存在著某些相對方向關(guān)系或者空間位置關(guān)系,比如常見的包容和包含關(guān)系、鄰接和連接關(guān)系等。常用的圖像空間特征提取方法有兩種:第一種是根據(jù)圖像中某一物體或者屬性對圖像進(jìn)行分割后進(jìn)行特征提取;第二種是簡單的把圖像分割成若干規(guī)則的子圖像,再分別對每個(gè)子圖像進(jìn)行特征提齲D.G.Lowe[41]提出了一種從圖像中提取尺度不變特征變換特征的方法,可以用于不同視角之間目標(biāo)或場景的可靠匹配。5.基于深度學(xué)習(xí)的特征提取方法深度學(xué)習(xí)強(qiáng)大的特征提取能力能夠獲得比手工提取的特征表示能力更強(qiáng)的特征,因此深度學(xué)習(xí)在圖像特征提取方面得到了越來越廣泛地研究與應(yīng)用。而且基于深度學(xué)習(xí)方法提取的深度特征也越來越廣泛地應(yīng)用到跨模態(tài)檢索領(lǐng)域。2.2基于深度學(xué)習(xí)的特征建模方法對不同模態(tài)的特征提取完成之后,需要對不同模態(tài)的特征進(jìn)行關(guān)聯(lián)建模。隨著深度學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)方法在跨模態(tài)檢索領(lǐng)域當(dāng)中也得到了越來越廣泛地應(yīng)用。除了利用深度學(xué)習(xí)方法進(jìn)行特征提取之外,基于深度學(xué)習(xí)的特征建模方法也是跨模態(tài)檢索領(lǐng)域的主要研究內(nèi)容之一。2.2.1卷積神經(jīng)網(wǎng)絡(luò)圖2.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)本質(zhì)上是一種從輸入層到輸出層之間層與層的映射關(guān)系。從輸入層開始,輸入的圖像經(jīng)過若干卷積層、池化
重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)研究13層和全連接層的處理之后得到特征輸出,它能夠自動(dòng)學(xué)習(xí)大量的輸入層到輸出層之間的映射關(guān)系,只需要用已知的模式來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練完成之后,神經(jīng)網(wǎng)絡(luò)就具有從輸入層到輸出層之間的映射能力。目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,包括目標(biāo)檢測、人臉識別等。卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)優(yōu)點(diǎn)是隱式而非顯式地從大量的訓(xùn)練數(shù)據(jù)中進(jìn)行特征學(xué)習(xí);另外一個(gè)優(yōu)點(diǎn)是可以并行學(xué)習(xí)。而且卷積神經(jīng)網(wǎng)絡(luò)權(quán)值共享的特點(diǎn)降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,因而也得到了更加廣泛地應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖2.1所示。A.Krizhevsky等[42]提出了一個(gè)名為AlexNet的深層卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)在2010年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽ILSVRC中取得了桂冠。C.Szegedy等[43]提出了一個(gè)名為Inception的深層卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)在2014年的ILSVRC中取得了很好的成績。K.He等[44]提出了一個(gè)名為ResNet的殘差網(wǎng)絡(luò)架構(gòu),該架構(gòu)在2015年的ILSVRC的分類任務(wù)中取得第一名的成績。M.D.Zeiler等[45]研究了卷積神經(jīng)網(wǎng)絡(luò)的每一層學(xué)習(xí)了什么樣的特征,然后通過可視化的手段對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,以此來提高了精度。2.2.2自動(dòng)編碼器圖2.2自動(dòng)編碼器結(jié)構(gòu)圖自動(dòng)編碼器(AutoEncoder,AE)主要分為編碼器和解碼器兩個(gè)部分。編碼器部分是對輸入的進(jìn)行編碼,編碼后得到新的特征。解碼器部分則是希望原始輸入能夠從新的特征重構(gòu)出來。假設(shè)編碼器網(wǎng)絡(luò)權(quán)重系數(shù)為,偏置為。編碼過程如下:=(+)(2.1)其中為激活函數(shù)。
【參考文獻(xiàn)】:
期刊論文
[1]分塊Gabor結(jié)合梯度直方圖的特征提取算法[J]. 林克正,張?jiān)?李昊天. 小型微型計(jì)算機(jī)系統(tǒng). 2019(12)
[2]基于多語義因子分層聚類的文本特征提取方法[J]. 王靖,柳青,張德海,趙華,楊云. 計(jì)算機(jī)應(yīng)用研究. 2020(10)
[3]基于深度學(xué)習(xí)的文本特征提取研究綜述[J]. 張千,王慶瑋,張悅,紀(jì)校鋒,張宇翔,祝赫,趙昌志. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(12)
[4]基于自適應(yīng)局部二值模式的紋理特征提取方法[J]. 李松,蔡航,于蒙. 計(jì)算機(jī)應(yīng)用與軟件. 2019(09)
[5]基于哈希算法的異構(gòu)多模態(tài)數(shù)據(jù)檢索研究[J]. 陳鳳,蒙祖強(qiáng). 計(jì)算機(jī)科學(xué). 2019(10)
[6]基于語義分析的改進(jìn)TF-IDF算法[J]. 代鈺琴,徐魯強(qiáng). 西南科技大學(xué)學(xué)報(bào). 2019(01)
[7]文本特征提取方法研究綜述[J]. 徐冠華,趙景秀,楊紅亞,劉爽. 軟件導(dǎo)刊. 2018(05)
[8]跨模態(tài)檢索研究綜述[J]. 歐衛(wèi)華,劉彬,周永輝,宣瑞晟. 貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[9]多媒體信息檢索中的查詢與反饋技術(shù)[J]. 查正軍,鄭曉菊. 計(jì)算機(jī)研究與發(fā)展. 2017(06)
[10]相關(guān)反饋在信息檢索中的研究綜述[J]. 于瑩瑩,陳燕,張金松. 情報(bào)理論與實(shí)踐. 2016(12)
本文編號:3313077
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文總體結(jié)構(gòu)圖
重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)研究12變矩法等。林克正等[40]針對單一梯度直方圖特征提取方法會(huì)丟失圖像局部特征的問題提出了一種新的基于分塊Gabor的圖像特征提取算法。4.空間關(guān)系特征提取方法空間關(guān)系是指圖像中的多個(gè)物體之間存在著某些相對方向關(guān)系或者空間位置關(guān)系,比如常見的包容和包含關(guān)系、鄰接和連接關(guān)系等。常用的圖像空間特征提取方法有兩種:第一種是根據(jù)圖像中某一物體或者屬性對圖像進(jìn)行分割后進(jìn)行特征提取;第二種是簡單的把圖像分割成若干規(guī)則的子圖像,再分別對每個(gè)子圖像進(jìn)行特征提齲D.G.Lowe[41]提出了一種從圖像中提取尺度不變特征變換特征的方法,可以用于不同視角之間目標(biāo)或場景的可靠匹配。5.基于深度學(xué)習(xí)的特征提取方法深度學(xué)習(xí)強(qiáng)大的特征提取能力能夠獲得比手工提取的特征表示能力更強(qiáng)的特征,因此深度學(xué)習(xí)在圖像特征提取方面得到了越來越廣泛地研究與應(yīng)用。而且基于深度學(xué)習(xí)方法提取的深度特征也越來越廣泛地應(yīng)用到跨模態(tài)檢索領(lǐng)域。2.2基于深度學(xué)習(xí)的特征建模方法對不同模態(tài)的特征提取完成之后,需要對不同模態(tài)的特征進(jìn)行關(guān)聯(lián)建模。隨著深度學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)方法在跨模態(tài)檢索領(lǐng)域當(dāng)中也得到了越來越廣泛地應(yīng)用。除了利用深度學(xué)習(xí)方法進(jìn)行特征提取之外,基于深度學(xué)習(xí)的特征建模方法也是跨模態(tài)檢索領(lǐng)域的主要研究內(nèi)容之一。2.2.1卷積神經(jīng)網(wǎng)絡(luò)圖2.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)本質(zhì)上是一種從輸入層到輸出層之間層與層的映射關(guān)系。從輸入層開始,輸入的圖像經(jīng)過若干卷積層、池化
重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)技術(shù)研究13層和全連接層的處理之后得到特征輸出,它能夠自動(dòng)學(xué)習(xí)大量的輸入層到輸出層之間的映射關(guān)系,只需要用已知的模式來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練完成之后,神經(jīng)網(wǎng)絡(luò)就具有從輸入層到輸出層之間的映射能力。目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)之一,包括目標(biāo)檢測、人臉識別等。卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)優(yōu)點(diǎn)是隱式而非顯式地從大量的訓(xùn)練數(shù)據(jù)中進(jìn)行特征學(xué)習(xí);另外一個(gè)優(yōu)點(diǎn)是可以并行學(xué)習(xí)。而且卷積神經(jīng)網(wǎng)絡(luò)權(quán)值共享的特點(diǎn)降低了神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,因而也得到了更加廣泛地應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖2.1所示。A.Krizhevsky等[42]提出了一個(gè)名為AlexNet的深層卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)在2010年的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽ILSVRC中取得了桂冠。C.Szegedy等[43]提出了一個(gè)名為Inception的深層卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)在2014年的ILSVRC中取得了很好的成績。K.He等[44]提出了一個(gè)名為ResNet的殘差網(wǎng)絡(luò)架構(gòu),該架構(gòu)在2015年的ILSVRC的分類任務(wù)中取得第一名的成績。M.D.Zeiler等[45]研究了卷積神經(jīng)網(wǎng)絡(luò)的每一層學(xué)習(xí)了什么樣的特征,然后通過可視化的手段對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,以此來提高了精度。2.2.2自動(dòng)編碼器圖2.2自動(dòng)編碼器結(jié)構(gòu)圖自動(dòng)編碼器(AutoEncoder,AE)主要分為編碼器和解碼器兩個(gè)部分。編碼器部分是對輸入的進(jìn)行編碼,編碼后得到新的特征。解碼器部分則是希望原始輸入能夠從新的特征重構(gòu)出來。假設(shè)編碼器網(wǎng)絡(luò)權(quán)重系數(shù)為,偏置為。編碼過程如下:=(+)(2.1)其中為激活函數(shù)。
【參考文獻(xiàn)】:
期刊論文
[1]分塊Gabor結(jié)合梯度直方圖的特征提取算法[J]. 林克正,張?jiān)?李昊天. 小型微型計(jì)算機(jī)系統(tǒng). 2019(12)
[2]基于多語義因子分層聚類的文本特征提取方法[J]. 王靖,柳青,張德海,趙華,楊云. 計(jì)算機(jī)應(yīng)用研究. 2020(10)
[3]基于深度學(xué)習(xí)的文本特征提取研究綜述[J]. 張千,王慶瑋,張悅,紀(jì)校鋒,張宇翔,祝赫,趙昌志. 計(jì)算機(jī)技術(shù)與發(fā)展. 2019(12)
[4]基于自適應(yīng)局部二值模式的紋理特征提取方法[J]. 李松,蔡航,于蒙. 計(jì)算機(jī)應(yīng)用與軟件. 2019(09)
[5]基于哈希算法的異構(gòu)多模態(tài)數(shù)據(jù)檢索研究[J]. 陳鳳,蒙祖強(qiáng). 計(jì)算機(jī)科學(xué). 2019(10)
[6]基于語義分析的改進(jìn)TF-IDF算法[J]. 代鈺琴,徐魯強(qiáng). 西南科技大學(xué)學(xué)報(bào). 2019(01)
[7]文本特征提取方法研究綜述[J]. 徐冠華,趙景秀,楊紅亞,劉爽. 軟件導(dǎo)刊. 2018(05)
[8]跨模態(tài)檢索研究綜述[J]. 歐衛(wèi)華,劉彬,周永輝,宣瑞晟. 貴州師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2018(02)
[9]多媒體信息檢索中的查詢與反饋技術(shù)[J]. 查正軍,鄭曉菊. 計(jì)算機(jī)研究與發(fā)展. 2017(06)
[10]相關(guān)反饋在信息檢索中的研究綜述[J]. 于瑩瑩,陳燕,張金松. 情報(bào)理論與實(shí)踐. 2016(12)
本文編號:3313077
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3313077.html
最近更新
教材專著