天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于注意力長短時(shí)記憶網(wǎng)絡(luò)的圖像描述算法研究

發(fā)布時(shí)間:2022-02-15 07:24
  圖像描述旨在把一幅圖像的內(nèi)容翻譯為人類能夠理解的自然語句,這與圖像分類、目標(biāo)檢測等粗粒度的圖像理解任務(wù)有一定的區(qū)別。圖像描述任務(wù)不僅需要模型識別出圖像中的目標(biāo)、場景、屬性等信息,還需要模型能夠理解它們之間的關(guān)系,因此具有很大的挑戰(zhàn)性,在嬰幼兒早期教育、圖像檢索、輔助視覺障礙人士等方面具有極為廣闊的應(yīng)用。近年來,由于深度學(xué)習(xí)的發(fā)展及編碼器-解碼器框架在機(jī)器翻譯領(lǐng)域中的有效應(yīng)用,基于編碼器-解碼器框架下的圖像描述任務(wù)得到快速發(fā)展。本文的主要工作如下:(1)提出了基于注意力長短時(shí)記憶網(wǎng)絡(luò)的圖像描述算法。針對長短時(shí)記憶網(wǎng)絡(luò)中各個(gè)時(shí)刻獲取信息不準(zhǔn)確的問題,我們提出了注意力長短時(shí)記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)使用上一時(shí)刻隱藏層的信息控制當(dāng)前時(shí)刻的輸入信息;同時(shí)我們將注意力長短時(shí)記憶網(wǎng)絡(luò)與四種經(jīng)典圖像描述模型框架相結(jié)合并在圖像描述數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了注意力長短時(shí)記憶網(wǎng)絡(luò)對圖像描述任務(wù)的有效性。(2)提出了基于目標(biāo)區(qū)域注意力機(jī)制的圖像描述算法。通過研究圖像描述算法,我們發(fā)現(xiàn)圖像各個(gè)子區(qū)域中包含清晰的語義目標(biāo)信息更能提升圖像描述的準(zhǔn)確性,因此能否正確獲取圖像中的目標(biāo)區(qū)域信息是圖像描述的關(guān)鍵。在基于注意力長短時(shí)記憶... 

【文章來源】:湘潭大學(xué)湖南省

【文章頁數(shù)】:62 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于注意力長短時(shí)記憶網(wǎng)絡(luò)的圖像描述算法研究


戴著運(yùn)動(dòng)帽的小女孩正在球場上打網(wǎng)球

結(jié)構(gòu)圖,神經(jīng)元,結(jié)構(gòu)圖,卷積


7第2章基于深度學(xué)習(xí)的圖像描述算法的理論基礎(chǔ)基于深度學(xué)習(xí)方法的圖像描述算法主要包括圖像編碼和文本生成兩個(gè)部分。圖像編碼主要利用深度卷積神經(jīng)網(wǎng)絡(luò),生成文本時(shí)主要利用循環(huán)神經(jīng)網(wǎng)絡(luò)。下面主要介紹其基本原理,同時(shí)也將介紹圖像描述任務(wù)使用的數(shù)據(jù)集及評價(jià)指標(biāo)。2.1深度卷積神經(jīng)網(wǎng)絡(luò)2.1.1深度神經(jīng)網(wǎng)絡(luò)基本理論深度學(xué)習(xí)是在1958年人們對人工神經(jīng)網(wǎng)絡(luò)的探究發(fā)展而來的,人工神經(jīng)網(wǎng)絡(luò)由多個(gè)神經(jīng)元組合而成。圖2.1所示為單個(gè)神經(jīng)元的結(jié)構(gòu)圖:圖2.1單個(gè)神經(jīng)元結(jié)構(gòu)圖其中1nxx代表輸入向量值,b代表單個(gè)神經(jīng)元的偏置值,1nwwD代表輸入向量的權(quán)重值,h是輸出向量,計(jì)算公式為:()ThfWxb(2.1)圖2.1中y代表“感知器”即計(jì)算單元,神經(jīng)元首先對輸入向量和輸入向量對應(yīng)的權(quán)重進(jìn)行點(diǎn)積運(yùn)算,然后通過激活函數(shù)輸出計(jì)算結(jié)果,人工神經(jīng)網(wǎng)絡(luò)是由多個(gè)這樣的神經(jīng)元結(jié)構(gòu)組成的。DCNN網(wǎng)絡(luò)是由人工神經(jīng)網(wǎng)絡(luò)改進(jìn)得到的,DCNN網(wǎng)絡(luò)主要將人工神經(jīng)網(wǎng)絡(luò)的隱藏層分為多個(gè)卷積層和池化層。DCNN網(wǎng)絡(luò)有著強(qiáng)大的圖像表征能力,在許多領(lǐng)域都有廣泛的應(yīng)用。(1)卷積層在DCNN網(wǎng)絡(luò)中,卷積層主要是利用多種卷積核在圖像上實(shí)行平移計(jì)算操作獲得圖像的視覺特征,卷積層的操作主要是兩個(gè)矩陣的乘加運(yùn)算。如下圖2.2所示為卷積層的操作的過程,圖像最左側(cè)的矩陣是輸入矩陣,中間矩陣代表的是卷積核(過濾器),卷積核的步長是1,卷積后的結(jié)果為圖中最右側(cè)的矩陣。

示意圖,卷積,示意圖,卷積核


8圖2.2卷積層的操作示意圖卷積核的作用是獲取表征圖像的特征,為獲取到豐富的圖像特征,在DCNN網(wǎng)絡(luò)中通常會使用多個(gè)卷積核提取圖像的特征,每個(gè)卷積核都會輸出與之對應(yīng)的特征圖。卷積層的兩大特性是:局部感受野與權(quán)值共享。局部感受野的主要作用是獲取表征圖像的初級特征,權(quán)值共享的作用是減少參數(shù)量,縮小DCNN網(wǎng)絡(luò)的訓(xùn)練和學(xué)習(xí)時(shí)間。(2)池化層池化操作是DCNN網(wǎng)絡(luò)的重要構(gòu)成部分,池化的作用為降采樣。池化層用在卷積層之后,主要是對卷積層的輸出進(jìn)行降采樣。池化操作第一步是將卷積層輸出的特征劃分為對應(yīng)大小區(qū)域,然后再對每個(gè)區(qū)域單獨(dú)進(jìn)行池化。池化操作使用的非線性池化函數(shù)有多種形式,最常用的為“最大池化(MaxPooling)”,即求相應(yīng)區(qū)域的最大值。池化操作的作用除降維外,其另一個(gè)主要作用為防止過擬合。圖2.3展示了某一深度上的特征在步長大小為2,通過2*2大小的過濾器并采用“最大池化”函數(shù)得到降維的特征的過程:圖2.3最大池化過程示意圖(3)激活函數(shù)激活函數(shù)的功能是讓DCNN網(wǎng)絡(luò)擁有非線性建模的本領(lǐng),使模型可以擬合任何函數(shù)映射,它是DCNN網(wǎng)絡(luò)處理非線性問題不可或缺的操作。DCNN網(wǎng)絡(luò)中卷積操

【參考文獻(xiàn)】:
期刊論文
[1]基于多注意力多尺度特征融合的圖像描述生成算法[J]. 陳龍杰,張鈺,張玉梅,吳曉軍.  計(jì)算機(jī)應(yīng)用. 2019(02)

碩士論文
[1]基于區(qū)域注意力機(jī)制的圖像描述算法[D]. 吳黃子桑.武漢大學(xué) 2018



本文編號:3626189

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3626189.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶dc126***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com