基于密集卷積神經(jīng)網(wǎng)絡(luò)特征提取的圖像描述模型研究
發(fā)布時間:2021-10-14 06:25
近年來,Graphic Processing Unit(GPU)計(jì)算功能的提升促進(jìn)了人工智能和深度學(xué)習(xí)的興起。其中,計(jì)算機(jī)視覺,虛擬現(xiàn)實(shí),自然語言處理,增強(qiáng)現(xiàn)實(shí),語音識別等一系列領(lǐng)域的興起,直接對我們對生活產(chǎn)生了深遠(yuǎn)的影響。在計(jì)算機(jī)視覺領(lǐng)域中,ImageNet,COCO,VOC等數(shù)據(jù)集的出現(xiàn)以及AlexNet,VGG,ResNet,Inception,DenseNet等經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模型的提出,極大的促進(jìn)了許多計(jì)算機(jī)視覺工作(圖像分類,目標(biāo)檢測,目標(biāo)跟蹤,圖像語義分割,圖像描述等)的深度研究;在自然語言處理中,Encoder-Decoder模型,Seq2Seq模型以及Attention機(jī)制的引入使得機(jī)器翻譯,文本挖掘,情感分析,系統(tǒng)問答等都有顯著的發(fā)展;同時在語音識別中,語音特征提取,文本模式匹配等等一系列工作都得到了廣泛的研究。圖像描述是人工智能中一個非常熱門的研究課題,它集合了計(jì)算機(jī)視覺和自然語言處理兩大領(lǐng)域,而且應(yīng)用也是非常廣泛,例如,圖像翻譯,圖像檢索,兒童早教等等各個方面。本文通過密集卷積神經(jīng)網(wǎng)絡(luò)(Dens...
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1?DenseNetM結(jié)構(gòu)圖??
?3.2.1網(wǎng)絡(luò)結(jié)構(gòu)圖??下面是網(wǎng)絡(luò)模型的結(jié)構(gòu)圖,圖像描述模型的結(jié)構(gòu)如圖3-2所示,其中包括了三個??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用來對輸入圖像進(jìn)行抽象表示,Decoder主要是LSTM,將Encoder的??結(jié)果(圖像特征圖)轉(zhuǎn)換為對應(yīng)的句子。而兩者的連接部分就是“Visual?Attention??Switch”,具體的結(jié)構(gòu)如圖3-3所示,能夠根據(jù)不同的輸入詞匯將注意力轉(zhuǎn)換到對應(yīng)??的圖像部分,使得生成的圖像描述句子語義信息更加豐富。下一節(jié)結(jié)合公式來具體??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??圖3-2網(wǎng)絡(luò)結(jié)構(gòu)模型。本文使用DenseNet來從輸入圖像中抽取深度特征圖(C通道xW寬??度xH高度)。然后連接特征圖
?3.2.1網(wǎng)絡(luò)結(jié)構(gòu)圖??下面是網(wǎng)絡(luò)模型的結(jié)構(gòu)圖,圖像描述模型的結(jié)構(gòu)如圖3-2所示,其中包括了三個??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用來對輸入圖像進(jìn)行抽象表示,Decoder主要是LSTM,將Encoder的??結(jié)果(圖像特征圖)轉(zhuǎn)換為對應(yīng)的句子。而兩者的連接部分就是“Visual?Attention??Switch”,具體的結(jié)構(gòu)如圖3-3所示,能夠根據(jù)不同的輸入詞匯將注意力轉(zhuǎn)換到對應(yīng)??的圖像部分,使得生成的圖像描述句子語義信息更加豐富。下一節(jié)結(jié)合公式來具體??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??圖3-2網(wǎng)絡(luò)結(jié)構(gòu)模型。本文使用DenseNet來從輸入圖像中抽取深度特征圖(C通道xW寬??度xH高度)。然后連接特征圖
本文編號:3435617
【文章來源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖3-1?DenseNetM結(jié)構(gòu)圖??
?3.2.1網(wǎng)絡(luò)結(jié)構(gòu)圖??下面是網(wǎng)絡(luò)模型的結(jié)構(gòu)圖,圖像描述模型的結(jié)構(gòu)如圖3-2所示,其中包括了三個??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用來對輸入圖像進(jìn)行抽象表示,Decoder主要是LSTM,將Encoder的??結(jié)果(圖像特征圖)轉(zhuǎn)換為對應(yīng)的句子。而兩者的連接部分就是“Visual?Attention??Switch”,具體的結(jié)構(gòu)如圖3-3所示,能夠根據(jù)不同的輸入詞匯將注意力轉(zhuǎn)換到對應(yīng)??的圖像部分,使得生成的圖像描述句子語義信息更加豐富。下一節(jié)結(jié)合公式來具體??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??圖3-2網(wǎng)絡(luò)結(jié)構(gòu)模型。本文使用DenseNet來從輸入圖像中抽取深度特征圖(C通道xW寬??度xH高度)。然后連接特征圖
?3.2.1網(wǎng)絡(luò)結(jié)構(gòu)圖??下面是網(wǎng)絡(luò)模型的結(jié)構(gòu)圖,圖像描述模型的結(jié)構(gòu)如圖3-2所示,其中包括了三個??部分,Encoder,?Decoder?和?“Visual?Attention?Switch”。Encoder?主要是?DenseNet??特征提取器,用來對輸入圖像進(jìn)行抽象表示,Decoder主要是LSTM,將Encoder的??結(jié)果(圖像特征圖)轉(zhuǎn)換為對應(yīng)的句子。而兩者的連接部分就是“Visual?Attention??Switch”,具體的結(jié)構(gòu)如圖3-3所示,能夠根據(jù)不同的輸入詞匯將注意力轉(zhuǎn)換到對應(yīng)??的圖像部分,使得生成的圖像描述句子語義信息更加豐富。下一節(jié)結(jié)合公式來具體??解析模型的框架。??f?Encoder?—?Extract?Feature?Map?|??;?(?Feature?Map**;??!?I?|?!??Input?Image?1??'?a.................................................?***??;?CNN?(DenseN?et)??V??)?????s??Decoder?—?Convert?Feature?Map?to?Caption??f?Specific?Feature?Map??!?I?&?一 ̄?I??!?!??Feature?Map?*?visual?Aucntion?Switch?又??v???^?)??圖3-2網(wǎng)絡(luò)結(jié)構(gòu)模型。本文使用DenseNet來從輸入圖像中抽取深度特征圖(C通道xW寬??度xH高度)。然后連接特征圖
本文編號:3435617
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3435617.html
最近更新
教材專著