基于生成式對抗網絡圖片生成文字的研究
發(fā)布時間:2021-03-10 04:37
近年來,隨著深度學習的發(fā)展,以及硬件設備技術的不斷突破,基于人工智能的應用遍地開花,大量研究人員對這項技術都產生了濃厚興趣。例如人臉識別、人臉生成、換臉技術、目標檢測與跟蹤、場景分割、自動駕駛、行人重識別、語音識別等等。而圖像理解Image Caption是一個綜合類問題。它不僅需要自然語言處理技術,還需要計算機視覺方向的圖像處理技術。具體來說這項技術需要同時處理圖像數(shù)據(jù)和文本數(shù)據(jù)。圖像理解算法既要用計算機視覺方法來提取圖像特征及其相關關系,而且還需要生成文本描述出來。更關鍵的是,模型還要能夠抓住圖像中的語義內容,生成真實的、自然的文本描述。圖像理解方法普遍是基于編碼器-解碼器結構,其中編碼器大多由提取圖像特征的卷積神經網絡構成。解碼器則通過循環(huán)神經網絡構成,它的作用是生成描述性的文本。本文針對當前基于圖像理解研究存在的主要問題進行了下列主要工作:(1)由于RNN存在梯度消失的問題,而通過對RNN進行改進得到一種特殊結構的長短時記憶網絡LSTM,這種網絡通過其自身的門控結構,能有效解決RNN引起的梯度消失問題,所以本文在解碼端使用LSTM長短時期記憶網絡的方法生成文本描述。但是基于該方...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
基于CNN-RNN圖像生成文字的方法
第二章圖像理解的基礎92.1.3梯度消失和梯度膨脹神經網絡訓練經常出現(xiàn)的問題有梯度消失和梯度爆炸,出現(xiàn)梯度消失時,會導致梯度更新緩慢,模型無法從訓練數(shù)據(jù)中獲得更新,損失幾乎保持不變。而出現(xiàn)梯度爆炸時,會導致模型無法收斂,不穩(wěn)定,更新過程中的損失會出現(xiàn)顯著變化,訓練過程中,模型損失變?yōu)镹aN。梯度消失經常出現(xiàn)在深層網絡中,另一種是采用了不合適的損失函數(shù),比如sigmoid激活函數(shù)。梯度爆炸一般出現(xiàn)在深層網絡中以及權值初始化太大的情況下,下面分別從這兩個方面分析梯度消失和爆炸的原因。梯度爆炸是對激活函數(shù)進行求導,當網絡層數(shù)增多時,如果導數(shù)部分大于1,梯度更新將以指數(shù)形式增加。梯度消失時,對激活函數(shù)求導,其值小于1,當層數(shù)很深時,梯度將以指數(shù)形式衰減。解決梯度消失和梯度爆炸的主要方案是使用別的激活函數(shù),例如relu以及l(fā)eakyrelu等激活函數(shù)。使用Relu時,激活函數(shù)的導數(shù)為1,那么就不存在梯度消失爆炸的問題了,每層的網絡都可以得到相同的更新速度,relu就這樣應運而生。公式(2-1)為relu的數(shù)學表達式:0,0,0),0max()(eluxxxxxR(2-1)其函數(shù)圖像及其導數(shù)圖像如圖2-1所示:圖2-1Relu的函數(shù)圖及其導數(shù)圖像可以很容易看出,relu函數(shù)的導數(shù)在正數(shù)部分是恒等于1的。在深層網絡中使用relu激活函數(shù)就不會導致梯度消失和爆炸的問題。relu的主要貢獻在于:(1).解決了梯度消失、爆炸的問題。(2).計算方便,計算速度快。(3).加速了網絡的訓練。同時relu也存在一些缺點:由于負數(shù)部分恒為0,會導致一些神經元無法激活(可通過設置小學習率部分解決)。另外一種激活函數(shù)Leakyrelu為了解決relu的0區(qū)間帶來的影響,其數(shù)學表達
電子科技大學碩士學位論文10為:leakrelu=max(kx,x),其中k是leaky系數(shù),一般選擇0.01或者0.02,或者通過學習而來,Leakyrelu解決了0區(qū)間帶來的影響,而且包含了relu的所有優(yōu)點,其表達式為公式(2-2)所示:otherwisexexxlu),1(0,x)(re(2-2)其函數(shù)圖像如下圖2-2所示:圖2-2leakyrelu函數(shù)圖及其導數(shù)圖另一種方法是使用殘差結構,其中殘差單元如下圖2-3所示:圖2-3殘差網絡的單元結構以上就是卷積神經網絡訓練中比較常用到的方法,通過卷積神經網絡我們可以有效地進行訓練,提取需要的圖像特征,將獲得的向量輸入到自然語言處理的算法中來完成圖像理解的過程。2.2生成式對抗網絡的介紹生成式對抗網絡是由蒙特利爾大學的IanGoodFellow提出來的一種基于零和博弈論的方法。原始的生成式對抗網絡主要是用于逼真圖片的生成。而在本文中,
【參考文獻】:
博士論文
[1]基于深度學習的圖像描述算法研究[D]. 朱欣鑫.北京郵電大學 2019
碩士論文
[1]基于深度學習的內容自動生成[D]. 韓易.華東師范大學 2019
[2]基于深度學習的圖像語義理解研究[D]. 梁歡.重慶大學 2016
本文編號:3074063
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
基于CNN-RNN圖像生成文字的方法
第二章圖像理解的基礎92.1.3梯度消失和梯度膨脹神經網絡訓練經常出現(xiàn)的問題有梯度消失和梯度爆炸,出現(xiàn)梯度消失時,會導致梯度更新緩慢,模型無法從訓練數(shù)據(jù)中獲得更新,損失幾乎保持不變。而出現(xiàn)梯度爆炸時,會導致模型無法收斂,不穩(wěn)定,更新過程中的損失會出現(xiàn)顯著變化,訓練過程中,模型損失變?yōu)镹aN。梯度消失經常出現(xiàn)在深層網絡中,另一種是采用了不合適的損失函數(shù),比如sigmoid激活函數(shù)。梯度爆炸一般出現(xiàn)在深層網絡中以及權值初始化太大的情況下,下面分別從這兩個方面分析梯度消失和爆炸的原因。梯度爆炸是對激活函數(shù)進行求導,當網絡層數(shù)增多時,如果導數(shù)部分大于1,梯度更新將以指數(shù)形式增加。梯度消失時,對激活函數(shù)求導,其值小于1,當層數(shù)很深時,梯度將以指數(shù)形式衰減。解決梯度消失和梯度爆炸的主要方案是使用別的激活函數(shù),例如relu以及l(fā)eakyrelu等激活函數(shù)。使用Relu時,激活函數(shù)的導數(shù)為1,那么就不存在梯度消失爆炸的問題了,每層的網絡都可以得到相同的更新速度,relu就這樣應運而生。公式(2-1)為relu的數(shù)學表達式:0,0,0),0max()(eluxxxxxR(2-1)其函數(shù)圖像及其導數(shù)圖像如圖2-1所示:圖2-1Relu的函數(shù)圖及其導數(shù)圖像可以很容易看出,relu函數(shù)的導數(shù)在正數(shù)部分是恒等于1的。在深層網絡中使用relu激活函數(shù)就不會導致梯度消失和爆炸的問題。relu的主要貢獻在于:(1).解決了梯度消失、爆炸的問題。(2).計算方便,計算速度快。(3).加速了網絡的訓練。同時relu也存在一些缺點:由于負數(shù)部分恒為0,會導致一些神經元無法激活(可通過設置小學習率部分解決)。另外一種激活函數(shù)Leakyrelu為了解決relu的0區(qū)間帶來的影響,其數(shù)學表達
電子科技大學碩士學位論文10為:leakrelu=max(kx,x),其中k是leaky系數(shù),一般選擇0.01或者0.02,或者通過學習而來,Leakyrelu解決了0區(qū)間帶來的影響,而且包含了relu的所有優(yōu)點,其表達式為公式(2-2)所示:otherwisexexxlu),1(0,x)(re(2-2)其函數(shù)圖像如下圖2-2所示:圖2-2leakyrelu函數(shù)圖及其導數(shù)圖另一種方法是使用殘差結構,其中殘差單元如下圖2-3所示:圖2-3殘差網絡的單元結構以上就是卷積神經網絡訓練中比較常用到的方法,通過卷積神經網絡我們可以有效地進行訓練,提取需要的圖像特征,將獲得的向量輸入到自然語言處理的算法中來完成圖像理解的過程。2.2生成式對抗網絡的介紹生成式對抗網絡是由蒙特利爾大學的IanGoodFellow提出來的一種基于零和博弈論的方法。原始的生成式對抗網絡主要是用于逼真圖片的生成。而在本文中,
【參考文獻】:
博士論文
[1]基于深度學習的圖像描述算法研究[D]. 朱欣鑫.北京郵電大學 2019
碩士論文
[1]基于深度學習的內容自動生成[D]. 韓易.華東師范大學 2019
[2]基于深度學習的圖像語義理解研究[D]. 梁歡.重慶大學 2016
本文編號:3074063
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3074063.html
最近更新
教材專著