基于深度學習的圖像描述模型的設計與實現(xiàn)
發(fā)布時間:2021-11-23 04:01
圖像描述問題同時涉及計算機視覺和自然語言處理,是近年來深度學習領域一個熱門的研究問題。目前,主流的圖像描述模型的研究重點在于如何設計更加有效的視覺注意力機制,使得模型能夠在生成圖像描述語句的過程中更好地提取和利用圖像特征。但是,它們在生成描述語句時傾向于采用固定的語言結構模式,即它們生成的描述語句會偏向于由數(shù)據(jù)集中頻繁出現(xiàn)的詞匯短語組成的這樣一種固定的形式,而不能依據(jù)圖像中的某些獨特的特征,生成更加豐富多樣化而且正確描述圖像內容的描述語句。本文經(jīng)過分析,總結出造成上述問題的主要原因:傳統(tǒng)的模型普遍采用了長短期記憶網(wǎng)絡來生成圖像描述語句,從而導致模型未能夠學習和利用自然語句內部的句法特征。針對于此,本文提出一個基于自注意力機制和空間注意力機制的圖像描述模型。該模型在設計上采用了流行的Encoder-Decoder框架結構,Encoder模塊中利用了卷積神經(jīng)網(wǎng)絡來提取圖像特征,Decoder中使用了多個由多頭空間注意力子層、多頭自注意力子層和全連接前饋網(wǎng)絡子層堆疊而成的子模塊替代傳統(tǒng)模型中的長短期記憶網(wǎng)絡。其中,多頭空間注意力子層是應用空間注意力機制來選取和利用圖像特征;多頭自注意力子層則...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
所有詞向量降維后可視化圖
5.1.1 訓練數(shù)據(jù)集設計與處理本次課題所使用的數(shù)據(jù)集是 MSCOCO(2014) [33],該數(shù)據(jù)集中總共包括超過 120,000 張圖片數(shù)據(jù)。這個數(shù)據(jù)集是微軟公開的大規(guī)模標注數(shù)據(jù)集,并且可以用于深度學習領域的目標識別、目標分割、人體關鍵點檢測(人體姿態(tài)估計)和圖像描述的任務中。MSCOCO2014 數(shù)據(jù)集中的用于圖像描述任務的標注數(shù)據(jù)是使用亞馬遜公司的“土耳其機器人(Mechanical Turk)”服務,人工地為其中“train”部分和“val”部分的圖像都生成了 5 句描述語句。之所以為每張圖片生成 5 句描述語句,而不是一句,主要是考慮到人類自然語言的靈活性。畢竟,對于同一張圖片,不同的人可能因為描述的角度不同而生成不同的且都正確的描述語句。圖5-1 給出了數(shù)據(jù)集中的圖像示例。同時,數(shù)據(jù)集中圖片的標注數(shù)據(jù)采用了key-value 的方式進行記錄。其中,每張圖片標注數(shù)據(jù)里的 key 包括“image_id”、“id”和“caption”,例如:{“image_id”: 47720, “id”: 829317 , “caption”: “a cup ofcoffe sits next to panini sandwich on a counter”}。
-92β =0.98, ε=10;學習率初始值設置為 0.01,并且每當模型訓練按照一定比例降低;模型描述語句的最大長度(max-length)設使用的損失函數(shù)(loss function)是交叉熵(cross-entropy)損為了防止過擬合(over-fitting),提高模型的泛化能力,模型中的數(shù)是帶 l2 正則(權重衰減)的損失函數(shù)。損失函數(shù),又被稱為誤 function)或者代價函數(shù)(cost function),可以看作是模型的目的是模型的輸出與真實標注數(shù)據(jù)之間的差異或者距離,表示模型程度。我們訓練模型的目標是使模型的輸出與真是標注數(shù)據(jù)盡可而通常損失函數(shù)的值越小表示模型性能越好。模型在訓練數(shù)據(jù)集值被稱為訓練誤差(training error),而在驗證集和測試集上的值為驗證誤差(validation error)和測試誤差(test error)。5-2 展示了由 tensorbard 生成的模型訓練過程中隨著訓練總步數(shù)變誤差的變化曲線。該圖的縱坐標表示的是模型訓練過程中的訓練是訓練總步數(shù)。從圖中可以看出,訓練誤差總體來說呈現(xiàn)不斷下化軌跡。這表明模型的訓練朝著正確的方向進行。
【參考文獻】:
碩士論文
[1]基于深度學習的圖像語義標注與描述研究[D]. 鄭永哲.廣西師范大學 2017
本文編號:3513083
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:61 頁
【學位級別】:碩士
【部分圖文】:
所有詞向量降維后可視化圖
5.1.1 訓練數(shù)據(jù)集設計與處理本次課題所使用的數(shù)據(jù)集是 MSCOCO(2014) [33],該數(shù)據(jù)集中總共包括超過 120,000 張圖片數(shù)據(jù)。這個數(shù)據(jù)集是微軟公開的大規(guī)模標注數(shù)據(jù)集,并且可以用于深度學習領域的目標識別、目標分割、人體關鍵點檢測(人體姿態(tài)估計)和圖像描述的任務中。MSCOCO2014 數(shù)據(jù)集中的用于圖像描述任務的標注數(shù)據(jù)是使用亞馬遜公司的“土耳其機器人(Mechanical Turk)”服務,人工地為其中“train”部分和“val”部分的圖像都生成了 5 句描述語句。之所以為每張圖片生成 5 句描述語句,而不是一句,主要是考慮到人類自然語言的靈活性。畢竟,對于同一張圖片,不同的人可能因為描述的角度不同而生成不同的且都正確的描述語句。圖5-1 給出了數(shù)據(jù)集中的圖像示例。同時,數(shù)據(jù)集中圖片的標注數(shù)據(jù)采用了key-value 的方式進行記錄。其中,每張圖片標注數(shù)據(jù)里的 key 包括“image_id”、“id”和“caption”,例如:{“image_id”: 47720, “id”: 829317 , “caption”: “a cup ofcoffe sits next to panini sandwich on a counter”}。
-92β =0.98, ε=10;學習率初始值設置為 0.01,并且每當模型訓練按照一定比例降低;模型描述語句的最大長度(max-length)設使用的損失函數(shù)(loss function)是交叉熵(cross-entropy)損為了防止過擬合(over-fitting),提高模型的泛化能力,模型中的數(shù)是帶 l2 正則(權重衰減)的損失函數(shù)。損失函數(shù),又被稱為誤 function)或者代價函數(shù)(cost function),可以看作是模型的目的是模型的輸出與真實標注數(shù)據(jù)之間的差異或者距離,表示模型程度。我們訓練模型的目標是使模型的輸出與真是標注數(shù)據(jù)盡可而通常損失函數(shù)的值越小表示模型性能越好。模型在訓練數(shù)據(jù)集值被稱為訓練誤差(training error),而在驗證集和測試集上的值為驗證誤差(validation error)和測試誤差(test error)。5-2 展示了由 tensorbard 生成的模型訓練過程中隨著訓練總步數(shù)變誤差的變化曲線。該圖的縱坐標表示的是模型訓練過程中的訓練是訓練總步數(shù)。從圖中可以看出,訓練誤差總體來說呈現(xiàn)不斷下化軌跡。這表明模型的訓練朝著正確的方向進行。
【參考文獻】:
碩士論文
[1]基于深度學習的圖像語義標注與描述研究[D]. 鄭永哲.廣西師范大學 2017
本文編號:3513083
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3513083.html
最近更新
教材專著