天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學習的圖像描述算法研究

發(fā)布時間:2020-06-09 05:58
【摘要】:圖像描述是一種對輸入的圖像,能夠準確地生成描述圖像內容文本的多模態(tài)任務。該任務除了需要利用計算機視覺技術外,也需要使用自然語言處理的相關技術。將圖像內容轉化為描述圖像內容的文本,可以建立圖像中對象之間的語義關系,加強對圖像內容的深入理解;谏疃葘W習的編碼器解碼器框架雖然已為解決圖像描述任務提供了一套解決方案,但是現(xiàn)有的方法還存在識別率不高等問題,主要體現(xiàn)在:1)對圖像的空間區(qū)域信息利用程度不夠;2)通過交叉熵損失函數(shù)訓練得到的模型存在著訓練階段和測試階段的偏置問題;3)基于遞歸神經網絡的圖像描述模型存在著訓練并行度不高的問題。針對以上問題,本文提出了一系列的改進方案。本文研究內容包括基于多注意力機制和并行堆疊遞歸神經網絡的圖像描述算法,基于字典控制門和自適應自監(jiān)督增強學習的圖像描述算法,基于堆疊注意力機制和多級監(jiān)督的圖像描述算法。本文的主要創(chuàng)新工作如下:(1)基于多注意力機制和并行堆疊長短時記憶網絡的圖像描述模型。針對圖像描述任務中,如何使描述文本在不同的時刻都能更加有效地利用圖像局部信息的問題,提出了一種多注意力機制的改進方法。傳統(tǒng)的注意力機制,僅僅考慮了如何在長短時記憶網絡的輸入階段融合圖像的局部信息,本文為了多階段地融合圖像的局部信息提出了一種多注意力機制圖像描述模型。首先,該模型能夠在長短時記憶網絡的各個階段,有效融合圖像的局部特征信息。另外,在單詞的生成階段,所提出的模型也能夠高效地利用圖像局部特征。最后,為了解決長短時記憶網絡對于歷史信息建模不足的問題,本文提出了利用單詞歷史信息和圖像本身的語義信息進行建模的方法;谝陨先棇ψ⒁饬C制的改進,圖像描述模型的性能得到了一定的提高。本文進一步提出了一種新的并行堆疊長短時記憶網絡,同時進行了一系列的對比實驗,相對于傳統(tǒng)的堆疊長短時記憶網絡,模型的性能得到了有效的提升。(2)基于字典控制門和自適應自監(jiān)督增強學習的圖像描述模型。圖像描述任務是一種單詞序列生成任務,由于傳統(tǒng)的基于遞歸神經網絡的訓練方法是基于交叉熵損失函數(shù),所以會導致模型存在訓練階段和測試階段不一致的問題。為了解決該問題,本文提出了自適應自監(jiān)督的增強學習方法。該方法相較于之前的方法,它的訓練基準更加穩(wěn)定。該方法與基于交叉熵損失函數(shù)的訓練不同,它是通過一個獎勵函數(shù)進行有效的訓練。該獎勵函數(shù)綜合考慮了詞匯之間的相似關系。在圖像描述任務中,由于可能被選中的單詞包含在整個字典之中,導致了增強學習的行為選擇維度較高。為了降低行為選擇的難度,本文進一步提出了一種基于字典控制門的機制。通過該機制,模型可以有效地縮小行為選擇的空間,使得單詞的生成,相當于在一個更加準確的單詞范圍之內進行選擇。該方法可以進一步理解為減少了增強學習中行為空間的選擇范圍,有利于對增強學習進行更好的訓練。除此之外,通過對比實驗,驗證了本文提出的方法,能夠使得模型得到更好的性能,更加符合描述語句在應用中的實際情況。(3)基于堆疊注意力機制和多層級監(jiān)督的圖像描述模型;谶f歸神經網絡的圖像描述算法,其當前單詞需要利用歷史已生成的單詞逐個進行生成。在訓練階段,模型需要等待歷史單詞逐個生成之后,才能進行當前時刻單詞的訓練,該方式會導致模型訓練出現(xiàn)歷史依賴問題。為了改進該訓練方式,本文提出了一種基于堆疊注意力機制圖像描述模型。該模型相對于傳統(tǒng)的基于遞歸神經網絡的圖像描述模型,包含了多頭注意力模型和自注意力模型。該模型中包含的模塊都能夠有效進行并行訓練。本文使用了類似深度卷積神經網絡的方法,堆疊了更多的多頭注意力模型和自注意力模型,并且引入了殘差機制,使得深層次的網絡也能夠進行有效的訓練。為了更加有效地對多層模型進行訓練,本文提出了一種多層級監(jiān)督的訓練方法。該方法使得模型的不同層次都具有輸出完整語義的能力。最后模型使用了平均池化層,來融合各個層次的輸出。該方法相對于傳統(tǒng)的最上層優(yōu)化方法能夠得到更優(yōu)的性能。綜上所述,本文對基于深度學習的圖像描述算法進行了研究,針對已有模型的缺陷,提出了一系列的改進方案。實驗結果表明,本文提出的圖像描述算法相對于傳統(tǒng)的方法,能夠有效地提升圖像描述算法的性能,解決以往圖像描述算法的缺陷,同時能夠更加準確地生成圖像的描述文本。
【圖文】:

結構圖,遞歸神經網絡,結構圖


經網絡[221為代表的達上百層的深度卷積網絡。逡逑圖像分類的飛速發(fā)展,也促進了計算視覺其它領域的快速發(fā)展,以深yL經網絡為基礎,圖像檢測、圖像分割的性能也得到了飛速的提高,出現(xiàn)Faster-RCNN[81,Mask-RCNN117]在內的優(yōu)秀算法,它們的性能己經能夠達級別,并己經應用于自動駕駛等領域。逡逑1.3.2遞歸神經網絡逡逑遞歸神經網絡(RNN)是一種神經網絡算法,它可以看作不同節(jié)點,連接的邊生成一個有向圖的過程。該結構使得它能夠在時間序列上動態(tài)的不同的行為。相對于傳統(tǒng)的前向反饋神經網絡,該網絡能夠利用內部狀態(tài)序列的輸入。除此之外,,該結構也使得它能夠應用于包括手寫體識別和語等任務之中。逡逑

結構圖,結構圖,梯度,訓練參數(shù)


逑一個基本的RNN如圖]-1中左半部分所示,它包括內部狀態(tài)/;^是模型的逡逑輸入,0為模型的輸出。RNN本身是一個迭代的過程,展開后為圖1-1右半部分逡逑所示的結構,即模型的隱藏狀態(tài)隨著時刻的進行,需要不斷的傳遞到下一時刻之逡逑中,它可以由公式(1-20),公式(1-21)進行表示:逡逑ht邋=邋ah(Whxt邋+邐+邋bh)邐(1-20)逡逑ot邋=邋Gt(W0ht邋+邋by)邐(1-21)逡逑其中/it代表了邋RNN在t時刻的隱藏狀態(tài),1^是RNN在t時刻的輸入向量,0t表示逡逑模型的輸出向量,?代表模型的訓練參數(shù),卟,%為模型的逡逑激活函數(shù)。逡逑由于傳統(tǒng)的RNN存在梯度消失和梯度爆炸的問題,所以出現(xiàn)了克服該缺點逡逑的長短時記憶網絡(Long邋Short-Term邋Memory,LSTM)邋[36]。LSTM能夠有效地逡逑阻止反向傳播中的梯度消失和梯度爆炸問題。LSTM為了更加有效地利用歷史信逡逑息,提出了門的概念。逡逑如圖1-2所不
【學位授予單位】:北京郵電大學
【學位級別】:博士
【學位授予年份】:2019
【分類號】:TP391.41;TP183

【相似文獻】

相關期刊論文 前10條

1 湯鵬杰;譚云蘭;李金忠;;融合圖像場景及物體先驗知識的圖像描述生成模型[J];中國圖象圖形學報;2017年09期

2 李曉莉;張慧明;李曉光;;多主題的圖像描述生成方法研究[J];小型微型計算機系統(tǒng);2019年05期

3 薛一鳴;周雪婧;周小詩;牛少彰;文娟;;基于圖像描述的文本信息隱藏[J];北京郵電大學學報;2018年06期

4 張凱;李軍輝;周國棟;;基于樞軸語言的圖像描述生成研究[J];中文信息學報;2019年03期

5 周昌;鄭雅羽;周凡;陳耀武;;基于局部圖像描述的目標跟蹤方法[J];浙江大學學報(工學版);2008年07期

6 楊楠;南琳;張丁一;庫濤;;基于深度學習的圖像描述研究[J];紅外與激光工程;2018年02期

7 李亞棟;莫紅;王世豪;周忠;吳威;;基于圖像描述的人物檢索方法[J];系統(tǒng)仿真學報;2018年07期

8 陶云松;張麗紅;;基于雙向注意力機制圖像描述方法研究[J];測試技術學報;2019年04期

9 徐平;;探究曲線運動的圖像描述[J];物理通報;2013年07期

10 吳娛;趙嘉濟;平子良;杜昊翔;;基于指數(shù)矩的圖像描述[J];現(xiàn)代電子技術;2013年14期

相關會議論文 前3條

1 莫華;張燕;岳糧躍;吳智輝;滕維中;;生物臟器滲流分支血管系統(tǒng)的分形特性[A];第四屆西部十二省(區(qū))市物理學會聯(lián)合學術交流會論文集[C];2008年

2 楊秀秀;尹燕寧;徐素鵬;夏勇;印建平;;氟化鎂分子的受激輻射力減速[A];第十七屆全國量子光學學術會議報告摘要集[C];2016年

3 程士德;蘇晶;;中醫(yī)模式形成和特點剖析[A];中醫(yī)藥優(yōu)秀論文選(上)[C];2009年

相關博士學位論文 前4條

1 朱欣鑫;基于深度學習的圖像描述算法研究[D];北京郵電大學;2019年

2 湯進;基于圖理論的圖像描述與檢索方法研究[D];安徽大學;2007年

3 顧廣華;面向圖像語義描述的場景分類研究[D];北京交通大學;2013年

4 曲智國;基于圖理論的圖像結構化描述與匹配方法研究[D];國防科學技術大學;2013年

相關碩士學位論文 前10條

1 趙德海;基于深度學習的視頻事件檢測的研究與應用[D];中國石油大學(華東);2017年

2 常智;基于深度學習的圖像描述方法研究[D];天津理工大學;2019年

3 房超;基于圖像高級語義與Attention融合的圖像描述方法研究[D];遼寧大學;2018年

4 束炎武;基于多模態(tài)遞歸網絡的圖像描述研究[D];南京理工大學;2018年

5 倪夢s

本文編號:2704258


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2704258.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶886ac***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com