基于互助雙向LSTM與遞進(jìn)解碼機(jī)制的圖像標(biāo)題生成
發(fā)布時(shí)間:2021-02-01 12:38
圖像標(biāo)題生成是計(jì)算機(jī)視覺和自然語言處理交叉領(lǐng)域的研究熱點(diǎn),它要求算法能準(zhǔn)確地識(shí)別圖像內(nèi)容并將圖像內(nèi)容表達(dá)為通順的句子。本文旨在分析現(xiàn)有圖像標(biāo)題生成算法存在的問題并提出兩點(diǎn)改進(jìn):互助雙向長短期記憶網(wǎng)絡(luò)與遞進(jìn)解碼機(jī)制。受卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)成功地被應(yīng)用于圖像識(shí)別和機(jī)器翻譯的啟發(fā),主流圖像標(biāo)題生成算法使用CNN將原始圖像編碼為圖像特征并使用LSTM將圖像特征解碼為句子。然而,現(xiàn)有算法從前向后逐個(gè)生成單詞,未考慮一個(gè)詞的后續(xù)詞對(duì)句子生成的影響。由于句中單詞具有上下文聯(lián)系,因此現(xiàn)有算法有待被進(jìn)一步改進(jìn)以充分利用上下文。針對(duì)該問題,本文提出基于互助雙向長短期記憶(Mutual-aid Bidirectional LSTM,MB-LSTM)網(wǎng)絡(luò)的圖像標(biāo)題生成算法。MB-LSTM由前向LSTM、前向協(xié)助網(wǎng)絡(luò)、后向LSTM和后向協(xié)助網(wǎng)絡(luò)組成。在訓(xùn)練階段,前向和后向LSTM將上文和下文分別編碼為各自的隱藏狀態(tài),進(jìn)而將各自的隱藏狀態(tài)分別輸入前向和后向協(xié)助網(wǎng)絡(luò)以預(yù)測(cè)對(duì)方的隱藏狀...
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 本文工作與貢獻(xiàn)
1.5 本文結(jié)構(gòu)
2 基礎(chǔ)知識(shí)與關(guān)鍵技術(shù)
2.1 多層感知機(jī)
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4 本章小結(jié)
3 基于互助雙向LSTM模型的標(biāo)題生成算法
3.1 Inception-V4編碼器
3.1.1 網(wǎng)絡(luò)主干
3.1.2 Inception與Reduction
3.2 互助雙向LSTM解碼器
3.2.1 LSTM解碼器
3.2.2 帶注意力機(jī)制的LSTM解碼器
3.2.3 互助雙向LSTM解碼器
3.3 損失函數(shù)
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 MicrosoftCOCO數(shù)據(jù)集
3.4.2 常用的評(píng)測(cè)指標(biāo)
3.4.3 實(shí)驗(yàn)設(shè)置與實(shí)現(xiàn)細(xì)節(jié)
3.4.4 預(yù)訓(xùn)練LSTM解碼器
3.4.5 互助雙向LSTM的作用
3.4.6 與其他算法的比較與分析
3.4.7 具體實(shí)例分析
3.5 本章小結(jié)
4 基于遞進(jìn)解碼機(jī)制的圖像標(biāo)題生成算法
4.1 多模態(tài)注意力模塊
4.2 最終圖像標(biāo)題的生成
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 預(yù)訓(xùn)練與微調(diào)
4.3.2 與其他算法的比較與分析
4.3.3 具體實(shí)例分析
4.3.4 注意力可視化分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄A MB-LSTM在其他數(shù)據(jù)集上的測(cè)試
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號(hào):3012789
【文章來源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:65 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 本文工作與貢獻(xiàn)
1.5 本文結(jié)構(gòu)
2 基礎(chǔ)知識(shí)與關(guān)鍵技術(shù)
2.1 多層感知機(jī)
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.4 本章小結(jié)
3 基于互助雙向LSTM模型的標(biāo)題生成算法
3.1 Inception-V4編碼器
3.1.1 網(wǎng)絡(luò)主干
3.1.2 Inception與Reduction
3.2 互助雙向LSTM解碼器
3.2.1 LSTM解碼器
3.2.2 帶注意力機(jī)制的LSTM解碼器
3.2.3 互助雙向LSTM解碼器
3.3 損失函數(shù)
3.4 實(shí)驗(yàn)結(jié)果與分析
3.4.1 MicrosoftCOCO數(shù)據(jù)集
3.4.2 常用的評(píng)測(cè)指標(biāo)
3.4.3 實(shí)驗(yàn)設(shè)置與實(shí)現(xiàn)細(xì)節(jié)
3.4.4 預(yù)訓(xùn)練LSTM解碼器
3.4.5 互助雙向LSTM的作用
3.4.6 與其他算法的比較與分析
3.4.7 具體實(shí)例分析
3.5 本章小結(jié)
4 基于遞進(jìn)解碼機(jī)制的圖像標(biāo)題生成算法
4.1 多模態(tài)注意力模塊
4.2 最終圖像標(biāo)題的生成
4.3 實(shí)驗(yàn)結(jié)果與分析
4.3.1 預(yù)訓(xùn)練與微調(diào)
4.3.2 與其他算法的比較與分析
4.3.3 具體實(shí)例分析
4.3.4 注意力可視化分析
4.4 本章小結(jié)
5 總結(jié)與展望
5.1 總結(jié)
5.2 展望
參考文獻(xiàn)
附錄A MB-LSTM在其他數(shù)據(jù)集上的測(cè)試
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號(hào):3012789
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3012789.html
最近更新
教材專著