基于多尺度特征和注意力融合的圖像描述生成方法研究
發(fā)布時間:2024-03-10 05:04
隨著互聯(lián)網(wǎng)和計算機智能的飛速發(fā)展,圖像數(shù)據(jù)和視頻數(shù)據(jù)急劇增加。為了更好滿足人們對圖像信息和視頻信息的需求,急需對圖像和視頻進行處理的技術(shù)。機器自動生成圖像描述文本是當(dāng)前人工智能研究熱點之一,它搭建起計算機視覺和自然語言處理之間的橋梁,是通向機器智能常應(yīng)用場景的至關(guān)重要一步。圖像描述生成任務(wù)借助計算機視覺技術(shù)自動完成圖像目標(biāo)識別,再利用機器翻譯模型將解釋的內(nèi)容表達成一段自然語言文本。圖像描述生成任務(wù)雖然面臨諸多挑戰(zhàn),但應(yīng)用前景廣泛,具有重要的應(yīng)用價值和現(xiàn)實意義。本文的主要內(nèi)容如下:(1)首先介紹本論文研究方向的研究背景和研究意義,接著介紹了圖像描述生成的國外研究現(xiàn)狀。接著介紹現(xiàn)有圖像描述生成模型的優(yōu)缺點,深度學(xué)習(xí)中的注意力機制、多尺度圖像和圖像描述生成的相關(guān)理論與關(guān)鍵技術(shù)。(2)當(dāng)前深度學(xué)習(xí)模型對圖像特征的提取多數(shù)采用卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練的模型最后幾層中的一層作為全局特征,在圖像信息提取過程中提取圖像尺度單一,忽視了不同尺度下圖像特征的提取,同樣缺少對圖像局部信息的提取,造成文字對圖片內(nèi)容描述的不夠準確、語義較模糊的問題。針對此問題,本文基于在卷積神經(jīng)網(wǎng)絡(luò)中,不同特征層具有不同的尺度。利用...
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容和組織結(jié)構(gòu)
1.3.1 研究內(nèi)容
1.3.2 組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 相關(guān)理論和關(guān)鍵技術(shù)
2.1 梯度下降法
2.2 常見神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.3 基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取
2.3 注意力機制
2.3.1 硬性注意力
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)中的注意力
2.4 多尺度圖像
2.5 本章小結(jié)
第3章 基于多尺度特征的圖像描述生成模型
3.1 圖像描述模型設(shè)計概要
3.2 本文模型結(jié)構(gòu)
3.3 基于VGG16 的多尺度圖像特征提取的編碼器
3.3.1 VGG網(wǎng)絡(luò)模型
3.3.2 編碼器
3.4 基于LSTM的圖像描述生成的解碼階段
3.4.1 解碼器
3.4.2 詞嵌入
3.4.3 解碼器過程
3.5 實驗結(jié)果與分析
3.5.1 數(shù)據(jù)集與實驗環(huán)境
3.5.2 數(shù)據(jù)準備與數(shù)據(jù)處理
3.5.3 評價指標(biāo)
3.5.4 結(jié)果分析
3.6 本章小結(jié)
第4章 基于注意力和多尺度特征融合的圖像描述生成模型
4.1 注意力圖
4.2 注意力圖的生成
4.3 注意力圖和多尺度特征融合
4.4 實驗與分析
4.4.1 訓(xùn)練過程與模型參數(shù)
4.4.2 實驗結(jié)果
4.4.3 結(jié)果分析
4.5 本章小結(jié)
第5章 總結(jié)與展望
5.1 工作總結(jié)
5.2 展望
參考文獻
致謝
本文編號:3924286
【文章頁數(shù)】:47 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容和組織結(jié)構(gòu)
1.3.1 研究內(nèi)容
1.3.2 組織結(jié)構(gòu)
1.4 本章小結(jié)
第2章 相關(guān)理論和關(guān)鍵技術(shù)
2.1 梯度下降法
2.2 常見神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.2.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
2.2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)
2.2.3 基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取
2.3 注意力機制
2.3.1 硬性注意力
2.3.2 卷積神經(jīng)網(wǎng)絡(luò)中的注意力
2.4 多尺度圖像
2.5 本章小結(jié)
第3章 基于多尺度特征的圖像描述生成模型
3.1 圖像描述模型設(shè)計概要
3.2 本文模型結(jié)構(gòu)
3.3 基于VGG16 的多尺度圖像特征提取的編碼器
3.3.1 VGG網(wǎng)絡(luò)模型
3.3.2 編碼器
3.4 基于LSTM的圖像描述生成的解碼階段
3.4.1 解碼器
3.4.2 詞嵌入
3.4.3 解碼器過程
3.5 實驗結(jié)果與分析
3.5.1 數(shù)據(jù)集與實驗環(huán)境
3.5.2 數(shù)據(jù)準備與數(shù)據(jù)處理
3.5.3 評價指標(biāo)
3.5.4 結(jié)果分析
3.6 本章小結(jié)
第4章 基于注意力和多尺度特征融合的圖像描述生成模型
4.1 注意力圖
4.2 注意力圖的生成
4.3 注意力圖和多尺度特征融合
4.4 實驗與分析
4.4.1 訓(xùn)練過程與模型參數(shù)
4.4.2 實驗結(jié)果
4.4.3 結(jié)果分析
4.5 本章小結(jié)
第5章 總結(jié)與展望
5.1 工作總結(jié)
5.2 展望
參考文獻
致謝
本文編號:3924286
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3924286.html
最近更新
教材專著