基于深度學(xué)習(xí)的自動生成圖像描述方法研究

發(fā)布時間：2021-01-31 01:01

　　隨著數(shù)據(jù)規(guī)模和計算能力的飛速增長,基于數(shù)據(jù)和硬件的深度學(xué)習(xí)開始顯示出獨特的優(yōu)勢。作為一個有挑戰(zhàn)性的人工智能領(lǐng)域,自動生成圖像描述正受到越來越多的關(guān)注。作為計算機視覺與自然語言處理領(lǐng)域的綜合性任務(wù),自動生成圖像描述可以完成從圖像到文本的轉(zhuǎn)換,即算法可以根據(jù)輸入圖像自動生成相應(yīng)的描述性語句。使計算機可以描述視覺世界帶來了廣泛的應(yīng)用,如信息檢索、人機交互、兒童教育、為視障人士提供幫助等。傳統(tǒng)的自動生成圖像描述方法包括基于模板的方法和基于檢索的方法,但這些方法有一定的局限性,無法適用于新的場景,與人類描述的相關(guān)性較差。本文使用深度學(xué)習(xí)的方法,設(shè)計了基于編碼器-解碼器結(jié)構(gòu)的自動生成圖像描述模型。用擴展的深度卷積神經(jīng)網(wǎng)絡(luò)作為編碼器提取圖像特征,用長短期記憶網(wǎng)絡(luò)生成描述性句子。本文對于端到端的自動生成圖像描述模型展開研究,主要工作如下:1.對深度卷積神經(jīng)網(wǎng)絡(luò)進行改進,保持超參數(shù)數(shù)量不變的情況下提高其準確性。傳統(tǒng)的提高卷積神經(jīng)網(wǎng)絡(luò)精度的方法是增加其深度,但是,隨著超參數(shù)數(shù)量的增加,網(wǎng)絡(luò)設(shè)計的難度和計算開銷也會增大。受到Inception模塊的多支路機制的啟發(fā),本文設(shè)計了基于Resnet的高度模塊化的卷...

【文章來源】：北方工業(yè)大學(xué)北京市

【文章頁數(shù)】：59 頁

【學(xué)位級別】：碩士

【部分圖文】：

自動生成圖像描述模型測試界面圖

對比圖,數(shù)據(jù)集,模型

第五章實驗結(jié)果與分析42MSCOCO的學(xué)習(xí)率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況，通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上，本文提出的模型比NIC模型的B@1得分提高了10.95%，在MSCOCO數(shù)據(jù)集上，本文提出的模型比NIC模型的分數(shù)提升15.02%。該結(jié)果表明在采用大規(guī)模的數(shù)據(jù)集訓(xùn)練本文模型的情況下，增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息，從而有效的提升模型訓(xùn)練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結(jié)果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結(jié)果對比

對比圖,數(shù)據(jù)集,模型

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/shengwushengchang/3009916.html

上一篇：線結(jié)構(gòu)光傳感器參數(shù)自適應(yīng)控制方法研究
下一篇：多功能多材料水凝膠的3D打印及其力學(xué)建模

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的自動生成圖像描述方法研究