基于深度學(xué)習(xí)的自動生成圖像描述方法研究
發(fā)布時間:2021-01-31 01:01
隨著數(shù)據(jù)規(guī)模和計算能力的飛速增長,基于數(shù)據(jù)和硬件的深度學(xué)習(xí)開始顯示出獨特的優(yōu)勢。作為一個有挑戰(zhàn)性的人工智能領(lǐng)域,自動生成圖像描述正受到越來越多的關(guān)注。作為計算機視覺與自然語言處理領(lǐng)域的綜合性任務(wù),自動生成圖像描述可以完成從圖像到文本的轉(zhuǎn)換,即算法可以根據(jù)輸入圖像自動生成相應(yīng)的描述性語句。使計算機可以描述視覺世界帶來了廣泛的應(yīng)用,如信息檢索、人機交互、兒童教育、為視障人士提供幫助等。傳統(tǒng)的自動生成圖像描述方法包括基于模板的方法和基于檢索的方法,但這些方法有一定的局限性,無法適用于新的場景,與人類描述的相關(guān)性較差。本文使用深度學(xué)習(xí)的方法,設(shè)計了基于編碼器-解碼器結(jié)構(gòu)的自動生成圖像描述模型。用擴展的深度卷積神經(jīng)網(wǎng)絡(luò)作為編碼器提取圖像特征,用長短期記憶網(wǎng)絡(luò)生成描述性句子。本文對于端到端的自動生成圖像描述模型展開研究,主要工作如下:1.對深度卷積神經(jīng)網(wǎng)絡(luò)進行改進,保持超參數(shù)數(shù)量不變的情況下提高其準確性。傳統(tǒng)的提高卷積神經(jīng)網(wǎng)絡(luò)精度的方法是增加其深度,但是,隨著超參數(shù)數(shù)量的增加,網(wǎng)絡(luò)設(shè)計的難度和計算開銷也會增大。受到Inception模塊的多支路機制的啟發(fā),本文設(shè)計了基于Resnet的高度模塊化的卷...
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
自動生成圖像描述模型測試界面圖
第五章實驗結(jié)果與分析42MSCOCO的學(xué)習(xí)率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結(jié)果表明在采用大規(guī)模的數(shù)據(jù)集訓(xùn)練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓(xùn)練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結(jié)果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結(jié)果對比
第五章實驗結(jié)果與分析42MSCOCO的學(xué)習(xí)率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結(jié)果表明在采用大規(guī)模的數(shù)據(jù)集訓(xùn)練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓(xùn)練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結(jié)果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結(jié)果對比
本文編號:3009916
【文章來源】:北方工業(yè)大學(xué)北京市
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【部分圖文】:
自動生成圖像描述模型測試界面圖
第五章實驗結(jié)果與分析42MSCOCO的學(xué)習(xí)率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結(jié)果表明在采用大規(guī)模的數(shù)據(jù)集訓(xùn)練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓(xùn)練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結(jié)果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結(jié)果對比
第五章實驗結(jié)果與分析42MSCOCO的學(xué)習(xí)率初始化為0.0005。圖5-3、圖5-4和圖5-5是我們提出的模型與谷歌的NIC模型在BLEU評價指標上的得分情況,通過在不同數(shù)據(jù)集上的比較得出本文提出的模型在MSCOCO數(shù)據(jù)集上的評價指標分數(shù)提升更為明顯。例如在Flickr8k數(shù)據(jù)集上,本文提出的模型比NIC模型的B@1得分提高了10.95%,在MSCOCO數(shù)據(jù)集上,本文提出的模型比NIC模型的分數(shù)提升15.02%。該結(jié)果表明在采用大規(guī)模的數(shù)據(jù)集訓(xùn)練本文模型的情況下,增加感受野的方式在更大的數(shù)據(jù)集中能夠獲得更多的圖像信息,從而有效的提升模型訓(xùn)練效果。圖5-3基于Flickr8k數(shù)據(jù)集的評估結(jié)果對比圖5-4基于Flickr30k數(shù)據(jù)集的評估結(jié)果對比
本文編號:3009916
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3009916.html
最近更新
教材專著