基于高層語義的圖像描述生成模型研究
發(fā)布時(shí)間:2021-10-25 06:36
圖像描述生成旨在為給定的圖像生成相應(yīng)的自然語言文字描述。圖像描述生成涉及計(jì)算機(jī)視覺和自然語言處理領(lǐng)域,具有很強(qiáng)的挑戰(zhàn)性。近年來,基于深度神經(jīng)網(wǎng)絡(luò)的圖像描述生成方法雖已取得極大進(jìn)展,然而現(xiàn)有方法仍無法避免因圖像高層語義的缺失而造成的描述文本不準(zhǔn)確不自然等問題。因此,本文結(jié)合圖像的高層語義信息,研究圖像描述生成的方法和技術(shù)。本文的主要工作如下:(1)基于神經(jīng)網(wǎng)絡(luò)的編碼-解碼模型雖能依賴大規(guī)模訓(xùn)練集學(xué)習(xí)到編碼后的圖像特征與解碼生成的描述文本之間的關(guān)聯(lián)關(guān)系,但仍無法避免生成的描述存在語義缺失、語義錯(cuò)誤等缺陷。針對(duì)此問題,本文在經(jīng)典的編碼-解碼模型基礎(chǔ)上進(jìn)行了改進(jìn),提出了一種融合高層語義再生成的圖像描述生成模型,即先利用Faster R-CNN檢測出圖像中的高層語義詞,再通過注意力機(jī)制將高層語義信息融入到網(wǎng)絡(luò)模型中,對(duì)初始圖像描述進(jìn)行再生成。實(shí)驗(yàn)結(jié)果表明,融合高層語義信息有助于改善圖像描述文本的質(zhì)量。(2)研究發(fā)現(xiàn),人對(duì)圖像進(jìn)行描述時(shí),不僅依賴自身的語言水平,還依賴圖像內(nèi)容中未明顯包含的常識(shí)性知識(shí),而現(xiàn)有的圖像描述生成模型很少能充分利用這類常識(shí)性知識(shí)。針對(duì)此問題,本文提出一種基于圖像高層語義引入...
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像描述示例
果。Mason[5]等人使用該場景屬性數(shù)據(jù)集構(gòu)建待描述圖像的視覺表示,并從訓(xùn)練集中找出與之視覺相似的圖像集,之后,依據(jù)文本特征,采用概率密度估計(jì)的方法在相似圖像集的候選描述中找出最符合條件的圖像描述。Devlin[6]等人使用k最近鄰的方法得到與輸入圖像視覺表示最相近的k個(gè)圖像,隨后從這k個(gè)圖像的描述集中選出最佳描述作為圖像的描述。這種基于圖像視覺檢索生成圖像描述的方法雖然在一定程度上保證了描述的語法正確性,但卻無法保證描述的語義與圖像內(nèi)容的相關(guān)性。另外,對(duì)數(shù)據(jù)庫之外的圖像很難為之生成相關(guān)的描述。圖1.2基于圖像檢索的圖像描述生成模型示例(Im2Text模型)Fig1.2Anillustrationofimagecaptioningbasedonretrieval-basedmethod(Im2Textmodel)1.2.2基于模板的圖像描述生成基于模板的方法首先使用檢測器提取輸入圖像中視覺概念,具體為圖像中對(duì)象類型、對(duì)象屬性、場景類型(室內(nèi)或室外)等詞匯標(biāo)簽,然后根據(jù)預(yù)先設(shè)定好的句子模板或語法規(guī)則在空缺上填充相應(yīng)的目標(biāo)內(nèi)容,以便生成遵循規(guī)則的圖像描述。Kulkarni[7]等人于2011年提出了具有代表性的BabyTalk模型,如圖1.3所示,該模型使用檢測器識(shí)別圖像中具體的視覺概念,即預(yù)測圖像物體、物體屬性和物體之間相互關(guān)系的具體單詞,之后采用CRF算法計(jì)算物體之間的關(guān)系重組屬性標(biāo)簽,最后將屬性標(biāo)簽填充到模板的相應(yīng)位置生成圖像的描述。Farhadi[8]等人借助語法分析等手段抽取描述中圖像的視覺概念并構(gòu)建物體、動(dòng)作和場景之間的三元組表示,并基于三元組相似訓(xùn)練圖像識(shí)別和分類器,進(jìn)而可以將輸入圖
模型,計(jì)算選擇出檢測詞中最可能相關(guān)詞語組合并對(duì)模板句子的空槽內(nèi)容進(jìn)行填充。Lu[11]等人把圖像描述生成分成兩個(gè)階段,將描述文本數(shù)據(jù)集中詞語分為實(shí)體詞與非實(shí)體詞,先由語言模型預(yù)先訓(xùn)練好只包含非實(shí)體詞的句子模板;再通過目標(biāo)檢測提取圖像中的實(shí)體詞,并將提取到的實(shí)體詞用于填充由句子模板中的空槽,進(jìn)而生成完整的圖像描述。這種基于模板的圖像描述生成方法雖然基本保證了描述的語義正確性,但是非常依賴于生成描述前預(yù)先制定的句子模板和語法規(guī)則。另外,對(duì)于句子的多樣性來說,該方法無法生成較為靈活的描述。圖1.3基于模板的圖像描述生成模型示例(BabyTalk模型)Fig1.3Anillustrationofimagecaptioningbasedontemplate-basedmethod(BabyTalkmodel)1.2.3基于語言模型的圖像描述生成基于語言模型的方法首先提取輸入圖像的特征表示,并將圖像特征表示輸入帶訓(xùn)練好的語言模型后,直接根據(jù)圖像特征表示生成對(duì)應(yīng)的描述。該方法中圖像的特征提取以及描述的生成都需要優(yōu)質(zhì)的模型結(jié)構(gòu)作為支撐,而深度學(xué)習(xí)技術(shù)為該方法提供了基矗受機(jī)器翻譯中基于神經(jīng)網(wǎng)絡(luò)的語言模型[12][13][14]成功啟發(fā),Vinyals等人[15]和Karpathy等人[16]提出了基于神經(jīng)網(wǎng)絡(luò)的語言模型方法,該方法結(jié)構(gòu)如圖1.4所示,首先使用深度卷積網(wǎng)絡(luò)CNN對(duì)圖像處理得到圖像表征,之后使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN構(gòu)建的語言模型將圖像表征進(jìn)行解碼生成相應(yīng)的描述。在此模型基礎(chǔ)
【參考文獻(xiàn)】:
期刊論文
[1]圖像特征提取研究[J]. 翟俊海,趙文秀,王熙照. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(01)
本文編號(hào):3456847
【文章來源】:合肥工業(yè)大學(xué)安徽省 211工程院校 教育部直屬院校
【文章頁數(shù)】:66 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖像描述示例
果。Mason[5]等人使用該場景屬性數(shù)據(jù)集構(gòu)建待描述圖像的視覺表示,并從訓(xùn)練集中找出與之視覺相似的圖像集,之后,依據(jù)文本特征,采用概率密度估計(jì)的方法在相似圖像集的候選描述中找出最符合條件的圖像描述。Devlin[6]等人使用k最近鄰的方法得到與輸入圖像視覺表示最相近的k個(gè)圖像,隨后從這k個(gè)圖像的描述集中選出最佳描述作為圖像的描述。這種基于圖像視覺檢索生成圖像描述的方法雖然在一定程度上保證了描述的語法正確性,但卻無法保證描述的語義與圖像內(nèi)容的相關(guān)性。另外,對(duì)數(shù)據(jù)庫之外的圖像很難為之生成相關(guān)的描述。圖1.2基于圖像檢索的圖像描述生成模型示例(Im2Text模型)Fig1.2Anillustrationofimagecaptioningbasedonretrieval-basedmethod(Im2Textmodel)1.2.2基于模板的圖像描述生成基于模板的方法首先使用檢測器提取輸入圖像中視覺概念,具體為圖像中對(duì)象類型、對(duì)象屬性、場景類型(室內(nèi)或室外)等詞匯標(biāo)簽,然后根據(jù)預(yù)先設(shè)定好的句子模板或語法規(guī)則在空缺上填充相應(yīng)的目標(biāo)內(nèi)容,以便生成遵循規(guī)則的圖像描述。Kulkarni[7]等人于2011年提出了具有代表性的BabyTalk模型,如圖1.3所示,該模型使用檢測器識(shí)別圖像中具體的視覺概念,即預(yù)測圖像物體、物體屬性和物體之間相互關(guān)系的具體單詞,之后采用CRF算法計(jì)算物體之間的關(guān)系重組屬性標(biāo)簽,最后將屬性標(biāo)簽填充到模板的相應(yīng)位置生成圖像的描述。Farhadi[8]等人借助語法分析等手段抽取描述中圖像的視覺概念并構(gòu)建物體、動(dòng)作和場景之間的三元組表示,并基于三元組相似訓(xùn)練圖像識(shí)別和分類器,進(jìn)而可以將輸入圖
模型,計(jì)算選擇出檢測詞中最可能相關(guān)詞語組合并對(duì)模板句子的空槽內(nèi)容進(jìn)行填充。Lu[11]等人把圖像描述生成分成兩個(gè)階段,將描述文本數(shù)據(jù)集中詞語分為實(shí)體詞與非實(shí)體詞,先由語言模型預(yù)先訓(xùn)練好只包含非實(shí)體詞的句子模板;再通過目標(biāo)檢測提取圖像中的實(shí)體詞,并將提取到的實(shí)體詞用于填充由句子模板中的空槽,進(jìn)而生成完整的圖像描述。這種基于模板的圖像描述生成方法雖然基本保證了描述的語義正確性,但是非常依賴于生成描述前預(yù)先制定的句子模板和語法規(guī)則。另外,對(duì)于句子的多樣性來說,該方法無法生成較為靈活的描述。圖1.3基于模板的圖像描述生成模型示例(BabyTalk模型)Fig1.3Anillustrationofimagecaptioningbasedontemplate-basedmethod(BabyTalkmodel)1.2.3基于語言模型的圖像描述生成基于語言模型的方法首先提取輸入圖像的特征表示,并將圖像特征表示輸入帶訓(xùn)練好的語言模型后,直接根據(jù)圖像特征表示生成對(duì)應(yīng)的描述。該方法中圖像的特征提取以及描述的生成都需要優(yōu)質(zhì)的模型結(jié)構(gòu)作為支撐,而深度學(xué)習(xí)技術(shù)為該方法提供了基矗受機(jī)器翻譯中基于神經(jīng)網(wǎng)絡(luò)的語言模型[12][13][14]成功啟發(fā),Vinyals等人[15]和Karpathy等人[16]提出了基于神經(jīng)網(wǎng)絡(luò)的語言模型方法,該方法結(jié)構(gòu)如圖1.4所示,首先使用深度卷積網(wǎng)絡(luò)CNN對(duì)圖像處理得到圖像表征,之后使用基于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN構(gòu)建的語言模型將圖像表征進(jìn)行解碼生成相應(yīng)的描述。在此模型基礎(chǔ)
【參考文獻(xiàn)】:
期刊論文
[1]圖像特征提取研究[J]. 翟俊海,趙文秀,王熙照. 河北大學(xué)學(xué)報(bào)(自然科學(xué)版). 2009(01)
本文編號(hào):3456847
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3456847.html
最近更新
教材專著