多主題的圖像摘要生成方法研究
發(fā)布時(shí)間:2021-01-14 23:15
圖像描述生成任務(wù)(Image Caption)是一個(gè)融合了計(jì)算機(jī)視覺(jué)(CV)和自然語(yǔ)言處理(NLP)的綜合類(lèi)問(wèn)題,可以簡(jiǎn)單的理解為將輸入的圖像翻譯成關(guān)于圖像內(nèi)容的描述的過(guò)程。實(shí)現(xiàn)該任務(wù)對(duì)于機(jī)器來(lái)說(shuō)具有一定的挑戰(zhàn)性,需要將這一大問(wèn)題劃分為以下幾個(gè)子任務(wù):(1)識(shí)別圖中目標(biāo)對(duì)象;(2)找到目標(biāo)對(duì)象之間的聯(lián)系;(3)用自然語(yǔ)言陳述圖像表達(dá)內(nèi)容。其中理解目標(biāo)對(duì)象之間的聯(lián)系,并且用自然語(yǔ)言描述出來(lái)是實(shí)現(xiàn)圖像描述生成任務(wù)中的重難點(diǎn)。該任務(wù)的應(yīng)用場(chǎng)景非常廣泛,一般是給照片匹配文字,即用戶(hù)拍了一張照片,利用圖像描述生成技術(shù)可以匹配到合適的文字,對(duì)于用戶(hù)來(lái)說(shuō)既方便檢索,又省去了用戶(hù)手動(dòng)配文字的時(shí)間。又或者應(yīng)用在幫助視覺(jué)障礙者理解圖像內(nèi)容等等。迄今為止,常見(jiàn)的圖像描述生成方法大致可以分為三大類(lèi),其中基于神經(jīng)網(wǎng)絡(luò)的是最準(zhǔn)確,研究?jī)r(jià)值最高的圖像描述生成方法;谏窠(jīng)網(wǎng)絡(luò)的圖像描述生成方法一般采用編碼解碼結(jié)構(gòu),當(dāng)利用解碼器Decoder對(duì)中間編碼生成詞序列時(shí),通常僅考慮訓(xùn)練文本的詞分布,假定了在任何主題下的詞分布都是一致的,并沒(méi)有考慮主題對(duì)詞分布的影響,導(dǎo)致解碼器擬合了一般意義上的詞分布。事實(shí)上,不同主題下的詞...
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CNN結(jié)構(gòu)
LSTM結(jié)構(gòu)
GoogleNIC結(jié)構(gòu)
本文編號(hào):2977737
【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校
【文章頁(yè)數(shù)】:70 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
CNN結(jié)構(gòu)
LSTM結(jié)構(gòu)
GoogleNIC結(jié)構(gòu)
本文編號(hào):2977737
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2977737.html
最近更新
教材專(zhuān)著