基于視覺語義增強(qiáng)的視頻描述生成
發(fā)布時(shí)間:2024-01-30 01:13
隨著人工智能的不斷發(fā)展,視頻描述生成作為自然語言處理和計(jì)算機(jī)視覺兩個(gè)領(lǐng)域相結(jié)合的研究課題,在近幾年來受到了廣泛的關(guān)注。視頻描述生成,即給定一個(gè)視頻片段,讓計(jì)算機(jī)自動(dòng)地生成能夠描述與視頻片段內(nèi)容相關(guān)的自然語句。其在實(shí)際生活中也有著廣泛的應(yīng)用,如提高人們?cè)诨ヂ?lián)網(wǎng)上檢索所需視頻的效率,輔助殘障人士理解視頻內(nèi)容等。目前,由于深度學(xué)習(xí)在視覺和自然語言處理等多個(gè)領(lǐng)域的突破性進(jìn)展,越來越多的研究方向開始使用深度學(xué)習(xí)技術(shù)來解決相關(guān)問題。同樣地,本文在基于深度學(xué)習(xí)的“編碼器-解碼器”結(jié)構(gòu)的基礎(chǔ)上,對(duì)視頻描述生成進(jìn)行研究。傳統(tǒng)的描述生成模型結(jié)構(gòu)中,通常使用卷積神經(jīng)網(wǎng)絡(luò)作為編碼器,循環(huán)神經(jīng)網(wǎng)絡(luò)作為解碼器,為視頻片段生成相關(guān)句子。由于視覺信息和語義信息之間存在著差異,只通過解碼器是無法很好的學(xué)習(xí)到兩者之間的關(guān)系。為了緩解這個(gè)問題,本文通過視覺語義增強(qiáng)以提高視頻描述生成的效果。具體來說,本文通過三個(gè)方面來縮小視覺和語義之間的差距。一、針對(duì)“編碼器-解碼器”結(jié)構(gòu)只是對(duì)生成句子和標(biāo)注句子進(jìn)行比對(duì),并不能很好地學(xué)習(xí)到視覺信息和語義信息之間的關(guān)系。我們?cè)诖嘶A(chǔ)上,添加視覺和語義的相關(guān)性計(jì)算,通過訓(xùn)練使模型學(xué)習(xí)到視覺和語...
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
本文編號(hào):3889206
【文章頁數(shù)】:59 頁
【學(xué)位級(jí)別】:碩士
圖2-1簡(jiǎn)單的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2-2全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2-3卷積
圖2-4邊界填充示意圖
本文編號(hào):3889206
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3889206.html
最近更新
教材專著