當(dāng)前位置：主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的視頻內(nèi)容描述研究

發(fā)布時(shí)間：2024-03-02 11:08

　　隨著社交媒體和計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,大量的多媒體數(shù)據(jù)在網(wǎng)絡(luò)中傳輸,其中,視頻數(shù)據(jù)是最具有代表性和復(fù)雜性的一種多媒體數(shù)據(jù)類(lèi)型,如何從海量視頻數(shù)據(jù)中自動(dòng)提取有用的信息變得越來(lái)越重要。視頻描述任務(wù)因其在人機(jī)交互、視頻監(jiān)控、視頻檢索等方面存在巨大潛在應(yīng)用價(jià)值而成為近年來(lái)熱點(diǎn)研究方向之一。與圖像描述不同,視頻描述需要理解視頻的上下文,這對(duì)于描述開(kāi)放領(lǐng)域視頻問(wèn)題來(lái)說(shuō)是困難的,不僅是因?yàn)橐曨l中包含動(dòng)態(tài)的對(duì)象、場(chǎng)景、動(dòng)作等信息,還因?yàn)殡y以確定視頻中各種復(fù)雜信息的主次順序以及如何用準(zhǔn)確簡(jiǎn)潔的語(yǔ)言來(lái)表達(dá),因此視頻重要信息挖掘以及優(yōu)化語(yǔ)言描述是視頻描述任務(wù)中必須解決的重要問(wèn)題。針對(duì)以上問(wèn)題,本文的主要研究工作與貢獻(xiàn)如下:1.當(dāng)前視頻描述任務(wù)中,通常未能有效消除視頻特征中的空間冗余信息,而且常用的損失函數(shù)由目標(biāo)正確詞的概率對(duì)數(shù)組成,形成的長(zhǎng)句子往往會(huì)給模型帶來(lái)很大損失。相反,在經(jīng)過(guò)對(duì)數(shù)似然損失函數(shù)優(yōu)化生成的句長(zhǎng)過(guò)短會(huì)導(dǎo)致描述語(yǔ)義不完整且準(zhǔn)確性不高。本文提出一種基于語(yǔ)義信息篩選和句長(zhǎng)調(diào)制的視頻描述方法解決上述問(wèn)題。首先,在編碼階段,模型引入一種門(mén)控融合機(jī)制,通過(guò)對(duì)視頻語(yǔ)義特征的篩選,去除視頻特征語(yǔ)義信息里多...

【文章頁(yè)數(shù)】：57 頁(yè)

【部分圖文】：

圖2智慧教室中的教學(xué)交互策略設(shè)計(jì)與實(shí)施評(píng)價(jià)反思協(xié)同知識(shí)構(gòu)建思維導(dǎo)圖支持的情境創(chuàng)設(shè)共享論證協(xié)商創(chuàng)作反思提升師生交互設(shè)計(jì)

電化教育研究圖2智慧教室中的教學(xué)交互策略設(shè)計(jì)與實(shí)施策略基本流程評(píng)價(jià)和反思教學(xué)交互策略問(wèn)卷星支持的即時(shí)測(cè)評(píng)與反饋評(píng)價(jià)反思彈幕技術(shù)支持的評(píng)論與反思“云課堂”支持的協(xié)作問(wèn)題解決協(xié)同知識(shí)構(gòu)建思維導(dǎo)圖支持的問(wèn)卷星/云課堂支持的基于量規(guī)的同伴評(píng)價(jià)問(wèn)題設(shè)計(jì)問(wèn)題實(shí)現(xiàn)問(wèn)題作答問(wèn)題反饋量規(guī)研發(fā)展示分....

圖２．１視頻理解的幾個(gè)層次??“”

區(qū)別于視頻分類(lèi)、物體檢測(cè)等標(biāo)簽式的粗粒度視覺(jué)理解任務(wù)，其旨在識(shí)別視??頻中的物體以及何種動(dòng)作。視頻內(nèi)容描述研宄往前更進(jìn)一步，基于識(shí)別檢測(cè)的結(jié)??果生成一個(gè)連貫的句子。如果要理解一段視頻，可以分為多個(gè)層次，如圖２．１所??示：１．第一步確定每個(gè)像素屬于什么類(lèi)；２．第二步是區(qū)域識(shí)別，....

圖２．２空間注意力機(jī)制的圖像描述生成模型??

點(diǎn)在于：在解碼器階段不是每個(gè)單詞的生成都需要利用全部的圖像編碼信息，而??是利用注意力機(jī)制選擇特定的與之相關(guān)聯(lián)的圖像區(qū)域的特征信息進(jìn)行語(yǔ)言解碼。??空間注意力機(jī)制模型結(jié)構(gòu)［３３１如圖２．２所示。??１４ｘ１４?Ｆｅａｔｕｒｅ?Ｍａｐ?ＩＲ９Ｈ?Ａ???Ｊ．＿?Ａ?ｆｌｙｉｎｇ??....

圖2.3時(shí)間注憊力機(jī)制的視頻描述生成模型

?第２章視頻內(nèi)容描述技術(shù)理論基礎(chǔ)２．時(shí)間注意力機(jī)制??和空間注意力機(jī)制非常相似，時(shí)間注意力機(jī)制更多的是用在以時(shí)序序列輸入的領(lǐng)域中，比如語(yǔ)音和視頻領(lǐng)域。時(shí)間注意力機(jī)制來(lái)源于人們?cè)谟^察視頻序列輸入信息的時(shí)候，并不是一次就把整段視頻的每個(gè)幀畫(huà)面都看過(guò)，而是根需求將注意力集中到視頻段中的....

本文編號(hào)：3916766

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3916766.html

上一篇：基于帶可選指標(biāo)遺傳算法的多Delta機(jī)器人系統(tǒng)布局優(yōu)化
下一篇：基于深度學(xué)習(xí)的柱塞泵故障診斷方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的視頻內(nèi)容描述研究