基于多頭注意力的視頻標(biāo)注方法研究
發(fā)布時(shí)間:2024-01-27 06:54
視頻標(biāo)注涉及到計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域,是一個(gè)非常有挑戰(zhàn)性的任務(wù)。同時(shí),視頻標(biāo)注也有非常廣泛的實(shí)際應(yīng)用前景。現(xiàn)階段,完全用人工的方式進(jìn)行視頻標(biāo)注無(wú)疑可以獲得非常精確的結(jié)果,但是隨著人力成本的迅速增長(zhǎng),社會(huì)對(duì)自動(dòng)視頻標(biāo)注方法的需求正變得越來(lái)越緊迫。在近年來(lái)出現(xiàn)的視頻標(biāo)注模型中,許多都采用了自然語(yǔ)言處理領(lǐng)域廣泛使用的編解碼框架,編碼端使用視頻特征序列生成視頻中間向量表示,然后在解碼端解碼中間向量生成文字序列描述,以序列到序列的方式處理輸入輸出。編解碼框架的使用在很大程度上促進(jìn)了視頻標(biāo)注研究的發(fā)展,但是現(xiàn)行的視頻標(biāo)注模型仍然有一些不足的地方:首先,許多標(biāo)注模型缺乏聚焦關(guān)鍵信息的能力;其次,標(biāo)注模型訓(xùn)練階段和測(cè)試階段輸入數(shù)據(jù)不同,導(dǎo)致模型存在解碼誤差傳遞問(wèn)題;最后,標(biāo)注模型在訓(xùn)練過(guò)程中優(yōu)化指標(biāo)是單詞級(jí)別的交叉熵?fù)p失,和元組級(jí)別的測(cè)試指標(biāo)不一致。為了解決上述問(wèn)題,本文提出了一個(gè)基于多頭注意力的視頻標(biāo)注模型。標(biāo)注模型在傳統(tǒng)的編解碼網(wǎng)絡(luò)上引入多頭注意力機(jī)制,并改進(jìn)模型訓(xùn)練方法與模型優(yōu)化指標(biāo),主要研究工作如下:1.引入多頭注意力機(jī)制使視頻標(biāo)注模型獲得焦距關(guān)鍵信息的能力。多頭注意力機(jī)制可以使得模...
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
本文編號(hào):3886514
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
圖2-3視頻標(biāo)注模型總體結(jié)構(gòu)
圖3-1視頻標(biāo)注總體框架
圖3-2算法標(biāo)注效果
圖4-1增強(qiáng)學(xué)習(xí)框架
本文編號(hào):3886514
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3886514.html
最近更新
教材專(zhuān)著