一種改進(jìn)的3D卷積神經(jīng)網(wǎng)絡(luò)行為識(shí)別方法
發(fā)布時(shí)間:2021-01-28 06:20
視頻行為識(shí)別具有重要學(xué)術(shù)價(jià)值和大的應(yīng)用前景,使得它迅速成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)。因此,引起了研究人員和相關(guān)機(jī)構(gòu)的極大興趣。但是,行為識(shí)別仍然是一個(gè)非常具有挑戰(zhàn)性的問題,因?yàn)橐恍┈F(xiàn)實(shí)數(shù)據(jù)都是從網(wǎng)頁(yè)視頻或者電影片段等中獲取,包含了大量攝像機(jī)運(yùn)動(dòng)、復(fù)雜背景以及類內(nèi)差異過大等問題。所以,提取有效的特征對(duì)于行為識(shí)別無疑是非常重要的。本文針對(duì)現(xiàn)有行為識(shí)別方法進(jìn)行總結(jié)與分析,作出了以下幾點(diǎn)貢獻(xiàn):首先,針對(duì)傳統(tǒng)3D卷積神經(jīng)網(wǎng)絡(luò)需要固定長(zhǎng)度的網(wǎng)絡(luò)輸入問題,本文提出了一種自適應(yīng)視頻鏡頭分割策略,它嘗試在不破壞語(yǔ)義結(jié)構(gòu)的情況下保留運(yùn)動(dòng)信息和合適的時(shí)間依賴,實(shí)現(xiàn)了網(wǎng)絡(luò)自適應(yīng)長(zhǎng)度的輸入。該策略通過考慮相鄰幀之間的運(yùn)動(dòng)變化信息,捕獲了視頻序列中的短時(shí)依賴關(guān)系;然后,通過空時(shí)金字塔池化網(wǎng)絡(luò)(STPP)提取視頻片段內(nèi)的中時(shí)依賴關(guān)系;接著,提出了一種長(zhǎng)期時(shí)間池化方法,捕獲了視頻段與段之間的長(zhǎng)時(shí)依賴關(guān)系。最終,自適應(yīng)長(zhǎng)時(shí)間網(wǎng)絡(luò)被構(gòu)建,得到最終固定長(zhǎng)度的自適應(yīng)長(zhǎng)時(shí)描述子(Adaptive Long-Term Descriptor,ALTD)。其次,構(gòu)建了多區(qū)域注意力空間網(wǎng)絡(luò)。通過結(jié)合全局注意力網(wǎng)絡(luò)和局部多區(qū)域網(wǎng)絡(luò),空間...
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號(hào)對(duì)照表
縮略語(yǔ)對(duì)照表
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文主要研究?jī)?nèi)容及章節(jié)安排
第二章 常見行為識(shí)別方法簡(jiǎn)介
2.1 引言
2.2 行為識(shí)別公共數(shù)據(jù)庫(kù)
2.3 基于人工特征的行為識(shí)別
2.3.1 基于全局描述子的行為識(shí)別
2.3.2 基于局部描述子的行為識(shí)別
2.4 基于深度學(xué)習(xí)的行為識(shí)別
2.4.1 基于 3D卷積網(wǎng)絡(luò)的行為識(shí)別
2.4.2 基于雙流卷積網(wǎng)絡(luò)的行為識(shí)別
2.4.3 基于循環(huán)網(wǎng)絡(luò)的行為識(shí)別
2.4.4 基于深度生成模型的行為識(shí)別
2.5 本章小結(jié)
第三章 一種基于自適應(yīng)長(zhǎng)期池化策略的行為識(shí)別方法
3.1 引言
3.2 自適應(yīng)視頻鏡頭分割策略
3.2.1 提取中值補(bǔ)償光流場(chǎng)
3.2.2 統(tǒng)計(jì)運(yùn)動(dòng)變化信息
3.2.3 自適應(yīng)視頻鏡頭分割
3.3 構(gòu)建自適應(yīng)長(zhǎng)時(shí)描述子
3.3.1 3DSTPP網(wǎng)絡(luò)結(jié)構(gòu)
3.3.2 長(zhǎng)期時(shí)間池化方法
3.3.3 網(wǎng)絡(luò)優(yōu)化求解
3.4 實(shí)驗(yàn)與分析
3.4.1 視頻預(yù)處理
3.4.2 參數(shù)設(shè)置
3.4.3 參數(shù)選擇
3.4.4 自適應(yīng)長(zhǎng)時(shí)描述子用于行為識(shí)別
3.5 本章小結(jié)
第四章 一種基于多區(qū)域注意力機(jī)制的行為識(shí)別方法
4.1 引言
4.2 Inception-BN的網(wǎng)絡(luò)結(jié)構(gòu)
4.2.1 批量歸一化層和Inception模塊
4.2.2 Inception-BN網(wǎng)絡(luò)模型
4.3 全局注意力網(wǎng)絡(luò)
4.3.1 注意力機(jī)制
4.3.2 提取全局注意力特征
4.4 局部多區(qū)域網(wǎng)絡(luò)
4.5 構(gòu)建多區(qū)域注意力描述子
4.6 本文行為識(shí)別架構(gòu)與仿真
4.6.1 本文行為識(shí)別新構(gòu)架
4.6.2 實(shí)驗(yàn)設(shè)置
4.6.3 參數(shù)選擇
4.6.4 實(shí)驗(yàn)仿真分析
4.7 本章小結(jié)
第五章 全文總結(jié)與展望
5.1 全文總結(jié)
5.2 未來展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介
本文編號(hào):3004505
【文章來源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號(hào)對(duì)照表
縮略語(yǔ)對(duì)照表
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文主要研究?jī)?nèi)容及章節(jié)安排
第二章 常見行為識(shí)別方法簡(jiǎn)介
2.1 引言
2.2 行為識(shí)別公共數(shù)據(jù)庫(kù)
2.3 基于人工特征的行為識(shí)別
2.3.1 基于全局描述子的行為識(shí)別
2.3.2 基于局部描述子的行為識(shí)別
2.4 基于深度學(xué)習(xí)的行為識(shí)別
2.4.1 基于 3D卷積網(wǎng)絡(luò)的行為識(shí)別
2.4.2 基于雙流卷積網(wǎng)絡(luò)的行為識(shí)別
2.4.3 基于循環(huán)網(wǎng)絡(luò)的行為識(shí)別
2.4.4 基于深度生成模型的行為識(shí)別
2.5 本章小結(jié)
第三章 一種基于自適應(yīng)長(zhǎng)期池化策略的行為識(shí)別方法
3.1 引言
3.2 自適應(yīng)視頻鏡頭分割策略
3.2.1 提取中值補(bǔ)償光流場(chǎng)
3.2.2 統(tǒng)計(jì)運(yùn)動(dòng)變化信息
3.2.3 自適應(yīng)視頻鏡頭分割
3.3 構(gòu)建自適應(yīng)長(zhǎng)時(shí)描述子
3.3.1 3DSTPP網(wǎng)絡(luò)結(jié)構(gòu)
3.3.2 長(zhǎng)期時(shí)間池化方法
3.3.3 網(wǎng)絡(luò)優(yōu)化求解
3.4 實(shí)驗(yàn)與分析
3.4.1 視頻預(yù)處理
3.4.2 參數(shù)設(shè)置
3.4.3 參數(shù)選擇
3.4.4 自適應(yīng)長(zhǎng)時(shí)描述子用于行為識(shí)別
3.5 本章小結(jié)
第四章 一種基于多區(qū)域注意力機(jī)制的行為識(shí)別方法
4.1 引言
4.2 Inception-BN的網(wǎng)絡(luò)結(jié)構(gòu)
4.2.1 批量歸一化層和Inception模塊
4.2.2 Inception-BN網(wǎng)絡(luò)模型
4.3 全局注意力網(wǎng)絡(luò)
4.3.1 注意力機(jī)制
4.3.2 提取全局注意力特征
4.4 局部多區(qū)域網(wǎng)絡(luò)
4.5 構(gòu)建多區(qū)域注意力描述子
4.6 本文行為識(shí)別架構(gòu)與仿真
4.6.1 本文行為識(shí)別新構(gòu)架
4.6.2 實(shí)驗(yàn)設(shè)置
4.6.3 參數(shù)選擇
4.6.4 實(shí)驗(yàn)仿真分析
4.7 本章小結(jié)
第五章 全文總結(jié)與展望
5.1 全文總結(jié)
5.2 未來展望
參考文獻(xiàn)
致謝
作者簡(jiǎn)介
本文編號(hào):3004505
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3004505.html
最近更新
教材專著