基于深度數(shù)據(jù)的人體動作分割與識別
本文關鍵詞:基于深度數(shù)據(jù)的人體動作分割與識別,由筆耕文化傳播整理發(fā)布。
【摘要】:人體動作的分割和識別一直是計算機視覺領域一個重要的課題。在人機交互、視頻監(jiān)控自動化、游戲控制系統(tǒng)等應用場景下,準確的動作識別都是整個系統(tǒng)中至關重要的一環(huán)。相較于單純的二維視頻數(shù)據(jù),如今三維數(shù)據(jù)保留了以前缺失的“z軸”信息,因此深度數(shù)據(jù)在動作識別上擁有明顯的優(yōu)勢。另一方面,對視頻流進行動作分割也是一個頗有難度的任務,目前絕大部分已提出的基于深度視頻的動作識別算法均是基于已經(jīng)人工劃分好的視頻片段來進行的,我們通過對這些片段數(shù)據(jù)的訓練,往往可以得到很高的動作識別準確率,但是當應用場景換到實時的視頻流下,就難維持很高的準確率了。在本文中,我們提出了幾套能夠分割視頻流中連續(xù)人體動作并分別識別的解決方案。我們使用的數(shù)據(jù)為人體三維深度數(shù)據(jù)(Kinect捕獲),具體表現(xiàn)形式為人體骨架節(jié)點位置和深度圖像幀。這兩種類型的數(shù)據(jù)均包含了豐富的信息以助于我們從視頻中提取特征,但同時數(shù)據(jù)中也包含了不少噪音。對于骨架節(jié)點,我們主要計算它們之間的空間位置關系;對于深度圖像幀,我們基于Depth Motion Map (DMM),以及擴展后的DMM金字塔(DMM-Pryamid)進行多種特種提取操作。此外我們針對相應特征分別使用了傳統(tǒng)的sVM分類器,二維/三維卷積神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡來進行訓練和識別。對于動作分割,我們提出了兩種方法,其一為基于概率分布差(Probability-Distribution-Difference, PDD)的動態(tài)動作邊界探測框架;另一項為基于maximum subarray search的時間平滑化方法。上述的分割算法均為在線算法,可以處理實時的深度視頻流。我們在多個領域內(nèi)廣泛使用的數(shù)據(jù)集上完成了多項實驗,并且與現(xiàn)今其它方法相比,我們的方法在準確率、性能等關鍵指標上具有優(yōu)勢。
【關鍵詞】:動作識別 動作分割 深度圖像 機器學習 深度學習
【學位授予單位】:南京大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.41
【目錄】:
- 摘要4-5
- Abstract5-10
- 第一章 緒論10-14
- 1.1 研究背景10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-12
- 1.3 論文工作與內(nèi)容安排12-14
- 第二章 基于深度數(shù)據(jù)的人體動作分割與識別綜述14-22
- 2.1 動作識別14-19
- 2.1.1 人體模型特征14-15
- 2.1.2 圖像模型特征15
- 2.1.3 局部特征15
- 2.1.4 具體方法介紹15-19
- 2.2 動作分割19-21
- 2.2.1 邊界檢測20
- 2.2.2 滑動窗口20-21
- 2.3 本章小結21-22
- 第三章 基于DMM-HOG與PDD的動作分割與識別方法22-32
- 3.1 基于視頻片段的識別23-25
- 3.1.1 骨架節(jié)點特征23-24
- 3.1.2 DMM-HOG24
- 3.1.3 基于SVM的分類器集合24-25
- 3.2 在完整視頻上的分割25-27
- 3.2.1 PDD定義25
- 3.2.2 邊界檢測策略25-27
- 3.3 實驗結果與討論27-31
- 3.3.1 識別準確率27-28
- 3.3.2 分割實驗結果28-31
- 3.4 本章小結31-32
- 第四章 基于DMM-Pyramid和卷積神經(jīng)網(wǎng)絡的動作識別方法32-42
- 4.1 基于2D-CNN的深度模型33-37
- 4.1.1 DMM-Pyramid33-34
- 4.1.2 CNN模型34-36
- 4.1.3 進一步提升識別準確率的策略36-37
- 4.2 基于3D-CNN的深度模型37-38
- 4.2.1 DMM的分割和堆疊37
- 4.2.2 CNN模型37-38
- 4.3 實驗結果與討論38-41
- 4.3.1 MSR Action3D數(shù)據(jù)集38-40
- 4.3.2 在MSR Gesture3D數(shù)據(jù)集上的手勢識別40-41
- 4.4 本章小結41-42
- 第五章 基于循環(huán)神經(jīng)網(wǎng)絡的動作分割與識別方法42-52
- 5.1 循環(huán)神經(jīng)網(wǎng)絡43-45
- 5.1.1 模型簡述43-44
- 5.1.2 在時域上的后向傳播44-45
- 5.2 排序特征45-47
- 5.2.1 骨架節(jié)點特征45-46
- 5.2.2 深度序列特征46-47
- 5.3 在線動作識別47-48
- 5.4 實驗結果與討論48-50
- 5.4.1 數(shù)據(jù)集48
- 5.4.2 實驗結果48-50
- 5.5 本章小結50-52
- 第六章 總結與展望52-54
- 參考文獻54-60
- 攻讀碩士學位期間完成的學術成果60-61
- 致謝61-62
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 胡雅琴;;動作識別技術及其發(fā)展[J];電視技術;2013年S2期
2 倪世宏,史忠科,謝川,王彥鴻;軍用戰(zhàn)機機動飛行動作識別知識庫的建立[J];計算機仿真;2005年04期
3 程祥;;人體動作識別的研究[J];電腦知識與技術;2006年20期
4 黃飛躍;徐光yP;;視角無關的動作識別[J];軟件學報;2008年07期
5 徐光yP;曹媛媛;;動作識別與行為理解綜述[J];中國圖象圖形學報;2009年02期
6 黃麗鴻;高智勇;劉海華;;基于脈沖神經(jīng)網(wǎng)絡的人體動作識別[J];現(xiàn)代科學儀器;2012年02期
7 周艷青;王磊;;基于視覺的人體動作識別綜述[J];山東輕工業(yè)學院學報(自然科學版);2012年01期
8 曹琨;;基于檢索表的實時動作識別技術研究[J];中外企業(yè)家;2014年05期
9 劉博;安建成;;基于關鍵姿勢的人體動作識別[J];電視技術;2014年05期
10 王燕;張紹武;凌志剛;潘泉;;基于圖嵌入線性拓展方法的人體動作識別研究[J];計算機仿真;2008年10期
中國重要會議論文全文數(shù)據(jù)庫 前7條
1 袁飛;程韜波;周松斌;肖先文;;基于加速度特征的可拓動作識別方法[A];廣州市儀器儀表學會2009年學術年會論文集[C];2010年
2 黃飛躍;徐光yP;;自然的人體動作識別[A];第三屆和諧人機環(huán)境聯(lián)合學術會議(HHME2007)論文集[C];2007年
3 葉喜勇;陶霖密;王國建;邸慧軍;;視角無關的人體軀干動作識別[A];第六屆和諧人機環(huán)境聯(lián)合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年
4 黃艷歡;葉少珍;;連續(xù)動作分割綜述[A];第十四屆全國圖象圖形學學術會議論文集[C];2008年
5 董力賡;陶霖密;徐光yP;;頭部姿態(tài)和動作的識別與理解[A];第三屆和諧人機環(huán)境聯(lián)合學術會議(HHME2007)論文集[C];2007年
6 朱巖;趙旭;劉允才;;基于稀疏編碼和局部時空特征的人體動作識別[A];第十五屆全國圖象圖形學學術會議論文集[C];2010年
7 席旭剛;金燕;朱海港;高云園;;基于小波包熵和支持向量機的手部肌電信號動作識別[A];2013年中國智能自動化學術會議論文集(第五分冊)[C];2013年
中國重要報紙全文數(shù)據(jù)庫 前2條
1 本報記者 陳丹;人與機器的“對話”[N];科技日報;2010年
2 ;凌空敲鍵盤?無線計算機手套問世[N];中國計算機報;2004年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 諶先敢;現(xiàn)實環(huán)境下的人體動作識別[D];武漢大學;2012年
2 陳淵博;視頻序列中的人體動作識別[D];北京郵電大學;2015年
3 陳萌;基于李代數(shù)高斯表示的動作識別方法研究[D];華中科技大學;2016年
4 李擬s,
本文編號:291570
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/291570.html