視頻序列中的人體動作識別
發(fā)布時間:2017-12-09 16:39
本文關鍵詞:視頻序列中的人體動作識別
更多相關文章: 人體動作識別 時空興趣點 稀疏編碼 圖模型 多模態(tài)
【摘要】:近年來,人體動作識別作為視頻分析方向的一個熱門研究課題,已經廣泛應用在智能監(jiān)控、娛樂環(huán)境、醫(yī)療保健等領域,得到了眾多研究者的關注。本文圍繞著視頻中人體動作識別的核心技術,針對現(xiàn)存方法存在的一些問題,提出了一些改進措施。本文的主要創(chuàng)新點如下:1)提出了一種新的時空興趣點提取算法。目前用于動作識別的興趣點提取算法有稀疏興趣點提取算法和密集采樣法。前者在實際場景中存在相機運動、復雜背景的情況下,所提取的點過于稀少,無法提供足夠的描述動作的信息;而后者多尺度等間隔的提取像素點作為興趣點,等同的對待背景點和前景點,不僅大大增加了計算量,尤其當前景人物較小時,提取的興趣點大都是背景點,影響了判別性。針對這些問題,我們提出了一種基于旋度的時空興趣點提取算法,能夠自動提取出運動前景的關鍵部位。我們的興趣點提取算法基于光流微分,可抑制大部分的相機平移運動。其次,當光流計算出來后,我們的方法只需要計算光流微分減法,因此計算速度很快。再次,所提的興趣點是集中在局部關鍵部位的密集點群,這使得我們可以采用隨機大小的窗口來計算特征,避免了大多數(shù)算法所必須的多尺度遍歷,在獲得一定程度的尺度不變性的同時,減輕了計算量。在多個動作數(shù)據(jù)庫的實驗表明,在保持與目前最好的密集采樣方法具有可比性性能的基礎上,我們的特征提取時間縮短了一半以上,達到了識別性能與計算復雜度之間很好的折中。2)提出了一種新的稀疏編碼模型,可以提供更具判別性的特征描述。傳統(tǒng)的稀疏表示需要在整組基內解l1-范數(shù)優(yōu)化問題,計算量大。此外,由于單純的追求稀疏度,樣本可能由字典中完全不同類別的子集描述,導致相似的樣本得到差異非常大的編碼特征,影響了分類的效果;诖,我們提出了一種帶有非負和局部約束的稀疏編碼模型。非負約束保證每個樣本點處于其鄰域樣本組成的凸包中;局部約束的加入,使得樣本僅用與其相關的基元素表示,并且大大減少了計算復雜度;稀疏性約束則保證所求的解是自動稀疏性的。相比于經典的稀疏編碼模型,所提模型可以更好地捕獲數(shù)據(jù)的全局子空間結構,提高了模型的判別性;與局部約束線性編碼模型相比,我們的模型對噪聲更具魯棒性。在三個數(shù)據(jù)庫上的實驗均體現(xiàn)了我們所提的模型在動作識別任務上的優(yōu)勢。3)鑒于日益增加的可用的無標簽數(shù)據(jù),我們提出了一種新的魯棒且具判別性的圖模型,用于進行半監(jiān)督學習以提升動作識別的性能,F(xiàn)存的分類方法大都是基于強監(jiān)督的,為了取得較好的分類性能,需要大量的有標簽數(shù)據(jù)以便較好的訓練出模型參數(shù)。但是,數(shù)據(jù)標注是個非常繁重的工作,尤其是對于視頻來說。圖模型可以充分利用有限的帶標簽及大量的無標簽數(shù)據(jù),能夠捕獲數(shù)據(jù)的全局結構,已經成功應用到多種機器學習任務中。建圖是基于圖的算法中最關鍵的一步。建圖方法包括傳統(tǒng)的KNN (K Nearest Neighbor)、£-球(ε-ball)及目前較為流行的稀疏圖(或稱l1-圖)。但是這些方法都通過歐氏距離度量數(shù)據(jù)間的關系,當復雜的數(shù)據(jù)結構存在于一個彎曲的流場時,歐式距離不再是一個合適的度量方式。此外,傳統(tǒng)的建圖方法大都使用單個模態(tài)或多模態(tài)串聯(lián)的方式,沒有充分利用各個模態(tài)的特殊信息;诖,我們提出了一種多模態(tài)的共享系數(shù)稀疏圖模型:首先根據(jù)類標簽信息,將各模態(tài)數(shù)據(jù)分別投影到各自的馬氏空間,拉大類間距離,縮小類內距離,增強模型的判別性;此外,使用共享系數(shù)的多模態(tài)圖對數(shù)據(jù)進行稀疏表示,在充分利用多種模態(tài)包含的動作的多方面信息的同時,通過共享稀疏系數(shù)的方式排除了噪聲,增強了模型的魯棒性。我們在多個復雜數(shù)據(jù)庫中進行了大量的實驗,均驗證了所提模型優(yōu)于目前最好的方法。
【學位授予單位】:北京郵電大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP391.41
,
本文編號:1271120
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1271120.html
最近更新
教材專著