基于零樣本學習的人體行為識別算法研究
發(fā)布時間:2020-05-01 23:54
【摘要】:人體行為識別是計算機視覺領域的研究熱點之一,具有重要的理論價值和應用前景。隨著深度學習技術的發(fā)展,基于多樣本(監(jiān)督)學習的行為識別方法取得突破性進展。然而這種方法需要大量的標注樣本,且無法擴展到樣本量極少甚至零樣本情況下的識別任務,導致模型的泛化能力受限。零樣本學習可以將已知類別數(shù)據(jù)的知識遷移到對未知類別的預測,因此為解決上述問題提供了創(chuàng)新性的思路。目前,大多數(shù)零樣本行為識別方法都是研究基于靜態(tài)圖片的目標識別問題,將此類方法直接應用于基于視頻序列的零樣本行為識別問題時會導致時序信息缺失、不能有效學習到復雜行為的視覺信息和類別語義的關聯(lián)關系。針對這些問題,本文重點研究利用具有時序特性的視覺特征和具有語義相關性的語義表示來構(gòu)建更有效的視覺到語義的映射關系,同時將單標簽任務擴展到多標簽行為識別。本文主要工作如下:(1)提出了一種基于時序建模和時空網(wǎng)絡的零樣本行為識別方法,該方法設計雙流時空網(wǎng)絡將視覺特征映射到語義嵌入空間,網(wǎng)絡中的空間流和時間流分別對RGB和光流信息進行處理。通過卷積神經(jīng)網(wǎng)絡預先提取特征后利用循環(huán)神經(jīng)網(wǎng)絡對序列特征的上下文信息進行建模,充分獲取到視頻中的時間動態(tài)信息。最后將具有高層語義的時空特征進行融合來增強視覺嵌入的表征能力,提高了對未知行為類別的識別性能。(2)提出了一種基于聯(lián)合空間和時空網(wǎng)絡的零樣本行為識別方法,該方法中采用聯(lián)合(公共)空間來搭建視覺空間和語義空間的橋梁,將視頻數(shù)據(jù)的視覺特征和標簽的語義表示都嵌入到這個空間來學習視覺語義的對應關系。這種映射關系不僅能夠建模視覺特征和語義表示各個維度的關系,而且同時優(yōu)化視覺特征、語義表示以及類別標簽的關聯(lián)性,從而構(gòu)建了更有效的視覺到語義的映射關系,進一步提高了零樣本行為識別的準確率。(3)提出了一種基于聯(lián)合空間和多標簽學習的零樣本行為識別方法,該方法將單標簽任務擴展到對多標簽行為數(shù)據(jù)的識別。針對多標簽學習的復雜性,本文利用聯(lián)合潛在嵌入學習方法為視覺特征和語義表示學習一個聯(lián)合潛在空間,并通過將人類行為的視覺信息和語義表示分別映射為該空間中的視覺嵌入和語義嵌入以尋找對應關系。同時,在模型學習中交替訓練視覺模型和語義模型并設計多損失函數(shù)優(yōu)化來完成多標簽零樣本行為識別任務。
【圖文】:
Figure邋2-1邋The邋framework邋of邋the邋traditional邋action邋recognition邋methods逡逑2.1.1傳統(tǒng)人體行為識別方法逡逑傳統(tǒng)人體行為識別算法的主要框架如圖2-1中所示,對視頻數(shù)據(jù)提取特征得到逡逑特定的行為描述,然后訓練對應的分類器,最后再利用訓練好的分類器對測試視頻逡逑進行預測,過程中主要包括特征提取和分類器訓練兩個階段。逡逑傳統(tǒng)行為識別方法中的特征是人為設計的,主要分為兩種表示形式。第一種是逡逑基于啟發(fā)的表示,例如MEI[19]和它們包含了視頻上下文中有用的信息。逡逑第二種基于局部表示,,可以分為三類,一類是以梯度直方圖(HoG)邋I53】、光流直方逡逑圖(HoF)邋[54】、運動邊界直方圖(MBH)[55]為代表的工作,其視頻序列可以表示為逡逑所有時空局部特征的組合;第二類是基于像素模式的描述,局部二值模式(LBP)[14]逡逑6逡逑
圖24邋RNN和LSTM結(jié)構(gòu)丨58丨逡逑Figure邋2-4邋Structure邋of邋RNN邋and邋LSTMl58J逡逑
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.41;TP181
本文編號:2647212
【圖文】:
Figure邋2-1邋The邋framework邋of邋the邋traditional邋action邋recognition邋methods逡逑2.1.1傳統(tǒng)人體行為識別方法逡逑傳統(tǒng)人體行為識別算法的主要框架如圖2-1中所示,對視頻數(shù)據(jù)提取特征得到逡逑特定的行為描述,然后訓練對應的分類器,最后再利用訓練好的分類器對測試視頻逡逑進行預測,過程中主要包括特征提取和分類器訓練兩個階段。逡逑傳統(tǒng)行為識別方法中的特征是人為設計的,主要分為兩種表示形式。第一種是逡逑基于啟發(fā)的表示,例如MEI[19]和它們包含了視頻上下文中有用的信息。逡逑第二種基于局部表示,,可以分為三類,一類是以梯度直方圖(HoG)邋I53】、光流直方逡逑圖(HoF)邋[54】、運動邊界直方圖(MBH)[55]為代表的工作,其視頻序列可以表示為逡逑所有時空局部特征的組合;第二類是基于像素模式的描述,局部二值模式(LBP)[14]逡逑6逡逑
圖24邋RNN和LSTM結(jié)構(gòu)丨58丨逡逑Figure邋2-4邋Structure邋of邋RNN邋and邋LSTMl58J逡逑
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.41;TP181
【參考文獻】
相關期刊論文 前2條
1 莊福振;羅平;何清;史忠植;;遷移學習研究進展[J];軟件學報;2015年01期
2 李瑞峰;王亮亮;王珂;;人體動作行為識別研究綜述[J];模式識別與人工智能;2014年01期
本文編號:2647212
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2647212.html
最近更新
教材專著