基于深度學習的人體姿態(tài)估計方法研究
發(fā)布時間:2021-03-25 11:01
人體姿態(tài)估計是當前計算機視覺中重要的組成部分,是動作識別的關鍵步驟。隨著深度學習的迅速流行,使得實現(xiàn)快速且準確的人體姿態(tài)估計任務成為可能。研究如何使得人體姿態(tài)估計任務更好的根據(jù)現(xiàn)實需求應用于視頻中逐漸成為當前具有重要現(xiàn)實意義的研究內容。該文探索了人體姿態(tài)估計算法中所涉及的處理速度及精度之間平衡性的相關因素,最后形成了一種有效的人體姿態(tài)估計方法。目前已經(jīng)存在多種人體姿態(tài)估計方法,包括單人姿態(tài)估計方法和多人姿態(tài)估計方法,其中單人姿態(tài)估計方法的研究已經(jīng)比較成熟,當前主要研究方向是多人姿態(tài)估計方法。針對多人姿態(tài)估計在視頻中的應用,大多數(shù)方法特別關注準確度而忽略實際應用中對方法處理速度的要求,本文所做的主要工作是對多種現(xiàn)有的具有代表性的單人和多人姿態(tài)估計方法進行研究,通過多組對比實驗分別對這些方法的處理速度和準確度的相關指標進行探索和分析,提出可行的相關改進想法有針對性的改進了相關方法,并與原方法進行對比實驗,從而得出了影響人體姿態(tài)估計準確度和處理速度之間平衡性的若干因素,由此基礎上該文提出了一種通過改進Dense Net網(wǎng)絡進行人體姿態(tài)估計的方法。所提出的基于改進Dense Net網(wǎng)絡的人體姿...
【文章來源】:湘潭大學湖南省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
圖像卷積示意
6第2章相關理論概述2.1卷積神經(jīng)網(wǎng)絡基于部件模型的姿態(tài)估計方法存在的主要不足之處有圖像中包含繁雜各異的特征,必然需要處理大量像素信息,而將每個像素都被視為與其他像素完全不同的對象是不合理的,因為在實際的圖像中,在相同部件的局部位置上,邊緣像素總是參差不齊[16]。因此,基于人工設計的特征提取方法在面對復雜多變的圖像內容時,常常顯得有心無力,在包括姿態(tài)估計任務在內的多種圖像處理任務中,基于人工特征提取并采用層次流水線的方法對于速度和精度的提升收效甚微[5],而卷積神經(jīng)網(wǎng)絡的發(fā)展幾乎改變了這一切。2.1.1卷積神經(jīng)網(wǎng)絡技術卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks,CNN),是由Bell實驗室和紐約大學的YannLeCun研究小組開發(fā)創(chuàng)立的基于神經(jīng)網(wǎng)絡的相關系統(tǒng)架構,其對于圖像數(shù)據(jù)的處理有獨特的效果[29]。圖2.1展示了卷積操作的原理,其可以看作使用一個矩陣在圖像上進行滑動。而圖2.2則是輸出每一個矩陣位置與對應圖像位置的卷積運算結果示意。一般滑動的動作軌跡為從圖像的左上角開始,依次往右到圖像的右邊界,然后在圖像往下一行像素位置最左邊移動,還是依次從左向右滑動。每次向右滑動的像素距離,稱為步長。通?梢允褂貌煌介L和是否對圖像進行零填充來控制輸出的卷積層矩陣大校圖2.1圖像卷積示意圖2.2卷積計算
8可以共享其遷移過來的,具備對低層次特征強提取能力的卷積神經(jīng)網(wǎng)絡參數(shù)。不得不說,遷移學習加速了神經(jīng)網(wǎng)絡結構的發(fā)展和更迭。2.2圖像金字塔在圖像處理的過程中,由于圖像中相鄰像素之間有密切聯(lián)系,不管是從紋理或是灰度級都很相似。若圖像中的目標對象尺寸很小,一般要用較高的分辨率來觀察。我們想要觀察到小目標的細節(jié)部分則需要擴大視野將小目標的尺寸放大。相反,若圖像中的目標尺寸很大,那么就僅僅需要較低的分辨率就能夠有效觀察。若圖像中的目標尺寸大小不一,進行多分辨率處理的效果更佳。圖像金字塔(ImagePyramid)就是以多分辨率來解析圖像而誕生的一種簡單有效的方法,也是在圖像中多尺度信息的表達方式之一[32]。簡而言之,圖像金字塔實際上是將圖像進行按比例縮放。顧名思義,圖像金字塔就是以圖像的尺寸由底層最大,往上層依次降低類似金字塔狀的形式,如圖2.3所示,其是較高分辨率的原圖像副本,而頂部則是較低分辨率的原圖像副本。圖2.3圖像金字塔2.3圖像上采樣在卷積神經(jīng)網(wǎng)絡中,為了降低參數(shù)量使原圖像分辨率快速下降,便于減少計算設備的計算量,會采取下采樣的操作,即添加池化層于卷積層之后[29,33]。池化層的輸入為卷積層的輸出,將卷積層最大響應的特征結果進行壓縮,并去除冗余的信息,可實現(xiàn)尺度、旋轉和平移等多種特征不變性。池化操作有多種,常見的有兩種:1.平均池化,計算的是特征圖中規(guī)定范圍內各值的平均;2.最大池化,計算的是特征圖中規(guī)定范圍內的最大值?梢詮膱D2.4中看到兩者之間的計算差異。
【參考文獻】:
期刊論文
[1]改進的YOLO V3算法及其在小目標檢測中的應用[J]. 鞠默然,羅海波,王仲博,何淼,常錚,惠斌. 光學學報. 2019(07)
[2]面向小目標的多尺度Faster-RCNN檢測算法[J]. 黃繼鵬,史穎歡,高陽. 計算機研究與發(fā)展. 2019(02)
[3]基于中粒度模型的視頻人體姿態(tài)估計[J]. 史青宣,邸慧軍,陸耀,田學東. 自動化學報. 2018(04)
[4]卷積神經(jīng)網(wǎng)絡研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
[5]基于肢體調整的人體姿態(tài)估計[J]. 蔡鵬,孔德慧,尹寶才,霍奕. 系統(tǒng)仿真學報. 2015(10)
[6]基于視覺的人體動作識別綜述[J]. 胡瓊,秦磊,黃慶明. 計算機學報. 2013(12)
[7]圖像和視頻中基于部件檢測器的人體姿態(tài)估計[J]. 蘇延超,艾海舟,勞世竑. 電子與信息學報. 2011(06)
[8]人體運動捕捉及運動控制的研究[J]. 黃波士,陳福民. 計算機工程與應用. 2005(07)
碩士論文
[1]基于姿態(tài)估計的交警手勢識別方法的研究[D]. 黃聚.吉林大學 2019
[2]基于深度卷積神經(jīng)網(wǎng)絡的人體姿勢估計研究[D]. 王冉.電子科技大學 2016
本文編號:3099571
【文章來源】:湘潭大學湖南省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
圖像卷積示意
6第2章相關理論概述2.1卷積神經(jīng)網(wǎng)絡基于部件模型的姿態(tài)估計方法存在的主要不足之處有圖像中包含繁雜各異的特征,必然需要處理大量像素信息,而將每個像素都被視為與其他像素完全不同的對象是不合理的,因為在實際的圖像中,在相同部件的局部位置上,邊緣像素總是參差不齊[16]。因此,基于人工設計的特征提取方法在面對復雜多變的圖像內容時,常常顯得有心無力,在包括姿態(tài)估計任務在內的多種圖像處理任務中,基于人工特征提取并采用層次流水線的方法對于速度和精度的提升收效甚微[5],而卷積神經(jīng)網(wǎng)絡的發(fā)展幾乎改變了這一切。2.1.1卷積神經(jīng)網(wǎng)絡技術卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks,CNN),是由Bell實驗室和紐約大學的YannLeCun研究小組開發(fā)創(chuàng)立的基于神經(jīng)網(wǎng)絡的相關系統(tǒng)架構,其對于圖像數(shù)據(jù)的處理有獨特的效果[29]。圖2.1展示了卷積操作的原理,其可以看作使用一個矩陣在圖像上進行滑動。而圖2.2則是輸出每一個矩陣位置與對應圖像位置的卷積運算結果示意。一般滑動的動作軌跡為從圖像的左上角開始,依次往右到圖像的右邊界,然后在圖像往下一行像素位置最左邊移動,還是依次從左向右滑動。每次向右滑動的像素距離,稱為步長。通?梢允褂貌煌介L和是否對圖像進行零填充來控制輸出的卷積層矩陣大校圖2.1圖像卷積示意圖2.2卷積計算
8可以共享其遷移過來的,具備對低層次特征強提取能力的卷積神經(jīng)網(wǎng)絡參數(shù)。不得不說,遷移學習加速了神經(jīng)網(wǎng)絡結構的發(fā)展和更迭。2.2圖像金字塔在圖像處理的過程中,由于圖像中相鄰像素之間有密切聯(lián)系,不管是從紋理或是灰度級都很相似。若圖像中的目標對象尺寸很小,一般要用較高的分辨率來觀察。我們想要觀察到小目標的細節(jié)部分則需要擴大視野將小目標的尺寸放大。相反,若圖像中的目標尺寸很大,那么就僅僅需要較低的分辨率就能夠有效觀察。若圖像中的目標尺寸大小不一,進行多分辨率處理的效果更佳。圖像金字塔(ImagePyramid)就是以多分辨率來解析圖像而誕生的一種簡單有效的方法,也是在圖像中多尺度信息的表達方式之一[32]。簡而言之,圖像金字塔實際上是將圖像進行按比例縮放。顧名思義,圖像金字塔就是以圖像的尺寸由底層最大,往上層依次降低類似金字塔狀的形式,如圖2.3所示,其是較高分辨率的原圖像副本,而頂部則是較低分辨率的原圖像副本。圖2.3圖像金字塔2.3圖像上采樣在卷積神經(jīng)網(wǎng)絡中,為了降低參數(shù)量使原圖像分辨率快速下降,便于減少計算設備的計算量,會采取下采樣的操作,即添加池化層于卷積層之后[29,33]。池化層的輸入為卷積層的輸出,將卷積層最大響應的特征結果進行壓縮,并去除冗余的信息,可實現(xiàn)尺度、旋轉和平移等多種特征不變性。池化操作有多種,常見的有兩種:1.平均池化,計算的是特征圖中規(guī)定范圍內各值的平均;2.最大池化,計算的是特征圖中規(guī)定范圍內的最大值?梢詮膱D2.4中看到兩者之間的計算差異。
【參考文獻】:
期刊論文
[1]改進的YOLO V3算法及其在小目標檢測中的應用[J]. 鞠默然,羅海波,王仲博,何淼,常錚,惠斌. 光學學報. 2019(07)
[2]面向小目標的多尺度Faster-RCNN檢測算法[J]. 黃繼鵬,史穎歡,高陽. 計算機研究與發(fā)展. 2019(02)
[3]基于中粒度模型的視頻人體姿態(tài)估計[J]. 史青宣,邸慧軍,陸耀,田學東. 自動化學報. 2018(04)
[4]卷積神經(jīng)網(wǎng)絡研究綜述[J]. 周飛燕,金林鵬,董軍. 計算機學報. 2017(06)
[5]基于肢體調整的人體姿態(tài)估計[J]. 蔡鵬,孔德慧,尹寶才,霍奕. 系統(tǒng)仿真學報. 2015(10)
[6]基于視覺的人體動作識別綜述[J]. 胡瓊,秦磊,黃慶明. 計算機學報. 2013(12)
[7]圖像和視頻中基于部件檢測器的人體姿態(tài)估計[J]. 蘇延超,艾海舟,勞世竑. 電子與信息學報. 2011(06)
[8]人體運動捕捉及運動控制的研究[J]. 黃波士,陳福民. 計算機工程與應用. 2005(07)
碩士論文
[1]基于姿態(tài)估計的交警手勢識別方法的研究[D]. 黃聚.吉林大學 2019
[2]基于深度卷積神經(jīng)網(wǎng)絡的人體姿勢估計研究[D]. 王冉.電子科技大學 2016
本文編號:3099571
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3099571.html
最近更新
教材專著