基于YOLOv3剪枝模型的姿態(tài)和步態(tài)識別算法研究
發(fā)布時間:2021-04-15 01:24
在計算機視覺的模式識別中,目標檢測是一個非常具有挑戰(zhàn)性并且極具現(xiàn)實意義的的研究方向。多人姿態(tài)估計作為計算機視覺領(lǐng)域的一個重要組成部分,也影響著很多其它研究方向,包括但不限于人機交互、體感技術(shù)等。隨著當下全球化的趨勢愈加明顯,安全問題也日益嚴峻,相比較于其它用于偽裝身份的方法,步態(tài)由于其不可偽裝性、遠距離性等特點成為了當下各國安全的研究重點。近年來,隨著計算機軟硬件的大力發(fā)展和數(shù)據(jù)量的爆炸式增長,深度學(xué)習在計算機視覺領(lǐng)域表現(xiàn)十分優(yōu)異,基于深度學(xué)習的多人姿態(tài)估計和步態(tài)識別方法也在各個領(lǐng)域發(fā)揮出重要的作用。論文首先介紹了多人姿態(tài)估計和步態(tài)識別技術(shù)的研究背景和意義,詳細闡述了國內(nèi)外的研究現(xiàn)狀,包括主流的步態(tài)識別算法,并對當前技術(shù)存在的問題進行了分析;隨著卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習在計算機領(lǐng)域的大放光彩,論文仔細介紹了深度學(xué)習的基本理論知識和重要概念。本文主要展開了以下兩方面的工作和創(chuàng)新:(1)首先提出了基于YOLOv3(You Only Look Once v3)的多人姿態(tài)估計算法(YOLO Pose Estimator,YLPE),針對算法存在的參數(shù)量過大和計算冗余等問題,進一步提出了基于模型剪...
【文章來源】:杭州電子科技大學(xué)浙江省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文完整內(nèi)容結(jié)構(gòu)框圖
7第2章深度學(xué)習及步態(tài)識別相關(guān)概念2.1深度學(xué)習概述深度學(xué)習是機器學(xué)習的一個分支,它的概念起源于人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),人工神經(jīng)網(wǎng)絡(luò)在計算機視覺、推薦系統(tǒng)、語音識別及自然語言處理(Naturallanguageprocessing,NLP)領(lǐng)域都發(fā)揮著巨大的作用。上個世紀九十年代,隨著計算機的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)受到了學(xué)術(shù)界與工業(yè)界的關(guān)注與青睞。隨著對人工神經(jīng)網(wǎng)絡(luò)的進一步研究發(fā)現(xiàn),ANN存在著模型參數(shù)過于龐大、訓(xùn)練極容易出現(xiàn)過擬合等缺點,所以雖然ANN在訓(xùn)練集上能取得較好精度,但在測試集上表現(xiàn)難以達到預(yù)期。人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖2.1。圖2.1基本神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖中每個圓形單元代表人工神經(jīng)元,神經(jīng)元包含有3部分,分別為:非線性激活函數(shù)f、權(quán)重W和偏置b。神經(jīng)元輸出值T可以通過式(2.1)得到,其中x為神經(jīng)元的輸入:T=f(Wx+b)(2.1)2006年,Hinton教授[46]在《Science》上首次提出了深度學(xué)習的概念。深度學(xué)習(DeepLearning,DL)的核心也就是深度神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)在保留了人工神經(jīng)網(wǎng)絡(luò)大多數(shù)特點的基礎(chǔ)上進行了適當改進,重點在于以下幾方面:(1)網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)較深,神經(jīng)元和隱藏層較多,原則上可以無限加深網(wǎng)絡(luò)層數(shù)。(2)可以將大量原始數(shù)據(jù)直接輸入。(3)可實現(xiàn)多層次的表征和概念抽象層次。近年來,隨著計算機軟硬件的飛速發(fā)展,使得需要高算力的深度學(xué)習成為當下學(xué)術(shù)界和工業(yè)界的關(guān)注重點。2012年,Alex[47]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet,在ILSVRC2012比賽中以低于第二名9.8%的誤檢率奪得冠軍,并開辟了卷積神經(jīng)網(wǎng)絡(luò)在目標識別領(lǐng)域的應(yīng)用。
82014年,牛津大學(xué)的VisualGeomentryGroup提出了VGGNet[48],該網(wǎng)絡(luò)較為主流的版本有VGG-16網(wǎng)絡(luò)及VGG-19網(wǎng)絡(luò),通過反復(fù)疊加22的最大池化層和33的卷積核,在ILSVRC2014取得了第二名的成績,同時通過可自定義卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的思想,詳細探索了網(wǎng)絡(luò)深度與特征提取性能之間的關(guān)系,。He[49]等人在2015年利用殘差模塊(Residual)的思想提出了ResNet,在ILSVRC2015中取得了圖像分類和物體識別的最優(yōu)錯誤率并奪得了冠軍,殘差網(wǎng)絡(luò)的核心思想就是將特征提取過程中的反復(fù)連乘過程改變?yōu)檫B加過程,從而較好的解決了特征退化問題。常見的ResNet網(wǎng)絡(luò)有ResNet-50、ResNet-101等。2.1.1卷積神經(jīng)網(wǎng)絡(luò)在基本的人工神經(jīng)網(wǎng)絡(luò)框架中,下一層神經(jīng)元的輸入是上一層所有神經(jīng)元的輸出,但是隨著神經(jīng)網(wǎng)絡(luò)的加深帶來的計算性能代價使基本的人工神經(jīng)網(wǎng)絡(luò)框架不具有現(xiàn)實可行性。為了解決這個問題,卷積神經(jīng)網(wǎng)絡(luò)引入了卷積層(Convolutional,Cov)從而避免大量計算消耗,并在圖像識別領(lǐng)域展現(xiàn)出了非常優(yōu)秀的發(fā)展前景。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖2.2所示。圖2.2含有卷積層的卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)1998年,隨著LeNet-5[50]的提出,標志著卷積神經(jīng)網(wǎng)絡(luò)的真正面世,LeNet-5的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2.3所示。圖2.3LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)
本文編號:3138390
【文章來源】:杭州電子科技大學(xué)浙江省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
論文完整內(nèi)容結(jié)構(gòu)框圖
7第2章深度學(xué)習及步態(tài)識別相關(guān)概念2.1深度學(xué)習概述深度學(xué)習是機器學(xué)習的一個分支,它的概念起源于人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN),人工神經(jīng)網(wǎng)絡(luò)在計算機視覺、推薦系統(tǒng)、語音識別及自然語言處理(Naturallanguageprocessing,NLP)領(lǐng)域都發(fā)揮著巨大的作用。上個世紀九十年代,隨著計算機的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)受到了學(xué)術(shù)界與工業(yè)界的關(guān)注與青睞。隨著對人工神經(jīng)網(wǎng)絡(luò)的進一步研究發(fā)現(xiàn),ANN存在著模型參數(shù)過于龐大、訓(xùn)練極容易出現(xiàn)過擬合等缺點,所以雖然ANN在訓(xùn)練集上能取得較好精度,但在測試集上表現(xiàn)難以達到預(yù)期。人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖2.1。圖2.1基本神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖中每個圓形單元代表人工神經(jīng)元,神經(jīng)元包含有3部分,分別為:非線性激活函數(shù)f、權(quán)重W和偏置b。神經(jīng)元輸出值T可以通過式(2.1)得到,其中x為神經(jīng)元的輸入:T=f(Wx+b)(2.1)2006年,Hinton教授[46]在《Science》上首次提出了深度學(xué)習的概念。深度學(xué)習(DeepLearning,DL)的核心也就是深度神經(jīng)網(wǎng)絡(luò),深度神經(jīng)網(wǎng)絡(luò)在保留了人工神經(jīng)網(wǎng)絡(luò)大多數(shù)特點的基礎(chǔ)上進行了適當改進,重點在于以下幾方面:(1)網(wǎng)絡(luò)結(jié)構(gòu)層數(shù)較深,神經(jīng)元和隱藏層較多,原則上可以無限加深網(wǎng)絡(luò)層數(shù)。(2)可以將大量原始數(shù)據(jù)直接輸入。(3)可實現(xiàn)多層次的表征和概念抽象層次。近年來,隨著計算機軟硬件的飛速發(fā)展,使得需要高算力的深度學(xué)習成為當下學(xué)術(shù)界和工業(yè)界的關(guān)注重點。2012年,Alex[47]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的AlexNet,在ILSVRC2012比賽中以低于第二名9.8%的誤檢率奪得冠軍,并開辟了卷積神經(jīng)網(wǎng)絡(luò)在目標識別領(lǐng)域的應(yīng)用。
82014年,牛津大學(xué)的VisualGeomentryGroup提出了VGGNet[48],該網(wǎng)絡(luò)較為主流的版本有VGG-16網(wǎng)絡(luò)及VGG-19網(wǎng)絡(luò),通過反復(fù)疊加22的最大池化層和33的卷積核,在ILSVRC2014取得了第二名的成績,同時通過可自定義卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的思想,詳細探索了網(wǎng)絡(luò)深度與特征提取性能之間的關(guān)系,。He[49]等人在2015年利用殘差模塊(Residual)的思想提出了ResNet,在ILSVRC2015中取得了圖像分類和物體識別的最優(yōu)錯誤率并奪得了冠軍,殘差網(wǎng)絡(luò)的核心思想就是將特征提取過程中的反復(fù)連乘過程改變?yōu)檫B加過程,從而較好的解決了特征退化問題。常見的ResNet網(wǎng)絡(luò)有ResNet-50、ResNet-101等。2.1.1卷積神經(jīng)網(wǎng)絡(luò)在基本的人工神經(jīng)網(wǎng)絡(luò)框架中,下一層神經(jīng)元的輸入是上一層所有神經(jīng)元的輸出,但是隨著神經(jīng)網(wǎng)絡(luò)的加深帶來的計算性能代價使基本的人工神經(jīng)網(wǎng)絡(luò)框架不具有現(xiàn)實可行性。為了解決這個問題,卷積神經(jīng)網(wǎng)絡(luò)引入了卷積層(Convolutional,Cov)從而避免大量計算消耗,并在圖像識別領(lǐng)域展現(xiàn)出了非常優(yōu)秀的發(fā)展前景。卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖2.2所示。圖2.2含有卷積層的卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)1998年,隨著LeNet-5[50]的提出,標志著卷積神經(jīng)網(wǎng)絡(luò)的真正面世,LeNet-5的具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2.3所示。圖2.3LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)
本文編號:3138390
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3138390.html
最近更新
教材專著