基于視頻的學生課堂行為檢測算法研究
發(fā)布時間:2021-09-03 09:41
隨著科技的發(fā)展,越來越多的行業(yè)都有著視頻監(jiān)控的存在。通過視頻監(jiān)控,可以對指定環(huán)境中的情況進行觀察,從而進行相應的分析。基于視頻的行為檢測工程、社區(qū)等行業(yè)都得到了長足的應用,但是在教育行業(yè)的發(fā)展較為緩慢。利用計算機技術對學生的上課視頻進行分析,將目標檢測與行為分類相結合,對學生的課堂行為進行檢測,可以減少老師的教學壓力,將更多的注意力投入到本職的教學工作當中。此外,老師和學生在課后都可以查看相應的行為分析結果,這樣可以更加好的引導學生認真聽講,從而使老師的教學效果更好,增加學生的效率;谏鲜銮闆r,本文圍繞基于視頻的學生課堂行為檢測算法這一課題進行分析和研究,通過目標檢測與行為識別相結合的方式實現(xiàn)行為檢測。研究內容主要分為如下三個部分:首先,對目標檢測算法進行研究,根據(jù)課題特點進行數(shù)據(jù)集的研究和設計。通過對應用場景和識別要求進行分析,選擇yolo-v3算法作為基礎算法。在yolo-v3算法的基礎之上對loss函數(shù)的權重和損失計算方式進行了改進,此外通過多尺度特征加和的方式改進網絡結構,最終得到y(tǒng)olo-op4算法作為本文的目標檢測算法。并且根據(jù)課題的特點制作了對應的目標檢測數(shù)據(jù)集。之后,...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
Haar-like特征示例(從左到右:邊緣、線、點、對角線)
哈爾濱工業(yè)大學專業(yè)碩士學位論文-9-采集的圖像的質量無法保持在一個穩(wěn)定的程度。因此,需要對收集到的初始圖像進行預先處理,將這些圖像的質量和效果進行調整,突出需要的特征。主要的調整方式有灰度化、Gamma校正。對于RGB彩色圖像,通過如下公式將其轉換為灰度圖像:Grey0.299R0.587G0.114B(2-8)在圖像中的光照程度不均勻的情況下,采用Gamma校正的方式對圖像的整體亮度進行調整,根據(jù)圖像的實際情況進行整體亮度的提升與降低,采用如下公式進行校正,gamma值小于1時,圖像在高灰度值區(qū)域的對比度降低,顯得亮一些;gamma值大于1時,圖像在在低灰度值區(qū)域內對比度降低,顯得暗淡一些。Y(x,y)I(x,y)(2-9)圖2-2Gamma校正進行學生圖像處理(左側為原圖,右側為處理圖像)二、梯度計算。在歸一化處理之后,通過一階微分計算梯度,用不同的梯度算子計算對圖像兩個方向上的梯度分量,采用的公式如下所示:(,)(1,)(1,)xGxyIxyIxy(2-10)(,)(,1)(,1)yGxyIxyIxy(2-11)22(,)(,)(,)xyGxyGxyGxy(2-12)1(,)(,)tan(,)yxGxyxyGxy(2-13)其中,x是水平方向(正向為右),y是豎直方向(正向為上),I(x,y)表示的是(x,y)處的圖像像素點灰度值。Gx(x,y)和Gy(x,y)分別表示的是圖像在(x,y)處水平和豎直方向的梯度,G(x,y)則是圖像在(x,y)處的梯度,而α(x,y)則表示梯度方向。三、cell劃分。將圖像分割成多個cell,一個cell有64(8×8)個像素點,鄰接cell之間互不重疊。
哈爾濱工業(yè)大學專業(yè)碩士學位論文-11-圖2-3SelectiveSearch對課題視頻圖像進行候選區(qū)域生成特征提取:在利用SelectiveSearch算法生成了足夠多的(一般情況下為2000個)候選區(qū)域以后,對他們進行歸一化,然后輸入到CNN網絡當中,通過卷積、池化等操作,來提取候選區(qū)域當中的特征,并進行特征向量輸出。圖像分類:對CNN輸出的向量采用SVM的方式進行分類。邊界回歸:采用線性回歸算法對生成的候選區(qū)域的邊框進行邊框回歸運算,使得候選區(qū)域邊框的位置向著真實邊框的位置靠攏。R-CNN雖然在當時是目標檢測與CNN結合的一個非常成功的產物,有著很好的特征提取和分類的性能,但是它依舊存在不少缺點。第一,由于采用傳統(tǒng)算法對圖像進行遍歷計算的,候選框的計算時間比較長。第二,傳統(tǒng)CNN的訓練過程中,圖像的輸入是固定尺寸的,因此在歸一化的過程中就會對原始圖像進行拉伸或者截斷,導致信息丟失。第三,每一個候選區(qū)域都會輸入到CNN網絡當中進行運算,而這些候選區(qū)域往往會有很多部分重疊,對于這些重復特征的提取和計算會降低算法的效率。之后,F(xiàn)ast-RCNN算法被提出,該算法提出了RoIpooling(興趣區(qū)域池化,Regionofinterestpooling)這一池化方式,它可以在輸入特征圖的尺寸不相同的情況之下,輸出相同尺寸的特征圖,解決了圖像輸入固定尺寸的問題。此外,在損失函數(shù)方面,F(xiàn)ast-RCNN采用多任務損失函數(shù),對邊框回歸和分類概率進行聯(lián)合訓練。RoIpooling是在輸入的數(shù)據(jù)中同時存在圖像的特征向量和圖像興趣區(qū)域邊界框的情況下,對興趣區(qū)域進行池化的一種方式。與普通的maxpooling的區(qū)別是,RoIpooling的池化窗口的內部分割區(qū)域中,各自包含的特征值數(shù)量不一樣。如下圖所示,取向下為y的正方向,向右為x的正方向,假設圖像的輸入大小是4×4,區(qū)域的左
【參考文獻】:
期刊論文
[1]基于人體骨架信息提取的學生課堂行為自動識別[J]. 徐家臻,鄧偉,魏艷濤. 現(xiàn)代教育技術. 2020(05)
[2]基于多模態(tài)數(shù)據(jù)的課堂學生行為識別技術的探究[J]. 林燦然,許偉亮,李逸. 現(xiàn)代計算機. 2020(06)
[3]基于CNN深度學習模型的大學生課堂行為檢測研究[J]. 左國才,蘇秀芝,王海東,吳小平. 智能計算機與應用. 2020(02)
[4]基于視頻的學生動作識別方法研究[J]. 白雨亭. 儀器儀表用戶. 2020(01)
[5]基于深度學習的學生課堂行為識別[J]. 魏艷濤,秦道影,胡佳敏,姚璜,師亞飛. 現(xiàn)代教育技術. 2019(07)
[6]基于三維卷積與雙向LSTM的行為識別研究[J]. 王毅,馬翠紅,毛志強. 現(xiàn)代電子技術. 2019(14)
[7]結合目標檢測的人體行為識別[J]. 周波,李俊峰. 自動化學報. 2020(09)
[8]基于傅里葉-隱馬爾科夫模型的人體行為識別方法研究[J]. 胡煒. 電子設計工程. 2018(07)
[9]基于主題隱馬爾科夫模型的人體異常行為識別[J]. 朱旭東,劉志鏡. 計算機科學. 2012(03)
本文編號:3380879
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:73 頁
【學位級別】:碩士
【部分圖文】:
Haar-like特征示例(從左到右:邊緣、線、點、對角線)
哈爾濱工業(yè)大學專業(yè)碩士學位論文-9-采集的圖像的質量無法保持在一個穩(wěn)定的程度。因此,需要對收集到的初始圖像進行預先處理,將這些圖像的質量和效果進行調整,突出需要的特征。主要的調整方式有灰度化、Gamma校正。對于RGB彩色圖像,通過如下公式將其轉換為灰度圖像:Grey0.299R0.587G0.114B(2-8)在圖像中的光照程度不均勻的情況下,采用Gamma校正的方式對圖像的整體亮度進行調整,根據(jù)圖像的實際情況進行整體亮度的提升與降低,采用如下公式進行校正,gamma值小于1時,圖像在高灰度值區(qū)域的對比度降低,顯得亮一些;gamma值大于1時,圖像在在低灰度值區(qū)域內對比度降低,顯得暗淡一些。Y(x,y)I(x,y)(2-9)圖2-2Gamma校正進行學生圖像處理(左側為原圖,右側為處理圖像)二、梯度計算。在歸一化處理之后,通過一階微分計算梯度,用不同的梯度算子計算對圖像兩個方向上的梯度分量,采用的公式如下所示:(,)(1,)(1,)xGxyIxyIxy(2-10)(,)(,1)(,1)yGxyIxyIxy(2-11)22(,)(,)(,)xyGxyGxyGxy(2-12)1(,)(,)tan(,)yxGxyxyGxy(2-13)其中,x是水平方向(正向為右),y是豎直方向(正向為上),I(x,y)表示的是(x,y)處的圖像像素點灰度值。Gx(x,y)和Gy(x,y)分別表示的是圖像在(x,y)處水平和豎直方向的梯度,G(x,y)則是圖像在(x,y)處的梯度,而α(x,y)則表示梯度方向。三、cell劃分。將圖像分割成多個cell,一個cell有64(8×8)個像素點,鄰接cell之間互不重疊。
哈爾濱工業(yè)大學專業(yè)碩士學位論文-11-圖2-3SelectiveSearch對課題視頻圖像進行候選區(qū)域生成特征提取:在利用SelectiveSearch算法生成了足夠多的(一般情況下為2000個)候選區(qū)域以后,對他們進行歸一化,然后輸入到CNN網絡當中,通過卷積、池化等操作,來提取候選區(qū)域當中的特征,并進行特征向量輸出。圖像分類:對CNN輸出的向量采用SVM的方式進行分類。邊界回歸:采用線性回歸算法對生成的候選區(qū)域的邊框進行邊框回歸運算,使得候選區(qū)域邊框的位置向著真實邊框的位置靠攏。R-CNN雖然在當時是目標檢測與CNN結合的一個非常成功的產物,有著很好的特征提取和分類的性能,但是它依舊存在不少缺點。第一,由于采用傳統(tǒng)算法對圖像進行遍歷計算的,候選框的計算時間比較長。第二,傳統(tǒng)CNN的訓練過程中,圖像的輸入是固定尺寸的,因此在歸一化的過程中就會對原始圖像進行拉伸或者截斷,導致信息丟失。第三,每一個候選區(qū)域都會輸入到CNN網絡當中進行運算,而這些候選區(qū)域往往會有很多部分重疊,對于這些重復特征的提取和計算會降低算法的效率。之后,F(xiàn)ast-RCNN算法被提出,該算法提出了RoIpooling(興趣區(qū)域池化,Regionofinterestpooling)這一池化方式,它可以在輸入特征圖的尺寸不相同的情況之下,輸出相同尺寸的特征圖,解決了圖像輸入固定尺寸的問題。此外,在損失函數(shù)方面,F(xiàn)ast-RCNN采用多任務損失函數(shù),對邊框回歸和分類概率進行聯(lián)合訓練。RoIpooling是在輸入的數(shù)據(jù)中同時存在圖像的特征向量和圖像興趣區(qū)域邊界框的情況下,對興趣區(qū)域進行池化的一種方式。與普通的maxpooling的區(qū)別是,RoIpooling的池化窗口的內部分割區(qū)域中,各自包含的特征值數(shù)量不一樣。如下圖所示,取向下為y的正方向,向右為x的正方向,假設圖像的輸入大小是4×4,區(qū)域的左
【參考文獻】:
期刊論文
[1]基于人體骨架信息提取的學生課堂行為自動識別[J]. 徐家臻,鄧偉,魏艷濤. 現(xiàn)代教育技術. 2020(05)
[2]基于多模態(tài)數(shù)據(jù)的課堂學生行為識別技術的探究[J]. 林燦然,許偉亮,李逸. 現(xiàn)代計算機. 2020(06)
[3]基于CNN深度學習模型的大學生課堂行為檢測研究[J]. 左國才,蘇秀芝,王海東,吳小平. 智能計算機與應用. 2020(02)
[4]基于視頻的學生動作識別方法研究[J]. 白雨亭. 儀器儀表用戶. 2020(01)
[5]基于深度學習的學生課堂行為識別[J]. 魏艷濤,秦道影,胡佳敏,姚璜,師亞飛. 現(xiàn)代教育技術. 2019(07)
[6]基于三維卷積與雙向LSTM的行為識別研究[J]. 王毅,馬翠紅,毛志強. 現(xiàn)代電子技術. 2019(14)
[7]結合目標檢測的人體行為識別[J]. 周波,李俊峰. 自動化學報. 2020(09)
[8]基于傅里葉-隱馬爾科夫模型的人體行為識別方法研究[J]. 胡煒. 電子設計工程. 2018(07)
[9]基于主題隱馬爾科夫模型的人體異常行為識別[J]. 朱旭東,劉志鏡. 計算機科學. 2012(03)
本文編號:3380879
本文鏈接:http://www.sikaile.net/jiaoyulunwen/ktjx/3380879.html
教材專著