基于深度神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別研究
發(fā)布時(shí)間:2021-11-12 19:38
人體的行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要問(wèn)題,有著極大的應(yīng)用范圍。比如人機(jī)交互、安全防護(hù)、多媒體的視頻理解和虛擬現(xiàn)實(shí)等。伴隨著大規(guī)模人體行為數(shù)據(jù)集的獲得和硬件計(jì)算能力的進(jìn)步,以深度神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)有了長(zhǎng)足發(fā)展,在一些計(jì)算機(jī)視覺問(wèn)題上取得了以往傳統(tǒng)方法所不能達(dá)到的性能,然而現(xiàn)有方法仍有一些的局限。結(jié)合實(shí)際應(yīng)用需求,本文針對(duì)人體行為識(shí)別中如下兩個(gè)方向進(jìn)行展開:(1)基于RGB視頻的二維人體行為識(shí)別研究;(2)基于骨架坐標(biāo)點(diǎn)云的三維人體行為識(shí)別研究。主要的研究工作和貢獻(xiàn)如下:(1)基于RGB視頻的二維人體行為識(shí)別研究針對(duì)2D行為視頻中存在時(shí)間和空間兩個(gè)維度的信息,設(shè)計(jì)了一種二維卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)和雙流的長(zhǎng)短時(shí)記憶模型(Long-Short Term Memory,LSTM)相結(jié)合的方法,能夠同時(shí)對(duì)時(shí)間信息和空間信息進(jìn)行建模。針對(duì)RGB視頻中背景信息過(guò)于冗雜、人體運(yùn)動(dòng)信息不夠凸顯的問(wèn)題,設(shè)計(jì)了一種全新的跨時(shí)空注意力機(jī)制,該機(jī)制經(jīng)過(guò)訓(xùn)練之后,可以對(duì)一個(gè)行為視頻中不同時(shí)間幀和同一幀上不同的位置進(jìn)行關(guān)注,能夠?qū)W習(xí)到對(duì)行為類別價(jià)值...
【文章來(lái)源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
來(lái)自YouTube網(wǎng)站的彈吉他和跑步視頻截圖
圖 1-1 來(lái)自 YouTube 網(wǎng)站的彈吉他和跑步視頻截圖比如在地鐵、超市或火車站等人員密集的場(chǎng)所,為了安防需要布置了大量的攝像攝像頭記錄了大量的視頻資料,包含了各式各樣的人體行為。但對(duì)于分析理解這內(nèi)容,人們還處于較為初級(jí)的方法,我們時(shí)常聽到一些報(bào)道:某個(gè)公安部門為了頻中搜查罪犯,發(fā)動(dòng)全部門的人員來(lái)肉眼查看監(jiān)控視頻。這樣的做法是耗時(shí)耗究表明人類對(duì)著屏幕的有效精力集中的時(shí)間只有十幾分鐘,超出了便會(huì)頭昏腦脹降等生理問(wèn)題。因此如何有效分析理解這些多媒體資料,對(duì)計(jì)算機(jī)視覺技術(shù)新的2 為某地的監(jiān)控視頻截圖和監(jiān)控室。
第 1 章 緒論內(nèi)存空間,在人機(jī)交互方面并不能很好地提供實(shí)時(shí)的要求。一些科技巨頭公司推三維深度攝像頭來(lái)改進(jìn)這些問(wèn)題,比如微軟公司在 2010 年推出了 Kinect 攝像頭時(shí)拍攝二維的 RGB 視頻、3D 的深度視頻和三維的人體骨架坐標(biāo)點(diǎn)云。由深度攝的人體 3D 坐標(biāo)點(diǎn)云具有內(nèi)存小、無(wú)背景干擾等優(yōu)點(diǎn),迅速成為了一些的人體交主流選擇。如何分析這些三維點(diǎn)云信息成了解決人體行為識(shí)別的關(guān)鍵。圖 1-3 即inect 深度攝像頭與人體骨架三維坐標(biāo)的獲取示意圖。
【參考文獻(xiàn)】:
期刊論文
[1]Saliency guided local and global descriptors for effective action recognition[J]. Ashwan Abdulmunem,Yu-Kun Lai,Xianfang Sun. Computational Visual Media. 2016(01)
博士論文
[1]視頻中人體行為識(shí)別若干問(wèn)題研究[D]. 裴利沈.電子科技大學(xué) 2016
本文編號(hào):3491535
【文章來(lái)源】:廣西師范大學(xué)廣西壯族自治區(qū)
【文章頁(yè)數(shù)】:53 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
來(lái)自YouTube網(wǎng)站的彈吉他和跑步視頻截圖
圖 1-1 來(lái)自 YouTube 網(wǎng)站的彈吉他和跑步視頻截圖比如在地鐵、超市或火車站等人員密集的場(chǎng)所,為了安防需要布置了大量的攝像攝像頭記錄了大量的視頻資料,包含了各式各樣的人體行為。但對(duì)于分析理解這內(nèi)容,人們還處于較為初級(jí)的方法,我們時(shí)常聽到一些報(bào)道:某個(gè)公安部門為了頻中搜查罪犯,發(fā)動(dòng)全部門的人員來(lái)肉眼查看監(jiān)控視頻。這樣的做法是耗時(shí)耗究表明人類對(duì)著屏幕的有效精力集中的時(shí)間只有十幾分鐘,超出了便會(huì)頭昏腦脹降等生理問(wèn)題。因此如何有效分析理解這些多媒體資料,對(duì)計(jì)算機(jī)視覺技術(shù)新的2 為某地的監(jiān)控視頻截圖和監(jiān)控室。
第 1 章 緒論內(nèi)存空間,在人機(jī)交互方面并不能很好地提供實(shí)時(shí)的要求。一些科技巨頭公司推三維深度攝像頭來(lái)改進(jìn)這些問(wèn)題,比如微軟公司在 2010 年推出了 Kinect 攝像頭時(shí)拍攝二維的 RGB 視頻、3D 的深度視頻和三維的人體骨架坐標(biāo)點(diǎn)云。由深度攝的人體 3D 坐標(biāo)點(diǎn)云具有內(nèi)存小、無(wú)背景干擾等優(yōu)點(diǎn),迅速成為了一些的人體交主流選擇。如何分析這些三維點(diǎn)云信息成了解決人體行為識(shí)別的關(guān)鍵。圖 1-3 即inect 深度攝像頭與人體骨架三維坐標(biāo)的獲取示意圖。
【參考文獻(xiàn)】:
期刊論文
[1]Saliency guided local and global descriptors for effective action recognition[J]. Ashwan Abdulmunem,Yu-Kun Lai,Xianfang Sun. Computational Visual Media. 2016(01)
博士論文
[1]視頻中人體行為識(shí)別若干問(wèn)題研究[D]. 裴利沈.電子科技大學(xué) 2016
本文編號(hào):3491535
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3491535.html
最近更新
教材專著