基于生成對抗網(wǎng)絡的人體目標理解和分析
發(fā)布時間:2021-10-14 08:28
理解和分析人體目標是智能監(jiān)控視頻(圖像)處理系統(tǒng)的核心功能,在安防等領域有著迫切的現(xiàn)實需求和廣闊的應用前景,同時也是計算機視覺領域最熱門的研究方向之一。本文以視頻或圖像數(shù)據(jù)中的人體目標為研究對象,從整體人群和單獨人體的兩個角度出發(fā),圍繞人群的密度分布估計問題和個體的行為預測問題展開研究,分別對應計算機視覺領域中的人群計數(shù)任務和人體行為預測任務。本文的主要工作和貢獻如下:1、總體而言,本文統(tǒng)一地使用生成對抗網(wǎng)絡的整體框架來解決人群計數(shù)和人體行為預測任務中所涉及的高質(zhì)量圖像生成的問題。具體而言,本文基于生成對抗網(wǎng)絡的整體框架,根據(jù)不同任務的需求設計相應的模型結構,分別去生成細節(jié)銳利的人群密度圖和外觀逼真的預測視頻幀。2、針對人群計數(shù)任務,本文提出了一種基于生成對抗網(wǎng)絡的高質(zhì)量人群密度圖生成算法。具體而言,本文設計了一種基于特征金字塔網(wǎng)絡的生成器結構,借助特征金字塔網(wǎng)絡中自下而上和自上而下兩條路徑之間的橫向連接,該結構能有效融合包含豐富人體空間位置信息的低級特征和包含豐富人體語義信息的高級特征,增強模型對人體目標的空間及語義感知能力。在此基礎上,本文進一步引入了基于空間和基于通道的注意力機制...
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:84 頁
【學位級別】:碩士
【部分圖文】:
生成對抗網(wǎng)絡的基本網(wǎng)絡結構
浙江大學碩士學位論文基于生成對抗網(wǎng)絡的人群計數(shù)213基于生成對抗網(wǎng)絡的人群計數(shù)3.1問題概述人群計數(shù)是智能監(jiān)控視頻(圖像)處理系統(tǒng)的關鍵功能,在公共安全、人員調(diào)度、客流量分析等方面都有著廣泛的應用。但是,如圖3.1所示,現(xiàn)實世界中的人群場景復雜多變,存在嚴重遮擋、透視失真、背景混淆、比例變化等諸多問題。因此,人群計數(shù)在當今的計算機視覺領域仍然是一個亟待解決的極具挑戰(zhàn)性的任務。圖3.1現(xiàn)實世界中常見的人群場景隨著卷積神經(jīng)網(wǎng)絡在人群計數(shù)領域的廣泛應用,一些相關方法已在準確估計人群數(shù)量方面取得了重大的突破。但是,如圖3.2所示,僅能準確地估計人群中人員的數(shù)量是不足夠的,因為人員數(shù)量的正確性并不一定意味著人群空間分布的準確性。兩個計數(shù)結果十分接近的人群密度圖可能對應著截然不同的空間分布情況。顯然,相對于單一的人員數(shù)量,人群的空間分布情況具備更大的實際應用價值,是監(jiān)控人群狀態(tài)、分析人群行為以及精準定位目標的基矗
浙江大學碩士學位論文基于生成對抗網(wǎng)絡的人群計數(shù)22圖3.2(a)從UCF-QNRF數(shù)據(jù)集[50]中采樣的測試圖像,(b)該圖片所對應的真值人群密度圖,(c)MCNN[35]方法生成的人群密度圖,(d)本文方法生成的人群密度圖?梢,盡管先前方法生成的人群密度圖能相對準確地估計人群數(shù)量,但不一定能正確反映人群的空間分布情況。同時,本文方法生成的人群密度圖既實現(xiàn)了準確的人數(shù)估計,也反映了精準的空間分布。因此,近些年來,人群計數(shù)領域的相關研究已經(jīng)不再局限于單純地追求準確的人員數(shù)量估計,而是開始更加關注如何生成能夠準確表征人群空間分布情況的高質(zhì)量人群密度圖,間接地實現(xiàn)精準的人數(shù)估計。如前文所述,Li等人[37]提出了一個名為CSRNet的單列網(wǎng)絡,該網(wǎng)絡使用空洞卷積代替?zhèn)鹘y(tǒng)的池化下采樣操作,以此緩解人群分布密度圖生成過程中空間位置信息損失的問題。Cao等人[38]設計了一種基于多尺度聚合的編碼器-解碼器網(wǎng)絡(SANet),其中編碼器使用多個尺度聚合模塊來提取多尺度人群特征,解碼器則通過連續(xù)反卷積操作進行上采樣,最終生成高分辨率的人群密度圖。但是,現(xiàn)有的大多數(shù)方法[37-38]大都依賴于一種單向的編碼器-解碼器網(wǎng)絡結構。具體而言,該結構首先通過一系列下采樣操作將具有較高分辨率的低級特征逐漸編碼為分辨率較低的高級特征,然后再利用一系列上采樣操作將編碼得到的
本文編號:3435806
【文章來源】:浙江大學浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:84 頁
【學位級別】:碩士
【部分圖文】:
生成對抗網(wǎng)絡的基本網(wǎng)絡結構
浙江大學碩士學位論文基于生成對抗網(wǎng)絡的人群計數(shù)213基于生成對抗網(wǎng)絡的人群計數(shù)3.1問題概述人群計數(shù)是智能監(jiān)控視頻(圖像)處理系統(tǒng)的關鍵功能,在公共安全、人員調(diào)度、客流量分析等方面都有著廣泛的應用。但是,如圖3.1所示,現(xiàn)實世界中的人群場景復雜多變,存在嚴重遮擋、透視失真、背景混淆、比例變化等諸多問題。因此,人群計數(shù)在當今的計算機視覺領域仍然是一個亟待解決的極具挑戰(zhàn)性的任務。圖3.1現(xiàn)實世界中常見的人群場景隨著卷積神經(jīng)網(wǎng)絡在人群計數(shù)領域的廣泛應用,一些相關方法已在準確估計人群數(shù)量方面取得了重大的突破。但是,如圖3.2所示,僅能準確地估計人群中人員的數(shù)量是不足夠的,因為人員數(shù)量的正確性并不一定意味著人群空間分布的準確性。兩個計數(shù)結果十分接近的人群密度圖可能對應著截然不同的空間分布情況。顯然,相對于單一的人員數(shù)量,人群的空間分布情況具備更大的實際應用價值,是監(jiān)控人群狀態(tài)、分析人群行為以及精準定位目標的基矗
浙江大學碩士學位論文基于生成對抗網(wǎng)絡的人群計數(shù)22圖3.2(a)從UCF-QNRF數(shù)據(jù)集[50]中采樣的測試圖像,(b)該圖片所對應的真值人群密度圖,(c)MCNN[35]方法生成的人群密度圖,(d)本文方法生成的人群密度圖?梢,盡管先前方法生成的人群密度圖能相對準確地估計人群數(shù)量,但不一定能正確反映人群的空間分布情況。同時,本文方法生成的人群密度圖既實現(xiàn)了準確的人數(shù)估計,也反映了精準的空間分布。因此,近些年來,人群計數(shù)領域的相關研究已經(jīng)不再局限于單純地追求準確的人員數(shù)量估計,而是開始更加關注如何生成能夠準確表征人群空間分布情況的高質(zhì)量人群密度圖,間接地實現(xiàn)精準的人數(shù)估計。如前文所述,Li等人[37]提出了一個名為CSRNet的單列網(wǎng)絡,該網(wǎng)絡使用空洞卷積代替?zhèn)鹘y(tǒng)的池化下采樣操作,以此緩解人群分布密度圖生成過程中空間位置信息損失的問題。Cao等人[38]設計了一種基于多尺度聚合的編碼器-解碼器網(wǎng)絡(SANet),其中編碼器使用多個尺度聚合模塊來提取多尺度人群特征,解碼器則通過連續(xù)反卷積操作進行上采樣,最終生成高分辨率的人群密度圖。但是,現(xiàn)有的大多數(shù)方法[37-38]大都依賴于一種單向的編碼器-解碼器網(wǎng)絡結構。具體而言,該結構首先通過一系列下采樣操作將具有較高分辨率的低級特征逐漸編碼為分辨率較低的高級特征,然后再利用一系列上采樣操作將編碼得到的
本文編號:3435806
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3435806.html
最近更新
教材專著