人體姿態(tài)估計(jì)的深度網(wǎng)絡(luò)結(jié)構(gòu)研究
發(fā)布時(shí)間:2021-04-14 01:29
人體姿態(tài)估計(jì)任務(wù)是計(jì)算機(jī)視覺領(lǐng)域中極具挑戰(zhàn)性的問題之一,目標(biāo)是檢測出圖像數(shù)據(jù)中人體的關(guān)鍵節(jié)點(diǎn),比如頭部、肩膀、臀部,在行人檢測、重識(shí)別,行為識(shí)別、預(yù)測,人機(jī)交互等領(lǐng)域都有著廣泛的應(yīng)用。在近些年,隨著深度學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)的引入,人體姿態(tài)估計(jì)的算法性能得到飛躍式的提升,其中最主要的原因就在于深度網(wǎng)絡(luò)結(jié)構(gòu)的不斷革新。人體姿態(tài)估計(jì)網(wǎng)絡(luò)框架主要分為兩個(gè)部分:人體結(jié)構(gòu)應(yīng)用網(wǎng)絡(luò)和關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)。本文中通過對(duì)人體姿態(tài)及估計(jì)任務(wù)本身特點(diǎn)的理解和分析,設(shè)計(jì)了新的人體結(jié)構(gòu)應(yīng)用網(wǎng)絡(luò)框架和關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)。同時(shí),本文中還對(duì)所提出的關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)在相似或相關(guān)視覺任務(wù)上的推廣性進(jìn)行了研究,如圖像分類和語義分割任務(wù)。本文的主要工作包括:人體結(jié)構(gòu)應(yīng)用網(wǎng)絡(luò)中的全局和局部姿態(tài)歸一化。人體姿態(tài)的高自由度衍生出了復(fù)雜多樣的關(guān)鍵點(diǎn)相對(duì)位置關(guān)系,對(duì)人體結(jié)構(gòu)建模造成了巨大挑戰(zhàn)。本文提出了全局和局部的姿態(tài)歸一化模塊,通過從全局再到局部的歸一化設(shè)計(jì),逐步降低人體姿態(tài)的自由度,將多樣的人體姿態(tài)變換到一個(gè)標(biāo)準(zhǔn)姿態(tài)附近,使得關(guān)鍵點(diǎn)之間的相對(duì)位置分布更加集中,關(guān)系更為單一,從而可以通過少量的參數(shù)量構(gòu)建更有效的人體結(jié)構(gòu)模型。高分辨率關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)...
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:109 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2?DeepPose122丨初始坐標(biāo)回歸網(wǎng)絡(luò)
?第1章緒?論???IrfTB??圖1.3?DeepPose1221中的級(jí)聯(lián)網(wǎng)絡(luò)。圖來源于DeepPose1221。??在這個(gè)過程中,可以發(fā)現(xiàn)每個(gè)關(guān)鍵點(diǎn)都需要從原圖中截取一個(gè)區(qū)域子圖像,??然后送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。每個(gè)階段的網(wǎng)絡(luò)由于輸入圖像的特性不同,回歸殘差的??數(shù)值范圍不同,不能重復(fù)采用同一個(gè)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)和預(yù)測,因此作者為每個(gè)階段??都單獨(dú)訓(xùn)練一個(gè)網(wǎng)絡(luò)。這使得網(wǎng)絡(luò)實(shí)際并不能端到端的整體進(jìn)行訓(xùn)練,并且整個(gè)??網(wǎng)絡(luò)的參數(shù)量也隨著網(wǎng)絡(luò)級(jí)數(shù)的增加呈線性的增長。??③IEF網(wǎng)絡(luò)結(jié)構(gòu)??IEF[23]在整體上采用了與DeepPose[22]相同的級(jí)聯(lián)網(wǎng)絡(luò)框架。其中的網(wǎng)絡(luò)主??體/(?)采用的是GoogleNet[25]結(jié)構(gòu)。其中最主要的不同在于IEF[23]網(wǎng)絡(luò)的輸入??包含兩個(gè)部分,原始圖像和關(guān)鍵點(diǎn)的高斯掩碼。其中關(guān)鍵點(diǎn)的高斯掩碼是以關(guān)鍵??點(diǎn)坐標(biāo)為中心利用高斯函數(shù)g〇生成的。通過這個(gè)高斯掩碼來告訴網(wǎng)絡(luò)當(dāng)前關(guān)鍵??點(diǎn)的坐標(biāo)位置,類似于注意力模型,以便網(wǎng)絡(luò)能夠利用這個(gè)指導(dǎo)信息來獲取關(guān)鍵??點(diǎn)的局部信息。??與DeepP〇Se[22]相比,IEF[23】在網(wǎng)絡(luò)進(jìn)行逐級(jí)遞進(jìn)的過程中輸入圖像始終保??持為原始圖像,而非DeepP〇Se[22]中既有原始圖像還有局部圖像。這樣就保證了輸??入圖像空間的一致性。然后通過加入關(guān)鍵點(diǎn)高斯掩碼的方式,替代了?DeepPose^l??以截取局部圖像的方式獲取局部細(xì)節(jié)信息。這種關(guān)鍵點(diǎn)高斯掩碼的設(shè)計(jì),在后續(xù)??的工作中被廣泛沿用。??(2)熱力圖預(yù)測網(wǎng)絡(luò)??在坐標(biāo)回歸網(wǎng)絡(luò)中,關(guān)鍵點(diǎn)的定位精度始終無法達(dá)到預(yù)期。熱力圖則作為另??一種預(yù)測目標(biāo)出現(xiàn)在了人體姿態(tài)估計(jì)任務(wù)中。??輸入圖像與相應(yīng)的
?第1章緒?論???圖1.4輸入圖像和相應(yīng)的熱力圖標(biāo)注。實(shí)際每一類關(guān)鍵點(diǎn)有獨(dú)立的熱力圖標(biāo)注,這里為了??可視化簡潔,將不同關(guān)鍵點(diǎn)的熱力圖放在同一張圖中顯示。??像素的分類,相對(duì)于坐標(biāo)回歸網(wǎng)絡(luò),這極大的降低了網(wǎng)絡(luò)的學(xué)習(xí)難度。由于對(duì)表??征空間分辨率的高度需求與坐標(biāo)回歸網(wǎng)絡(luò)截然不同,在網(wǎng)絡(luò)結(jié)構(gòu)上也就存在著??明顯的差異。熱力圖預(yù)測網(wǎng)絡(luò)在結(jié)構(gòu)設(shè)計(jì)中,不僅注重提升特征的分類性能,同??時(shí)也注重對(duì)表征分辨率的恢復(fù)和保持,期望獲取既具有高分辨率又具有強(qiáng)分類??性能的表征。??由于熱力圖預(yù)測網(wǎng)絡(luò)的優(yōu)越性能,在近些年坐標(biāo)回歸網(wǎng)絡(luò)己經(jīng)基本淡出了??人體姿態(tài)估計(jì)任務(wù),主要都以熱力圖為預(yù)測目標(biāo)的網(wǎng)絡(luò)為主。熱力圖預(yù)測網(wǎng)絡(luò)也??分為兩個(gè)主要研究方向:其一是以對(duì)人體結(jié)構(gòu)建模為主的人體結(jié)構(gòu)應(yīng)用網(wǎng)絡(luò),另??一類是專注關(guān)鍵點(diǎn)定位性能的關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)。??①問題定義??熱力圖預(yù)測的方法將人體姿態(tài)估計(jì)問題建模成一個(gè)像素級(jí)標(biāo)注問題(pixel-??wise?labeling)。?將關(guān)鍵點(diǎn)對(duì)應(yīng)的預(yù)測目標(biāo)表示成?Y?=(??.,。ィ?.),/e?{l,...,fc},?其??中V是第/個(gè)關(guān)鍵點(diǎn)所對(duì)應(yīng)的熱力圖,熱力圖由提前定義好的高斯函數(shù)生成得??至!J。熱力圖X中每個(gè)位置的像素值,代表了這個(gè)位置屬于關(guān)鍵點(diǎn)的概率。在給??定一個(gè)輸入圖像/,通過以下方式進(jìn)行坐標(biāo)的預(yù)測??Y?=?f{I-6)?(1.5)??其中f是預(yù)測出的熱力圖,/(?)是用于進(jìn)行熱力圖估計(jì)的函數(shù),這里一般采用??的全卷積網(wǎng)絡(luò),0是網(wǎng)絡(luò)中可學(xué)習(xí)的模型參數(shù)。??在損失函數(shù)上以L2損失以及損失兩種為主,目前采用L2損失來??對(duì)網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化的較多??7??
本文編號(hào):3136387
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:109 頁
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖1.2?DeepPose122丨初始坐標(biāo)回歸網(wǎng)絡(luò)
?第1章緒?論???IrfTB??圖1.3?DeepPose1221中的級(jí)聯(lián)網(wǎng)絡(luò)。圖來源于DeepPose1221。??在這個(gè)過程中,可以發(fā)現(xiàn)每個(gè)關(guān)鍵點(diǎn)都需要從原圖中截取一個(gè)區(qū)域子圖像,??然后送入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。每個(gè)階段的網(wǎng)絡(luò)由于輸入圖像的特性不同,回歸殘差的??數(shù)值范圍不同,不能重復(fù)采用同一個(gè)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)和預(yù)測,因此作者為每個(gè)階段??都單獨(dú)訓(xùn)練一個(gè)網(wǎng)絡(luò)。這使得網(wǎng)絡(luò)實(shí)際并不能端到端的整體進(jìn)行訓(xùn)練,并且整個(gè)??網(wǎng)絡(luò)的參數(shù)量也隨著網(wǎng)絡(luò)級(jí)數(shù)的增加呈線性的增長。??③IEF網(wǎng)絡(luò)結(jié)構(gòu)??IEF[23]在整體上采用了與DeepPose[22]相同的級(jí)聯(lián)網(wǎng)絡(luò)框架。其中的網(wǎng)絡(luò)主??體/(?)采用的是GoogleNet[25]結(jié)構(gòu)。其中最主要的不同在于IEF[23]網(wǎng)絡(luò)的輸入??包含兩個(gè)部分,原始圖像和關(guān)鍵點(diǎn)的高斯掩碼。其中關(guān)鍵點(diǎn)的高斯掩碼是以關(guān)鍵??點(diǎn)坐標(biāo)為中心利用高斯函數(shù)g〇生成的。通過這個(gè)高斯掩碼來告訴網(wǎng)絡(luò)當(dāng)前關(guān)鍵??點(diǎn)的坐標(biāo)位置,類似于注意力模型,以便網(wǎng)絡(luò)能夠利用這個(gè)指導(dǎo)信息來獲取關(guān)鍵??點(diǎn)的局部信息。??與DeepP〇Se[22]相比,IEF[23】在網(wǎng)絡(luò)進(jìn)行逐級(jí)遞進(jìn)的過程中輸入圖像始終保??持為原始圖像,而非DeepP〇Se[22]中既有原始圖像還有局部圖像。這樣就保證了輸??入圖像空間的一致性。然后通過加入關(guān)鍵點(diǎn)高斯掩碼的方式,替代了?DeepPose^l??以截取局部圖像的方式獲取局部細(xì)節(jié)信息。這種關(guān)鍵點(diǎn)高斯掩碼的設(shè)計(jì),在后續(xù)??的工作中被廣泛沿用。??(2)熱力圖預(yù)測網(wǎng)絡(luò)??在坐標(biāo)回歸網(wǎng)絡(luò)中,關(guān)鍵點(diǎn)的定位精度始終無法達(dá)到預(yù)期。熱力圖則作為另??一種預(yù)測目標(biāo)出現(xiàn)在了人體姿態(tài)估計(jì)任務(wù)中。??輸入圖像與相應(yīng)的
?第1章緒?論???圖1.4輸入圖像和相應(yīng)的熱力圖標(biāo)注。實(shí)際每一類關(guān)鍵點(diǎn)有獨(dú)立的熱力圖標(biāo)注,這里為了??可視化簡潔,將不同關(guān)鍵點(diǎn)的熱力圖放在同一張圖中顯示。??像素的分類,相對(duì)于坐標(biāo)回歸網(wǎng)絡(luò),這極大的降低了網(wǎng)絡(luò)的學(xué)習(xí)難度。由于對(duì)表??征空間分辨率的高度需求與坐標(biāo)回歸網(wǎng)絡(luò)截然不同,在網(wǎng)絡(luò)結(jié)構(gòu)上也就存在著??明顯的差異。熱力圖預(yù)測網(wǎng)絡(luò)在結(jié)構(gòu)設(shè)計(jì)中,不僅注重提升特征的分類性能,同??時(shí)也注重對(duì)表征分辨率的恢復(fù)和保持,期望獲取既具有高分辨率又具有強(qiáng)分類??性能的表征。??由于熱力圖預(yù)測網(wǎng)絡(luò)的優(yōu)越性能,在近些年坐標(biāo)回歸網(wǎng)絡(luò)己經(jīng)基本淡出了??人體姿態(tài)估計(jì)任務(wù),主要都以熱力圖為預(yù)測目標(biāo)的網(wǎng)絡(luò)為主。熱力圖預(yù)測網(wǎng)絡(luò)也??分為兩個(gè)主要研究方向:其一是以對(duì)人體結(jié)構(gòu)建模為主的人體結(jié)構(gòu)應(yīng)用網(wǎng)絡(luò),另??一類是專注關(guān)鍵點(diǎn)定位性能的關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)。??①問題定義??熱力圖預(yù)測的方法將人體姿態(tài)估計(jì)問題建模成一個(gè)像素級(jí)標(biāo)注問題(pixel-??wise?labeling)。?將關(guān)鍵點(diǎn)對(duì)應(yīng)的預(yù)測目標(biāo)表示成?Y?=(??.,。ィ?.),/e?{l,...,fc},?其??中V是第/個(gè)關(guān)鍵點(diǎn)所對(duì)應(yīng)的熱力圖,熱力圖由提前定義好的高斯函數(shù)生成得??至!J。熱力圖X中每個(gè)位置的像素值,代表了這個(gè)位置屬于關(guān)鍵點(diǎn)的概率。在給??定一個(gè)輸入圖像/,通過以下方式進(jìn)行坐標(biāo)的預(yù)測??Y?=?f{I-6)?(1.5)??其中f是預(yù)測出的熱力圖,/(?)是用于進(jìn)行熱力圖估計(jì)的函數(shù),這里一般采用??的全卷積網(wǎng)絡(luò),0是網(wǎng)絡(luò)中可學(xué)習(xí)的模型參數(shù)。??在損失函數(shù)上以L2損失以及損失兩種為主,目前采用L2損失來??對(duì)網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化的較多??7??
本文編號(hào):3136387
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/3136387.html
最近更新
教材專著