面向視頻監(jiān)控語(yǔ)義理解的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
發(fā)布時(shí)間:2020-05-31 21:37
【摘要】:視頻監(jiān)控系統(tǒng)在公共安全、城市管理等領(lǐng)域發(fā)揮著重要的作用。近些年來(lái),深度學(xué)習(xí)技術(shù)迅猛發(fā)展,深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力和端到端的訓(xùn)練方式成為了智能視頻監(jiān)控系統(tǒng)的極大助力。在深度學(xué)習(xí)與智能視頻監(jiān)控技術(shù)的結(jié)合中,如何設(shè)計(jì)有效、魯棒和可靠的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是其中亟待解決的核心問(wèn)題。論文對(duì)監(jiān)控視頻中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的各個(gè)方面進(jìn)行了系統(tǒng)性的研究,涵蓋對(duì)于視頻中的時(shí)空語(yǔ)義信息和多模態(tài)語(yǔ)義信息進(jìn)行有針對(duì)性的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),充分挖掘、建模和融合監(jiān)控視頻中的豐富語(yǔ)義信息。論文還進(jìn)一步探索了自動(dòng)化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方法。在研究過(guò)程中,論文提出了一系列創(chuàng)新性的解決方案,通過(guò)實(shí)驗(yàn)驗(yàn)證了這些方案的有效性。論文的主要工作和貢獻(xiàn)包括以下幾個(gè)方面:1.深入研究了監(jiān)控視頻中時(shí)序和空間語(yǔ)義信息的建模和融合問(wèn)題。論文研究了時(shí)空語(yǔ)義信息的針對(duì)性建模,分別針對(duì)目標(biāo)的時(shí)序語(yǔ)義信息和場(chǎng)景的空間語(yǔ)義信息提出新的神經(jīng)網(wǎng)絡(luò)模型,并應(yīng)用于目標(biāo)軌跡預(yù)測(cè)任務(wù)上。論文進(jìn)一步研究了視頻中時(shí)序和空間語(yǔ)義信息的聯(lián)合學(xué)習(xí),提出了一種時(shí)空網(wǎng)絡(luò)的多層次級(jí)聯(lián)模型,在視頻摘要任務(wù)上驗(yàn)證了模型的高層語(yǔ)義理解能力;2.深入研究了監(jiān)控視頻中多模態(tài)語(yǔ)義信息的挖掘和聯(lián)合學(xué)習(xí),在行人語(yǔ)義分析的上下文里提出了兩個(gè)新的多模態(tài)場(chǎng)景語(yǔ)義模型,從而從監(jiān)控場(chǎng)景圖像中挖掘豐富的語(yǔ)義信息。論文進(jìn)一步將多模態(tài)場(chǎng)景模型應(yīng)用在人群計(jì)數(shù)任務(wù)上,以多任務(wù)聯(lián)合學(xué)習(xí)的方式將這些多模態(tài)語(yǔ)義信息融合到深度神經(jīng)網(wǎng)絡(luò)模型里,實(shí)現(xiàn)密集人群數(shù)量的魯棒估計(jì);3.深入研究了智能視頻監(jiān)控的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)化設(shè)計(jì),提出一種樹(shù)型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的高效搜索方法,通過(guò)貪心策略將全局網(wǎng)絡(luò)結(jié)構(gòu)的搜索分解為局部結(jié)構(gòu)的搜索問(wèn)題并以迭代更新的方式高效地解決,算法搜索得到的樹(shù)型結(jié)構(gòu)有效地建模了屬性間的相關(guān)性,適用于各類多屬性預(yù)測(cè)問(wèn)題。
【圖文】:
目標(biāo)發(fā)現(xiàn)邐I邋目sE別邋j邐語(yǔ)義分析與預(yù)測(cè)逡逑圖1-1智能視頻監(jiān)控技術(shù)的語(yǔ)義層次逡逑通常被認(rèn)為是琛度學(xué)習(xí)技術(shù)的開(kāi)創(chuàng)工作。2012年,Krizhevsky和他的導(dǎo)師Hinton等人W-首逡逑次將深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用在大規(guī)模圖像分類任務(wù)[5]上,,在當(dāng)年的ImageNet圖像逡逑分類競(jìng)賽中大幅度超越了傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)奪得冠軍。此后,基于深度學(xué)習(xí)的計(jì)算機(jī)視逡逑覺(jué)技術(shù)蓬勃發(fā)展,包括VGGNet[6]、GoogLeNet[?l和ResNet[8]在內(nèi)的一系列卷積神經(jīng)網(wǎng)絡(luò)逡逑結(jié)構(gòu)不斷被提出和改進(jìn),促進(jìn)了計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)和應(yīng)用研究。同樣地,這些技術(shù)也逡逑被廣泛應(yīng)用到智能視頻監(jiān)控系統(tǒng)里,深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力以及其端到端的訓(xùn)逡逑練方式成為了智能視頻監(jiān)控系統(tǒng)的極大助力。逡逑然而,智能視頻監(jiān)控與計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)相結(jié)合的研究仍存在諸多挑戰(zhàn)。首先,監(jiān)逡逑控?cái)z像設(shè)備所在的區(qū)域通常場(chǎng)景多變、環(huán)境復(fù)雜
圖2-1本論文涉及的具體應(yīng)用及解決的科學(xué)問(wèn)題逡逑2.2本文解決的科學(xué)問(wèn)題逡逑圖2-1以視頻的語(yǔ)義處理層次為線索,展示了本文涉及的智能視頻監(jiān)控具體應(yīng)用問(wèn)題和逡逑其解決的關(guān)鍵科學(xué)問(wèn)題之間的對(duì)應(yīng)關(guān)系。在本論文中,人群計(jì)數(shù)與障礙物檢測(cè)的研究涉及逡逑的場(chǎng)景建模技術(shù)屬于視頻監(jiān)控的低層處理,它們對(duì)后續(xù)的中高層次處理有著重要的作用;目逡逑標(biāo)朝向估計(jì)和人臉屬性分類涉及的目標(biāo)屬性挖掘技術(shù)屬于視頻監(jiān)控的中層處理,它們?cè)趫?chǎng)逡逑景建模的基礎(chǔ)上為后續(xù)的高層處理提供幫助;視頻摘要涉及視頻的高層語(yǔ)義理解,軌跡預(yù)逡逑測(cè)涉及目標(biāo)行為預(yù)測(cè),它們都屬于監(jiān)控視頻的高層次處理;神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的目的是以逡逑自動(dòng)化的方式設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),它可以適應(yīng)不同的處理層次、任務(wù)和場(chǎng)景,節(jié)省人工逡逑設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所需的精力和時(shí)間,是智能視頻監(jiān)控系統(tǒng)的發(fā)展趨勢(shì)。逡逑2.3相關(guān)工作不足分析逡逑2.3.1視覺(jué)語(yǔ)義表達(dá)不夠充分逡逑盡管深度學(xué)習(xí)在大量的視覺(jué)任務(wù)上取得了成功
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TN948.6;TP183
本文編號(hào):2690488
【圖文】:
目標(biāo)發(fā)現(xiàn)邐I邋目sE別邋j邐語(yǔ)義分析與預(yù)測(cè)逡逑圖1-1智能視頻監(jiān)控技術(shù)的語(yǔ)義層次逡逑通常被認(rèn)為是琛度學(xué)習(xí)技術(shù)的開(kāi)創(chuàng)工作。2012年,Krizhevsky和他的導(dǎo)師Hinton等人W-首逡逑次將深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用在大規(guī)模圖像分類任務(wù)[5]上,,在當(dāng)年的ImageNet圖像逡逑分類競(jìng)賽中大幅度超越了傳統(tǒng)計(jì)算機(jī)視覺(jué)技術(shù)奪得冠軍。此后,基于深度學(xué)習(xí)的計(jì)算機(jī)視逡逑覺(jué)技術(shù)蓬勃發(fā)展,包括VGGNet[6]、GoogLeNet[?l和ResNet[8]在內(nèi)的一系列卷積神經(jīng)網(wǎng)絡(luò)逡逑結(jié)構(gòu)不斷被提出和改進(jìn),促進(jìn)了計(jì)算機(jī)視覺(jué)領(lǐng)域的基礎(chǔ)和應(yīng)用研究。同樣地,這些技術(shù)也逡逑被廣泛應(yīng)用到智能視頻監(jiān)控系統(tǒng)里,深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表達(dá)能力以及其端到端的訓(xùn)逡逑練方式成為了智能視頻監(jiān)控系統(tǒng)的極大助力。逡逑然而,智能視頻監(jiān)控與計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)相結(jié)合的研究仍存在諸多挑戰(zhàn)。首先,監(jiān)逡逑控?cái)z像設(shè)備所在的區(qū)域通常場(chǎng)景多變、環(huán)境復(fù)雜
圖2-1本論文涉及的具體應(yīng)用及解決的科學(xué)問(wèn)題逡逑2.2本文解決的科學(xué)問(wèn)題逡逑圖2-1以視頻的語(yǔ)義處理層次為線索,展示了本文涉及的智能視頻監(jiān)控具體應(yīng)用問(wèn)題和逡逑其解決的關(guān)鍵科學(xué)問(wèn)題之間的對(duì)應(yīng)關(guān)系。在本論文中,人群計(jì)數(shù)與障礙物檢測(cè)的研究涉及逡逑的場(chǎng)景建模技術(shù)屬于視頻監(jiān)控的低層處理,它們對(duì)后續(xù)的中高層次處理有著重要的作用;目逡逑標(biāo)朝向估計(jì)和人臉屬性分類涉及的目標(biāo)屬性挖掘技術(shù)屬于視頻監(jiān)控的中層處理,它們?cè)趫?chǎng)逡逑景建模的基礎(chǔ)上為后續(xù)的高層處理提供幫助;視頻摘要涉及視頻的高層語(yǔ)義理解,軌跡預(yù)逡逑測(cè)涉及目標(biāo)行為預(yù)測(cè),它們都屬于監(jiān)控視頻的高層次處理;神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索的目的是以逡逑自動(dòng)化的方式設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),它可以適應(yīng)不同的處理層次、任務(wù)和場(chǎng)景,節(jié)省人工逡逑設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)所需的精力和時(shí)間,是智能視頻監(jiān)控系統(tǒng)的發(fā)展趨勢(shì)。逡逑2.3相關(guān)工作不足分析逡逑2.3.1視覺(jué)語(yǔ)義表達(dá)不夠充分逡逑盡管深度學(xué)習(xí)在大量的視覺(jué)任務(wù)上取得了成功
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類號(hào)】:TN948.6;TP183
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 黃凱奇;陳曉棠;康運(yùn)鋒;譚鐵牛;;智能視頻監(jiān)控技術(shù)綜述[J];計(jì)算機(jī)學(xué)報(bào);2015年06期
本文編號(hào):2690488
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2690488.html
最近更新
教材專著