面向自動駕駛場景的高效實(shí)時語義分割方法研究
發(fā)布時間:2021-08-17 19:58
圖像語義分割(Image Semantic Segmentation)是計算機(jī)視覺領(lǐng)域中一項基礎(chǔ)且極具挑戰(zhàn)性的任務(wù),其目標(biāo)旨在估計圖像中每個像素的類別標(biāo)簽,在駕駛輔助、室內(nèi)室外場景解析和三維場景建模等視覺應(yīng)用中發(fā)揮著日益重要的作用。最近,深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Networks,DCNNs)已經(jīng)成為解決圖像語義分割的主流方法,通過使用大量標(biāo)注數(shù)據(jù)(Ground Truth,GT)訓(xùn)練網(wǎng)絡(luò)得到最佳擬合模型,F(xiàn)有方法通過堆疊大量的卷積層等方法構(gòu)建復(fù)雜網(wǎng)絡(luò),盡管取得了顯著的性能提升,但是面臨嚴(yán)重的內(nèi)存消耗和延遲等問題,使得其不適用于實(shí)時應(yīng)用場景,如自動駕駛、增強(qiáng)現(xiàn)實(shí)、物聯(lián)網(wǎng)等。因此,本文基于深度卷積神經(jīng)網(wǎng)絡(luò),就兼具精度與速度的高效自動駕駛場景語義分割方法進(jìn)行了深入研究,具體研究內(nèi)容如下:第一,從輕量級模型設(shè)計的角度出發(fā),本文提出了一種用于實(shí)時語義分割的輕量級編解碼分割方法。該方法通過構(gòu)建非對稱的編碼器-解碼器網(wǎng)絡(luò)以解決實(shí)時語義分割任務(wù)。編碼器提出了一種新穎的基于分解卷積的殘差編碼模塊,解碼器設(shè)計了一個注意力金字塔模塊,以提取密集的特征。實(shí)驗(yàn)結(jié)果表...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:103 頁
【學(xué)位級別】:碩士
【部分圖文】:
CamVid和Cityscapes圖像分割數(shù)據(jù)集標(biāo)注示例
南京郵電大學(xué)碩士研究生學(xué)位論文第二章相關(guān)背景知識介紹7第二章相關(guān)背景知識介紹本章詳細(xì)論述了圖像語義分割的相關(guān)技術(shù)背景。首先對卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)理論進(jìn)行了概述,并介紹了一些典型的卷積神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu),同時對圖像語義分割技術(shù)進(jìn)行了詳細(xì)介紹,包括圖像語義分割技術(shù)評價標(biāo)準(zhǔn),用于自動駕駛場景的分割數(shù)據(jù)集,探討了目前常用的基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法及其優(yōu)缺點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)是計算機(jī)視覺中圖像處理、圖像識別和圖像分析等關(guān)鍵技術(shù)的重要組成部分[23,43]。它的目的是將具有獨(dú)特性質(zhì)的圖像劃分成特定區(qū)域,然后提取圖像的特征。卷積神經(jīng)網(wǎng)絡(luò)引入了卷積層、匯合層和感受野等概念,其中,卷積層使用參數(shù)共享的方式簡化整個模型。具體地,針對圖像的處理過程,通過使用多種卷積核提取不同位置的局部特征,逐漸地堆疊卷積結(jié)構(gòu),完成由低層次到高層次的語義空間映射。2.1.1卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)[23](ConvolutionalNeuralNetworks,CNN)是一類特殊的人工神經(jīng)網(wǎng)絡(luò),它最主要的特點(diǎn)是卷積運(yùn)算操作。其發(fā)展歷程最早可以追溯到20世紀(jì)60年代,加拿大科學(xué)家DavidH.Hubel和TorstenWiesel提出了在貓的視覺中樞里存在“感受野”概念[71,72]。隨后,1980年前后,日本科學(xué)家福島邦彥(KunihikoFukushima)提出了一種層次化的多層人工神經(jīng)網(wǎng)絡(luò)[73]。圖2-1顯示了人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。圖2.1人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)隨著研究的不斷深入,YannLeCun[74]等人于1998年提出基于梯度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5,并將其成功應(yīng)用于手寫數(shù)字字符識別中,在當(dāng)時的技術(shù)條件下取得了低于1%
南京郵電大學(xué)碩士研究生學(xué)位論文第二章相關(guān)背景知識介紹8的錯誤率,LeNet-5是第一個產(chǎn)生商業(yè)價值的卷積神經(jīng)網(wǎng)絡(luò),詳細(xì)結(jié)構(gòu)如圖2-2所示。到了2012年,在計算機(jī)視覺ImageNet圖像分類[39]競賽四周年之際,GeoffreyE.Hinton等人憑借卷積神經(jīng)網(wǎng)絡(luò)Alex-Net[4],以超過第二名近12%的成績一舉奪得了該竟賽冠軍,自此揭開了卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域稱霸的序幕。到了2015年,在改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù)[75](activationfunction)后,卷積網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上的性能第一次超過了人類預(yù)測準(zhǔn)確度。圖2.2LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)近年來,隨著深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)相關(guān)領(lǐng)域研究人員的增多、技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)變得愈寬愈深也更復(fù)雜,深度卷積神經(jīng)網(wǎng)絡(luò)如今已經(jīng)成為視覺領(lǐng)域首選的研究方法?傮w來說,卷積神經(jīng)網(wǎng)絡(luò)是一種層次模型,其主要包括以下幾個組成部分:卷積層、匯合層、非線性變換層以及全連接層。在計算機(jī)視覺中,一般將卷積層的輸出叫做特征圖,卷積操作也被稱為特征提取過程。(1)卷積層(ConvolutionLayer):利用卷積核(也稱作卷積窗,濾波器)在輸入圖像上以一定的步長滑動,進(jìn)行對應(yīng)位置相乘再相加得到輸出特征圖的操作。如圖2.2所示,對于輸入手寫字符圖像大。℉eightWidth,HW)為3232,利用6個大小為55的卷積核卷積后得到的輸出特征圖的大小為62828,其中數(shù)字6即卷積核的個數(shù),也是該層卷積操作輸出特征圖的深度。對于單個輸出特征圖12828來說,它的每個像素點(diǎn)的值均利用一個相同的一定大小的卷積核在輸入圖像上以“滑窗”方式進(jìn)行卷積得到,所以卷積層具有局部連接、權(quán)值共享的特點(diǎn)。(2)匯合層(PoolingLayer,也稱池化層):通常需要在CNN中周期性的插入?yún)R合層以逐漸的降低輸出特征圖的大小,同時減少參數(shù)量
【參考文獻(xiàn)】:
期刊論文
[1]基于語義分割的增強(qiáng)現(xiàn)實(shí)圖像配準(zhǔn)技術(shù)[J]. 卞賢掌,費(fèi)海平,李世強(qiáng). 電子技術(shù)與軟件工程. 2018(23)
[2]深度神經(jīng)網(wǎng)絡(luò)壓縮與加速綜述[J]. 紀(jì)榮嶸,林紹輝,晁飛,吳永堅,黃飛躍. 計算機(jī)研究與發(fā)展. 2018(09)
[3]基于DCNN的圖像語義分割綜述[J]. 魏云超,趙耀. 北京交通大學(xué)學(xué)報. 2016(04)
[4]自適應(yīng)區(qū)域生長算法在醫(yī)學(xué)圖像分割中的應(yīng)用[J]. 陸劍鋒,林海,潘志庚. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報. 2005(10)
碩士論文
[1]基于深度學(xué)習(xí)的道路圖像語義分割算法研究[D]. 張學(xué)濤.山東大學(xué) 2019
[2]基于深度卷積網(wǎng)絡(luò)的道路交通場景感知[D]. 張軍良.電子科技大學(xué) 2019
[3]面向城市道路場景的語義分割模型研究[D]. 范磊.合肥工業(yè)大學(xué) 2019
[4]基于深度學(xué)習(xí)的交通場景理解方法研究[D]. 錢波.大連理工大學(xué) 2018
[5]基于GPU的深度學(xué)習(xí)算法并行化研究[D]. 晉雅茹.東南大學(xué) 2017
[6]基于GPU的深度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法研究[D]. 陳一鳴.華中科技大學(xué) 2015
本文編號:3348397
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:103 頁
【學(xué)位級別】:碩士
【部分圖文】:
CamVid和Cityscapes圖像分割數(shù)據(jù)集標(biāo)注示例
南京郵電大學(xué)碩士研究生學(xué)位論文第二章相關(guān)背景知識介紹7第二章相關(guān)背景知識介紹本章詳細(xì)論述了圖像語義分割的相關(guān)技術(shù)背景。首先對卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)理論進(jìn)行了概述,并介紹了一些典型的卷積神經(jīng)網(wǎng)絡(luò)算法結(jié)構(gòu),同時對圖像語義分割技術(shù)進(jìn)行了詳細(xì)介紹,包括圖像語義分割技術(shù)評價標(biāo)準(zhǔn),用于自動駕駛場景的分割數(shù)據(jù)集,探討了目前常用的基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法及其優(yōu)缺點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)是計算機(jī)視覺中圖像處理、圖像識別和圖像分析等關(guān)鍵技術(shù)的重要組成部分[23,43]。它的目的是將具有獨(dú)特性質(zhì)的圖像劃分成特定區(qū)域,然后提取圖像的特征。卷積神經(jīng)網(wǎng)絡(luò)引入了卷積層、匯合層和感受野等概念,其中,卷積層使用參數(shù)共享的方式簡化整個模型。具體地,針對圖像的處理過程,通過使用多種卷積核提取不同位置的局部特征,逐漸地堆疊卷積結(jié)構(gòu),完成由低層次到高層次的語義空間映射。2.1.1卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)[23](ConvolutionalNeuralNetworks,CNN)是一類特殊的人工神經(jīng)網(wǎng)絡(luò),它最主要的特點(diǎn)是卷積運(yùn)算操作。其發(fā)展歷程最早可以追溯到20世紀(jì)60年代,加拿大科學(xué)家DavidH.Hubel和TorstenWiesel提出了在貓的視覺中樞里存在“感受野”概念[71,72]。隨后,1980年前后,日本科學(xué)家福島邦彥(KunihikoFukushima)提出了一種層次化的多層人工神經(jīng)網(wǎng)絡(luò)[73]。圖2-1顯示了人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)。圖2.1人工神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)隨著研究的不斷深入,YannLeCun[74]等人于1998年提出基于梯度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)LeNet-5,并將其成功應(yīng)用于手寫數(shù)字字符識別中,在當(dāng)時的技術(shù)條件下取得了低于1%
南京郵電大學(xué)碩士研究生學(xué)位論文第二章相關(guān)背景知識介紹8的錯誤率,LeNet-5是第一個產(chǎn)生商業(yè)價值的卷積神經(jīng)網(wǎng)絡(luò),詳細(xì)結(jié)構(gòu)如圖2-2所示。到了2012年,在計算機(jī)視覺ImageNet圖像分類[39]競賽四周年之際,GeoffreyE.Hinton等人憑借卷積神經(jīng)網(wǎng)絡(luò)Alex-Net[4],以超過第二名近12%的成績一舉奪得了該竟賽冠軍,自此揭開了卷積神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺領(lǐng)域稱霸的序幕。到了2015年,在改進(jìn)了卷積神經(jīng)網(wǎng)絡(luò)的激活函數(shù)[75](activationfunction)后,卷積網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上的性能第一次超過了人類預(yù)測準(zhǔn)確度。圖2.2LeNet-5網(wǎng)絡(luò)結(jié)構(gòu)近年來,隨著深度學(xué)習(xí)特別是卷積神經(jīng)網(wǎng)絡(luò)相關(guān)領(lǐng)域研究人員的增多、技術(shù)的飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)變得愈寬愈深也更復(fù)雜,深度卷積神經(jīng)網(wǎng)絡(luò)如今已經(jīng)成為視覺領(lǐng)域首選的研究方法?傮w來說,卷積神經(jīng)網(wǎng)絡(luò)是一種層次模型,其主要包括以下幾個組成部分:卷積層、匯合層、非線性變換層以及全連接層。在計算機(jī)視覺中,一般將卷積層的輸出叫做特征圖,卷積操作也被稱為特征提取過程。(1)卷積層(ConvolutionLayer):利用卷積核(也稱作卷積窗,濾波器)在輸入圖像上以一定的步長滑動,進(jìn)行對應(yīng)位置相乘再相加得到輸出特征圖的操作。如圖2.2所示,對于輸入手寫字符圖像大。℉eightWidth,HW)為3232,利用6個大小為55的卷積核卷積后得到的輸出特征圖的大小為62828,其中數(shù)字6即卷積核的個數(shù),也是該層卷積操作輸出特征圖的深度。對于單個輸出特征圖12828來說,它的每個像素點(diǎn)的值均利用一個相同的一定大小的卷積核在輸入圖像上以“滑窗”方式進(jìn)行卷積得到,所以卷積層具有局部連接、權(quán)值共享的特點(diǎn)。(2)匯合層(PoolingLayer,也稱池化層):通常需要在CNN中周期性的插入?yún)R合層以逐漸的降低輸出特征圖的大小,同時減少參數(shù)量
【參考文獻(xiàn)】:
期刊論文
[1]基于語義分割的增強(qiáng)現(xiàn)實(shí)圖像配準(zhǔn)技術(shù)[J]. 卞賢掌,費(fèi)海平,李世強(qiáng). 電子技術(shù)與軟件工程. 2018(23)
[2]深度神經(jīng)網(wǎng)絡(luò)壓縮與加速綜述[J]. 紀(jì)榮嶸,林紹輝,晁飛,吳永堅,黃飛躍. 計算機(jī)研究與發(fā)展. 2018(09)
[3]基于DCNN的圖像語義分割綜述[J]. 魏云超,趙耀. 北京交通大學(xué)學(xué)報. 2016(04)
[4]自適應(yīng)區(qū)域生長算法在醫(yī)學(xué)圖像分割中的應(yīng)用[J]. 陸劍鋒,林海,潘志庚. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報. 2005(10)
碩士論文
[1]基于深度學(xué)習(xí)的道路圖像語義分割算法研究[D]. 張學(xué)濤.山東大學(xué) 2019
[2]基于深度卷積網(wǎng)絡(luò)的道路交通場景感知[D]. 張軍良.電子科技大學(xué) 2019
[3]面向城市道路場景的語義分割模型研究[D]. 范磊.合肥工業(yè)大學(xué) 2019
[4]基于深度學(xué)習(xí)的交通場景理解方法研究[D]. 錢波.大連理工大學(xué) 2018
[5]基于GPU的深度學(xué)習(xí)算法并行化研究[D]. 晉雅茹.東南大學(xué) 2017
[6]基于GPU的深度神經(jīng)網(wǎng)絡(luò)優(yōu)化方法研究[D]. 陳一鳴.華中科技大學(xué) 2015
本文編號:3348397
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3348397.html
最近更新
教材專著