基于單次多重目標檢測器的目標檢測算法研究
發(fā)布時間:2021-02-25 17:21
近年來,隨著計算機軟硬件技術的發(fā)展,深度學習、卷積神經(jīng)網(wǎng)絡技術在計算機視覺領域掀起了一股浪潮。卷積神經(jīng)網(wǎng)絡的出現(xiàn),使得圖像中物體特征設計的難題得到了解決,越來越多的研究將卷積神經(jīng)網(wǎng)絡應用在計算機視覺領域。目標檢測作為計算機視覺領域內(nèi)的基礎任務,一直是熱門研究的課題。國內(nèi)外學者提出了多種以卷積神經(jīng)網(wǎng)絡為基礎的目標檢測算法并加以改進,例如R-CNN,Fast R-CNN,Faster R-CNN,RFCN,Mask RCNN,Yolo系列,SSD等目標檢測算法。單次多重目標檢測器(Single Shot Multi Box Detector,SSD)是一種以深度卷積神經(jīng)網(wǎng)絡為基礎的一步法檢測器,其優(yōu)點是檢測速度快,且精度可達到與兩步法檢測器相當?shù)某潭。然?SSD目標檢測算法也依然存在著對小目標物體檢測效果不好、特征提取方式單一、難以在普通機器上對目標進行實時檢測等問題,這些問題限制了SSD目標檢測算法的性能。因此,本文針對SSD目標檢測算法中的不足之處,提出改進方案,本文主要工作內(nèi)容如下:1.針對SSD目標檢測算法的特征提取方式單一的問題,本文提出了一種基于多尺度卷積結構的SSD目標檢測...
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學位級別】:碩士
【部分圖文】:
簡單的人工神經(jīng)網(wǎng)絡
東南大學碩士學位論文圖1.2圖像卷積的操作要數(shù)ZFNet[18],VGGNet[19],GoogleNet[20]和ResNet[21]這四種。ZFNet對AlexNet的改進首先在第一層的卷積核尺寸從11×11降為7×7,同時將卷積時的步長從4降至2。這樣使中間的卷積層擴張從而可以捕捉到更多的信息。VGGNet將網(wǎng)絡的深度擴展到了19層,并且在每個卷積層使用了3x3這種小尺寸的卷積核。結果證明深度對網(wǎng)絡性能有著重要影響。GoogleNet同時增加了網(wǎng)絡的寬度與深度,并且相比于更窄更淺的網(wǎng)絡,其在沒有明顯增多的計算量的情況下使網(wǎng)絡性能明顯增強。綜上所述,卷積神經(jīng)網(wǎng)絡的層數(shù)變深是一個發(fā)展方向,ILSVRC2015冠軍ResNet層數(shù)是是VGGNet的8倍多,AlexNet的20多倍,ResNet與一般意義上的卷積神經(jīng)網(wǎng)絡最大的區(qū)別在于有很多的旁路將輸入直接連接到后面的層,一定程度上解決了層數(shù)過深時難以訓練的問題。通過加深神經(jīng)網(wǎng)絡,算法的非線性性獲得提升,算法可以逼近目標函數(shù)的近似結構,同時進行更好的特征描述。但是,這樣做的缺點是同時增加了網(wǎng)絡結構的整體復雜程度,不僅僅算法的運行速度得到限制,而且網(wǎng)絡變得難以訓練和優(yōu)化,容易發(fā)生過擬合的情況,反向傳播的過程中容易梯度消失。研究人員針對這些問題也展開了很多研究。CNN的基本組成成分是比較一致的。以分類數(shù)字的LeNet-5為例,這個卷積神經(jīng)網(wǎng)絡含有三種類型的神經(jīng)網(wǎng)絡層:卷積層(Convolutionslayer):學習輸入數(shù)據(jù)的特征表示,卷積層由很多的卷積核(convolutionalkernel)組成,卷積核用來與上一層圖像進行計算并得到不同的特征圖(featuremap)。卷積層后有時會加入激活函數(shù)(activationfunction),其給CNN卷積神經(jīng)網(wǎng)絡引入了非線性,常用的有sigmoid、tanh、ReLU函數(shù)。池化層(Poolinglayer):降低卷積層輸出的特征向量,進行下采樣?
第一章緒論分類問題,也可以有效的解決回歸問題。卷積層、池化層和激活函數(shù)層的作用是將原始數(shù)據(jù)進行特征抽取,特征壓縮,特征映射等,與它們不同之處是全連接層則起到將以上層獲得的“分布式特征表示”映射到樣本標記空間的作用。CNN在計算機視覺任務上的應用多種多樣,其中包括圖像分類、物體檢測、物體追蹤、姿態(tài)估計、文本檢測、視覺顯著檢測、行為識別等。本文研究的就是CNN在目標檢測上的應用。1.2.3深度學習方法的目標檢測近年來,卷積神經(jīng)網(wǎng)絡在計算機視覺領域有著越來越多的應用,其中最大的一個原因是,如何人工對圖像數(shù)據(jù)的特征進行設計,即有效的對圖像進行描述,一直是計算機視覺領域的關鍵問題,而卷積神經(jīng)網(wǎng)絡相對與傳統(tǒng)的機器學習方案能夠使圖像能更生動地在計算機中進行表達和表征,這也意味著人們可以把圖像或者視頻中復雜物體特征的設計交給計算機來實現(xiàn)。在基于卷積神經(jīng)網(wǎng)絡的圖像相關算法中,深度卷積神經(jīng)網(wǎng)絡(DeepConvolutionalNeuralNetworks,DCNN)在圖像分類中的準確率創(chuàng)下了新的記錄。此外,GPU計算資源的擴展,以及大規(guī)模數(shù)據(jù)集可用性的提升,使得DCNN成功地應用于圖像分類,進而轉移到目標檢測,接著提出了一系列基于深度卷積神經(jīng)網(wǎng)絡的目標檢測方法。基于深度卷積神經(jīng)網(wǎng)絡的目標檢測算法分類框架圖如圖1.3所示。圖1.3深度學習目標檢測框架圖整體而言,這些檢測器可以分為兩大主要類別:兩步法(two-stage)目標檢測框架,包含一個用于區(qū)域提議(RegionProposal)的預處理步驟,將檢測提議分開,使得整體流程是兩級式的。一步法(one-stage)目標檢測框架,即無區(qū)域提議的框架,這是一種單獨提出的方法,不會將檢測提議分開,使得整個流程是單級式的。5
【參考文獻】:
期刊論文
[1]基于雙線性插值的圖像縮放算法的研究與實現(xiàn)[J]. 王森,楊克儉. 自動化技術與應用. 2008(07)
本文編號:3051302
【文章來源】:東南大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:89 頁
【學位級別】:碩士
【部分圖文】:
簡單的人工神經(jīng)網(wǎng)絡
東南大學碩士學位論文圖1.2圖像卷積的操作要數(shù)ZFNet[18],VGGNet[19],GoogleNet[20]和ResNet[21]這四種。ZFNet對AlexNet的改進首先在第一層的卷積核尺寸從11×11降為7×7,同時將卷積時的步長從4降至2。這樣使中間的卷積層擴張從而可以捕捉到更多的信息。VGGNet將網(wǎng)絡的深度擴展到了19層,并且在每個卷積層使用了3x3這種小尺寸的卷積核。結果證明深度對網(wǎng)絡性能有著重要影響。GoogleNet同時增加了網(wǎng)絡的寬度與深度,并且相比于更窄更淺的網(wǎng)絡,其在沒有明顯增多的計算量的情況下使網(wǎng)絡性能明顯增強。綜上所述,卷積神經(jīng)網(wǎng)絡的層數(shù)變深是一個發(fā)展方向,ILSVRC2015冠軍ResNet層數(shù)是是VGGNet的8倍多,AlexNet的20多倍,ResNet與一般意義上的卷積神經(jīng)網(wǎng)絡最大的區(qū)別在于有很多的旁路將輸入直接連接到后面的層,一定程度上解決了層數(shù)過深時難以訓練的問題。通過加深神經(jīng)網(wǎng)絡,算法的非線性性獲得提升,算法可以逼近目標函數(shù)的近似結構,同時進行更好的特征描述。但是,這樣做的缺點是同時增加了網(wǎng)絡結構的整體復雜程度,不僅僅算法的運行速度得到限制,而且網(wǎng)絡變得難以訓練和優(yōu)化,容易發(fā)生過擬合的情況,反向傳播的過程中容易梯度消失。研究人員針對這些問題也展開了很多研究。CNN的基本組成成分是比較一致的。以分類數(shù)字的LeNet-5為例,這個卷積神經(jīng)網(wǎng)絡含有三種類型的神經(jīng)網(wǎng)絡層:卷積層(Convolutionslayer):學習輸入數(shù)據(jù)的特征表示,卷積層由很多的卷積核(convolutionalkernel)組成,卷積核用來與上一層圖像進行計算并得到不同的特征圖(featuremap)。卷積層后有時會加入激活函數(shù)(activationfunction),其給CNN卷積神經(jīng)網(wǎng)絡引入了非線性,常用的有sigmoid、tanh、ReLU函數(shù)。池化層(Poolinglayer):降低卷積層輸出的特征向量,進行下采樣?
第一章緒論分類問題,也可以有效的解決回歸問題。卷積層、池化層和激活函數(shù)層的作用是將原始數(shù)據(jù)進行特征抽取,特征壓縮,特征映射等,與它們不同之處是全連接層則起到將以上層獲得的“分布式特征表示”映射到樣本標記空間的作用。CNN在計算機視覺任務上的應用多種多樣,其中包括圖像分類、物體檢測、物體追蹤、姿態(tài)估計、文本檢測、視覺顯著檢測、行為識別等。本文研究的就是CNN在目標檢測上的應用。1.2.3深度學習方法的目標檢測近年來,卷積神經(jīng)網(wǎng)絡在計算機視覺領域有著越來越多的應用,其中最大的一個原因是,如何人工對圖像數(shù)據(jù)的特征進行設計,即有效的對圖像進行描述,一直是計算機視覺領域的關鍵問題,而卷積神經(jīng)網(wǎng)絡相對與傳統(tǒng)的機器學習方案能夠使圖像能更生動地在計算機中進行表達和表征,這也意味著人們可以把圖像或者視頻中復雜物體特征的設計交給計算機來實現(xiàn)。在基于卷積神經(jīng)網(wǎng)絡的圖像相關算法中,深度卷積神經(jīng)網(wǎng)絡(DeepConvolutionalNeuralNetworks,DCNN)在圖像分類中的準確率創(chuàng)下了新的記錄。此外,GPU計算資源的擴展,以及大規(guī)模數(shù)據(jù)集可用性的提升,使得DCNN成功地應用于圖像分類,進而轉移到目標檢測,接著提出了一系列基于深度卷積神經(jīng)網(wǎng)絡的目標檢測方法。基于深度卷積神經(jīng)網(wǎng)絡的目標檢測算法分類框架圖如圖1.3所示。圖1.3深度學習目標檢測框架圖整體而言,這些檢測器可以分為兩大主要類別:兩步法(two-stage)目標檢測框架,包含一個用于區(qū)域提議(RegionProposal)的預處理步驟,將檢測提議分開,使得整體流程是兩級式的。一步法(one-stage)目標檢測框架,即無區(qū)域提議的框架,這是一種單獨提出的方法,不會將檢測提議分開,使得整個流程是單級式的。5
【參考文獻】:
期刊論文
[1]基于雙線性插值的圖像縮放算法的研究與實現(xiàn)[J]. 王森,楊克儉. 自動化技術與應用. 2008(07)
本文編號:3051302
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3051302.html
最近更新
教材專著