深度學(xué)習(xí)下標記受限的視覺識別研究
發(fā)布時間:2020-03-27 13:55
【摘要】:隨著大規(guī)模數(shù)據(jù)時代的到來和計算資源的大力提升,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)技術(shù)在各種視覺識別任務(wù)上取得了突破性的進展。現(xiàn)有的深度學(xué)習(xí)算法以大規(guī)模、標記精確的訓(xùn)練數(shù)據(jù)為前提。然而,標記受限(標記不充分或標記不確定)的視覺識別問題在現(xiàn)實中是非常普遍的,且以往的研究較少,是視覺問題中新的挑戰(zhàn)。本文從特征表示和特征學(xué)習(xí)這兩個角度嘗試解決標記受限的視覺識別問題,其應(yīng)用主要包括單標記圖像識別、多標記圖像識別、場景分類、視頻分類、面部屬性估計、頭部姿態(tài)估計、語義分割等,主要工作包括:1.提出了一個使用深度學(xué)習(xí)特征的圖像識別框架DSP。本文探索了使用深度特征的5個重要因素,分析了它們對特征表示的影響,并提供了相應(yīng)的決策:(1)卷積層的特征由于保留空間信息、計算量小,因而比全連接層特征更有效;(2)Frobenius范數(shù)矩陣標準化比非標準化或l2向量標準化更有效;(3)提出的深層空間金字塔能非常自然地編碼空間信息;(4)FV編碼中使用非常小的高斯分量就可以獲得較高的識別率,這與平常用較大值的經(jīng)驗完全相反;(5)提取多尺度的深度特征可以有效提升識別系統(tǒng)的性能。所提DSP框架實現(xiàn)簡單、高效、準確,有效性在許多標準數(shù)據(jù)集上得到驗證。2.提出了一種判別式分布距離特征編碼方法D3,它可以將視覺對象的一組特征向量有效地編碼為單個向量。在計算機視覺中,視覺對象(圖像或視頻)通常表示為一組描述子向量,設(shè)計強有力的特征表示方法編碼一組向量為單個向量是至關(guān)重要的,F(xiàn)有方法如FV或VLAD是基于生成式角度設(shè)計的,當使用不同類型的描述子向量(如密集的SIFT或深度特征)時,它們的性能會發(fā)生波動。本文提出的D3方法有效地把兩組描述子向量作為兩個分布來比較,并提出一個方向總變分距離(DTVD)來衡量它們的不相似性。此外,本文還提出了一種基于判別式的方法來穩(wěn)健地估計DTVD。D3在視頻動作和圖像識別任務(wù)中表現(xiàn)出卓越的穩(wěn)健性、準確性和高效性。3.提出了一個有效利用標記不確定性協(xié)同學(xué)習(xí)特征和標記分布的深度標記分布學(xué)習(xí)框架DLDL。卷積神經(jīng)網(wǎng)絡(luò)在各種視覺識別任務(wù)中取得了出色的識別性能,其成功最重要的因素之一是大規(guī)模帶有標記的訓(xùn)練集。然而,在諸如年齡估計、頭部姿態(tài)估計、多標記分類和語義分割等領(lǐng)域,很難收集到足夠多且標記精確的訓(xùn)練圖像。幸運的是,這些任務(wù)的標記之間存在不確定信息,這使得它們與傳統(tǒng)分類任務(wù)不同;谶@種觀察,本文將每幅圖像的單值標記轉(zhuǎn)換為離散標記分布,通過深度卷積網(wǎng)絡(luò)最小化預(yù)測分布和真實標記分布之間的Kullback-Leibler散度來學(xué)習(xí)標記分布。該框架能有效地利用標記的不確定性,能夠有效地減小過擬合的風(fēng)險,即使在訓(xùn)練數(shù)據(jù)不充足時也能很好的工作。實驗結(jié)果表明,所提方法在年齡估計和頭部姿態(tài)估計上顯著好于現(xiàn)有方法。同時,它還有效改善了多標記分類和語義分割的識別性能。4.提出了聯(lián)合標記分布學(xué)習(xí)和期望回歸的深度學(xué)習(xí)框架。排序卷積網(wǎng)絡(luò)和DLDL是當前面部屬性(例如年齡或顏值)估計最好的方法。但是,這些方法在訓(xùn)練目標和評估指標之間存在不一致性,因此它們可能不是最理想的。此外,它們一般采用具有大量參數(shù)的圖像分類或人臉識別預(yù)訓(xùn)練模型,這帶來了昂貴的計算成本和存儲開銷。為緩解這些問題,本文設(shè)計了一個輕量級的網(wǎng)絡(luò)結(jié)構(gòu),并提出了一個可以聯(lián)合學(xué)習(xí)標記分布和回歸標記值的統(tǒng)一框架。本文還探究了排序CNN和DLDL之間的關(guān)系,首次證明排序方法本質(zhì)上是隱式地學(xué)習(xí)標記分布,這一結(jié)果將現(xiàn)有排序?qū)W習(xí)方法統(tǒng)一到DLDL框架中。所提框架的有效性已在面部年齡和顏值估計任務(wù)上得到驗證,使用該方法單一模型就可以高效地(參數(shù)減小36倍,預(yù)測速度提升2.6倍)超過當前最好的方法,即使模型參數(shù)進一步減小到0.9M(3.8MB磁盤存儲),本文方法也可以與當前最好的技術(shù)相媲美。
【圖文】:
和語義分割是計算機視覺中三項最基本的識別任務(wù)。除了面向一般對象的識別逡逑夕卜,以人體為對象的行人檢測、人物解析和以人臉為對象的人臉識別、人臉屬逡逑性(年齡、姿態(tài)、顏值、性別和表情等)估計等(如圖1-2所示)是非常重要和基逡逑礎(chǔ)的視覺識別問題。特別是以人臉為中心的視覺問題,由于其可以快速地促進逡逑各種智能化的商業(yè)應(yīng)用,例如安全監(jiān)控、電子支付、廣告精準投放、安全駕駛逡逑等,因此在學(xué)術(shù)界和工業(yè)界也受到了研宄人員的極大關(guān)注。相比于圖像,視頻逡逑數(shù)據(jù)包含更豐富的信息,因此視頻理解更有挑戰(zhàn)性。基于視頻的語義內(nèi)容如人逡逑類行為和復(fù)雜事件等,將視頻片段自動分類至單個或多個類別的視頻分類是繼逡逑圖像分類后的一個關(guān)鍵的視頻理解問題。研究這些視覺識別問題對當代智能化逡逑的推進具有重大的意義。逡逑(a)人臉識別邐(b)年齡估計邐(c)姿態(tài)估計邐(d)顏值評分逡逑圖1-2:以人臉為中心的視覺識別問題包括人臉檢測、識別,年齡估計,姿態(tài)估計和顏值評逡逑分等。逡逑幾十年來,人類對上述視覺問題進行了不懈的探索。回顧計算機視覺發(fā)展逡逑的歷程
征工程”時代的特征提取和學(xué)習(xí)識別的方法相比,深度學(xué)習(xí)將它們整合到一個逡逑統(tǒng)一的框架中。由于深度學(xué)習(xí)能夠自動地將原始數(shù)據(jù)表征為高層的抽象表示,逡逑因此人們也習(xí)慣稱其為“表示學(xué)習(xí)”或“特征學(xué)習(xí)”。圖1-3展示了深度學(xué)習(xí)發(fā)展逡逑過程中一些創(chuàng)新性、革新性的研究成果。逡逑深度學(xué)習(xí)技術(shù)在計算機視覺上第一次真正的突破是在2012年ImageNet逡逑1000類圖像識別挑戰(zhàn)大賽中。Geoffrey邋Hinton的學(xué)生Alex邋Krizhevsky在Ima-逡逑geNet百萬訓(xùn)練數(shù)據(jù)集上
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP391.41;TP181
本文編號:2603054
【圖文】:
和語義分割是計算機視覺中三項最基本的識別任務(wù)。除了面向一般對象的識別逡逑夕卜,以人體為對象的行人檢測、人物解析和以人臉為對象的人臉識別、人臉屬逡逑性(年齡、姿態(tài)、顏值、性別和表情等)估計等(如圖1-2所示)是非常重要和基逡逑礎(chǔ)的視覺識別問題。特別是以人臉為中心的視覺問題,由于其可以快速地促進逡逑各種智能化的商業(yè)應(yīng)用,例如安全監(jiān)控、電子支付、廣告精準投放、安全駕駛逡逑等,因此在學(xué)術(shù)界和工業(yè)界也受到了研宄人員的極大關(guān)注。相比于圖像,視頻逡逑數(shù)據(jù)包含更豐富的信息,因此視頻理解更有挑戰(zhàn)性。基于視頻的語義內(nèi)容如人逡逑類行為和復(fù)雜事件等,將視頻片段自動分類至單個或多個類別的視頻分類是繼逡逑圖像分類后的一個關(guān)鍵的視頻理解問題。研究這些視覺識別問題對當代智能化逡逑的推進具有重大的意義。逡逑(a)人臉識別邐(b)年齡估計邐(c)姿態(tài)估計邐(d)顏值評分逡逑圖1-2:以人臉為中心的視覺識別問題包括人臉檢測、識別,年齡估計,姿態(tài)估計和顏值評逡逑分等。逡逑幾十年來,人類對上述視覺問題進行了不懈的探索。回顧計算機視覺發(fā)展逡逑的歷程
征工程”時代的特征提取和學(xué)習(xí)識別的方法相比,深度學(xué)習(xí)將它們整合到一個逡逑統(tǒng)一的框架中。由于深度學(xué)習(xí)能夠自動地將原始數(shù)據(jù)表征為高層的抽象表示,逡逑因此人們也習(xí)慣稱其為“表示學(xué)習(xí)”或“特征學(xué)習(xí)”。圖1-3展示了深度學(xué)習(xí)發(fā)展逡逑過程中一些創(chuàng)新性、革新性的研究成果。逡逑深度學(xué)習(xí)技術(shù)在計算機視覺上第一次真正的突破是在2012年ImageNet逡逑1000類圖像識別挑戰(zhàn)大賽中。Geoffrey邋Hinton的學(xué)生Alex邋Krizhevsky在Ima-逡逑geNet百萬訓(xùn)練數(shù)據(jù)集上
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2018
【分類號】:TP391.41;TP181
【參考文獻】
相關(guān)期刊論文 前1條
1 尹寶才;孫艷豐;王成章;蓋峗;;BJUT-3D三維人臉數(shù)據(jù)庫及其處理技術(shù)[J];計算機研究與發(fā)展;2009年06期
,本文編號:2603054
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2603054.html
最近更新
教材專著