基于深度學習的圖像檢索
發(fā)布時間:2017-05-21 14:07
本文關鍵詞:基于深度學習的圖像檢索,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著圖像處理的信息量越來越大,基于文本的圖像檢索已越來越不合時宜。對此,研究者逐漸將研究的重心轉向基于內容的圖像檢索,各種基于內容的圖像檢索算法也因此迅速興起。而有效地表示圖像內容對于大規(guī);趦热莸膱D像檢索而言,是一項意義重大的任務。由于二進制哈希碼的計算和存儲效率都比較高,二進制哈希算法已經(jīng)引起了廣泛的關注,但是同時提取SIFT描述子時,會降低算法的計算速度。這其中,深度學習作為目前機器學習研究中最火的一項技術,它可以通過建立模型讓模型自己直接學習圖片的特征,這樣大大降低了因人工提取圖片特征而產(chǎn)生的誤差。而深度學習中的卷積神經(jīng)網(wǎng)絡由于其相對簡單高效,提取的特征比傳統(tǒng)的特征提取算法更為精確,因此成為了目前最常用的一項技術。卷積神經(jīng)網(wǎng)絡在圖像檢索方面已經(jīng)取得了重大突破。卷積神經(jīng)網(wǎng)絡(CNN)的使用不僅可以讓模型通過隱藏層學習到訓練樣本數(shù)據(jù)的二進制表示,而且可以讓模型學習到圖像的表示。首先,本文提出了一個簡單但是高效的深度學習網(wǎng)絡模型卷積神經(jīng)網(wǎng)絡,用此網(wǎng)絡模型可生成二進制哈希編碼,并以此進行快速的圖像檢索。另外,通過在深度卷積神經(jīng)網(wǎng)絡模型中添加一個隱藏屬性,使得這個網(wǎng)絡模型不僅能用領域相關的圖像表示,而且可以去學習一系列的哈希函數(shù)。我們知道,大部分的監(jiān)督學習算法為了學習到圖像的二進制表示,一般都需要兩張圖片作為輸入,而本文的深度學習方法則是通過一張圖片作為輸入來學習圖像的二進制編碼和圖像表示,這樣大大減少了計算量和存儲空間。因此,本文提出的深度學習二進制哈希檢索時,其檢索速率很高,但是檢索精度會有所降低;用浮點性特征做圖像檢索時,其檢索精度高,但是計算量龐大,其檢索速率十分低下。針對這一問題,本文提出了一種綜合的由粗到精的檢索方法,先利用二進制特征初步檢索出與查詢圖片相似的圖片,由于一個二進制編碼可以對應很多不同標簽的圖片,因此,利用二進制特征檢索出來的圖片中有很多干擾圖片,這一步是粗水平的檢索。當我們再利用浮點型特征進一步剔除干擾圖片,這一步是精細水平上的檢索。這樣不但保證了圖像檢索的精度,而且提高了圖像檢索的速度。在不同大小的數(shù)據(jù)集上,我們進行了三類實驗:基于MNIST數(shù)據(jù)集的模型測試、基于CIFAR-10數(shù)據(jù)集的模型測試、基于Yahoo-1M數(shù)據(jù)集的模型測試。從這三類實驗可得出以下結論:隨著數(shù)據(jù)集的增大,本文提出的CNN模型相比于之前的模型仍能保持著高效穩(wěn)定的性能,這進一步表明本文提出的模型適合大規(guī)模的圖像檢索。
【關鍵詞】:圖像檢索 SIFT描述子 深度學習 CNN 哈希
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.41
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 課題研究的背景10-12
- 1.2 國內外研究的現(xiàn)狀12-13
- 1.3 本文的組織結構13-15
- 第2章 相關技術概述15-25
- 2.1 深度學習16-19
- 2.1.1 深度學習的定義16
- 2.1.2 深度學習的優(yōu)勢16-19
- 2.1.3 深度學習的基本思想19
- 2.2 受限玻爾茲曼機(RBM)19-20
- 2.3 特征提取算法20-24
- 2.3.1 高區(qū)分性局部特征算法20-21
- 2.3.2 使用哈希映射的二進制特征21-22
- 2.3.3 直接提取二進制特征22-23
- 2.3.4 二進制特征檢索模型的改進23-24
- 2.3.5 搜索后的幾何驗證24
- 2.4 小結24-25
- 第3章 基于拉普拉斯特征映射的多核卷積神經(jīng)網(wǎng)絡25-40
- 3.1 CAFFE開發(fā)工具26-27
- 3.1.1 Caffe的網(wǎng)絡定義26
- 3.1.2 Caffe的各層的定義26-27
- 3.2 卷積神經(jīng)網(wǎng)絡(CNN)27-29
- 3.3 多核卷積神經(jīng)網(wǎng)絡的建立29-31
- 3.3.1 學習二進制哈希編碼30
- 3.3.2 圖像檢索30-31
- 3.4 卷積層的參數(shù)訓練過程31-33
- 3.5 子采樣層的訓練過程33-34
- 3.6 拉普拉斯特征映射降維34-37
- 3.7 算法的流程37-38
- 3.8 本章小結38-40
- 第4章 模型測試與數(shù)據(jù)分析40-50
- 4.1 數(shù)據(jù)集40-41
- 4.2 評估標準41
- 4.3 基于MNIST數(shù)據(jù)集的模型測試41-43
- 4.4 基于CIFAR-10數(shù)據(jù)集的模型測試43-46
- 4.5 基于YAHOO-1M數(shù)據(jù)集的模型測試46-48
- 4.6 本章小節(jié)48-50
- 第5章 總結與展望50-53
- 5.1 總結50-51
- 5.2 展望51-53
- 參考文獻53-56
- 作者簡介及在學校期間所取得的科研成果56-57
- 致謝57
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 孫玉寶;肖亮;韋志輝;邵文澤;;基于Gabor感知多成份字典的圖像稀疏表示算法研究[J];自動化學報;2008年11期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 孫君頂;基于內容的圖像檢索技術研究[D];西安電子科技大學;2005年
2 夏定元;基于內容的圖像檢索通用技術研究及應用[D];華中科技大學;2004年
中國碩士學位論文全文數(shù)據(jù)庫 前3條
1 陳碩;深度學習神經(jīng)網(wǎng)絡在語音識別中的應用研究[D];華南理工大學;2013年
2 林妙真;基于深度學習的人臉識別研究[D];大連理工大學;2013年
3 謝文蘭;基于BP神經(jīng)網(wǎng)絡的語義風景圖像檢索技術的研究[D];湘潭大學;2009年
本文關鍵詞:基于深度學習的圖像檢索,,由筆耕文化傳播整理發(fā)布。
本文編號:383883
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/383883.html
最近更新
教材專著