面向大規(guī)模圖片搜索的基于錨圖哈希的半監(jiān)督度量學(xué)習(xí)算法
發(fā)布時(shí)間:2020-06-07 19:55
【摘要】:由于因特網(wǎng)和智能終端的普及,人們所面對的數(shù)據(jù)通常具有海量高維的特征,在大規(guī)模數(shù)據(jù)集里進(jìn)行快速的相似性搜索有著很重要的應(yīng)用價(jià)值;诠5乃阉魉惴ǹ梢园迅呔S的數(shù)據(jù)映射到低維的二進(jìn)制編碼,在保留原始空間近鄰關(guān)系的同時(shí)提高了計(jì)算效率,并且極大地減少了存儲空間的占用,因而,基于哈希的相似性搜索技術(shù)已廣泛應(yīng)用于機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和多媒體等領(lǐng)域。本文提出了基于錨圖哈希的半監(jiān)督度量學(xué)習(xí)算法(Semi-supervised Metric Learning Based Anchor Graph Hashing,MLAGH),學(xué)習(xí)最優(yōu)的距離度量以保留圖片的語義和特征相似性,并在此基礎(chǔ)上利用錨哈希技術(shù)把相似的圖片映射成相似的二進(jìn)制碼元,以便于圖片檢索。具體學(xué)習(xí)過程包括:首先,在特征空間中構(gòu)建圖片的相似圖,應(yīng)用分簇算法在相似圖中抽樣出錨點(diǎn),并獲得樣本和錨點(diǎn)的三元組關(guān)系。然后,利用樣本和錨點(diǎn)的標(biāo)記平滑性假設(shè)和三元組在特征空間中的距離限制構(gòu)建目標(biāo)函數(shù),采用隨機(jī)梯度下降法最小化目標(biāo)函數(shù)以得到最優(yōu)的距離度量。更進(jìn)一步,引入懲罰因子減少隨機(jī)梯度下降的迭代次數(shù)以減少算法的時(shí)間開銷,提高算法的運(yùn)行效率。最后,在兩個(gè)公共的大規(guī)模圖片數(shù)據(jù)集中進(jìn)行圖片檢索實(shí)驗(yàn),并和常用的哈希算法進(jìn)行性能對比分析,從而驗(yàn)證了本文提出算法在檢索的精度和時(shí)間開銷方面的優(yōu)越性。
【圖文】:
圖 1.1 (a)圖片最近鄰搜索示意圖;(b)圖片最近鄰搜索實(shí)際應(yīng)用示意圖應(yīng)用在圖片相似性搜索領(lǐng)域中的技術(shù)有線性搜索方法,基于樹的搜索方法和基于哈希的搜索方法等。線性搜索方法就是對數(shù)據(jù)庫中的所有圖片逐個(gè)遍歷,找到查詢圖片的近似圖片。這樣做可以獲得精確的結(jié)果,但是效率很低。特別是當(dāng)數(shù)據(jù)規(guī)模很大時(shí),線性搜索方法就會因?yàn)闀a(chǎn)生極大的計(jì)算復(fù)雜度和需要大量的存儲空間而變得不再合適。在大數(shù)據(jù)應(yīng)用中,圖片的相似性搜索通常等價(jià)于近似最近鄰搜索問題(Approximate Nearest Neighbors,ANN),解決近似最近鄰搜索問題的一種傳統(tǒng)方式是使用基于樹的搜索算法[9]。如果數(shù)據(jù)庫中樣本數(shù)量為 n,那么基于樹的 ANN 搜索的時(shí)間復(fù)雜度為 O(logn)。在數(shù)據(jù)的維度較低時(shí),,基于樹的搜索方法由于較高的查詢效率通常可以獲得較好的性能。但是在大數(shù)據(jù)時(shí)代,我們所面對的數(shù)據(jù)較之以前,不論從數(shù)據(jù)的數(shù)量還是數(shù)據(jù)本身的特征維度上都在急劇增加。在數(shù)據(jù)維度很高的情況下,基于樹的搜索算法的性能將會急劇下降。這就要求我們要采取更為有效的方式去解決海量高維數(shù)據(jù)環(huán)境下的相似性搜索問題,由于基于哈希的搜索方法相似性搜索的計(jì)算效率非常高。而且哈希算法把圖片生成的哈希索引碼值,而不是圖片本身存儲到內(nèi)存中。所
學(xué)碩士研究生學(xué)位論文 第中的距離較遠(yuǎn)。從語義標(biāo)記角度分析,中間圖片和右邊圖片具有相同的語左邊圖片的語義標(biāo)記是“自由女神”。所以,無論從特征空間還是語義空間右邊圖片的相似性都更高,它們和左邊圖片的相似性都要更低。使用在訓(xùn)到的哈希函數(shù),把圖片映射為 8 比特的二進(jìn)制編碼后,可以看到中間圖片漢明距離很小,而它們和左邊圖片編碼的漢明距離很大。
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.41;TP181
本文編號:2701920
【圖文】:
圖 1.1 (a)圖片最近鄰搜索示意圖;(b)圖片最近鄰搜索實(shí)際應(yīng)用示意圖應(yīng)用在圖片相似性搜索領(lǐng)域中的技術(shù)有線性搜索方法,基于樹的搜索方法和基于哈希的搜索方法等。線性搜索方法就是對數(shù)據(jù)庫中的所有圖片逐個(gè)遍歷,找到查詢圖片的近似圖片。這樣做可以獲得精確的結(jié)果,但是效率很低。特別是當(dāng)數(shù)據(jù)規(guī)模很大時(shí),線性搜索方法就會因?yàn)闀a(chǎn)生極大的計(jì)算復(fù)雜度和需要大量的存儲空間而變得不再合適。在大數(shù)據(jù)應(yīng)用中,圖片的相似性搜索通常等價(jià)于近似最近鄰搜索問題(Approximate Nearest Neighbors,ANN),解決近似最近鄰搜索問題的一種傳統(tǒng)方式是使用基于樹的搜索算法[9]。如果數(shù)據(jù)庫中樣本數(shù)量為 n,那么基于樹的 ANN 搜索的時(shí)間復(fù)雜度為 O(logn)。在數(shù)據(jù)的維度較低時(shí),,基于樹的搜索方法由于較高的查詢效率通常可以獲得較好的性能。但是在大數(shù)據(jù)時(shí)代,我們所面對的數(shù)據(jù)較之以前,不論從數(shù)據(jù)的數(shù)量還是數(shù)據(jù)本身的特征維度上都在急劇增加。在數(shù)據(jù)維度很高的情況下,基于樹的搜索算法的性能將會急劇下降。這就要求我們要采取更為有效的方式去解決海量高維數(shù)據(jù)環(huán)境下的相似性搜索問題,由于基于哈希的搜索方法相似性搜索的計(jì)算效率非常高。而且哈希算法把圖片生成的哈希索引碼值,而不是圖片本身存儲到內(nèi)存中。所
學(xué)碩士研究生學(xué)位論文 第中的距離較遠(yuǎn)。從語義標(biāo)記角度分析,中間圖片和右邊圖片具有相同的語左邊圖片的語義標(biāo)記是“自由女神”。所以,無論從特征空間還是語義空間右邊圖片的相似性都更高,它們和左邊圖片的相似性都要更低。使用在訓(xùn)到的哈希函數(shù),把圖片映射為 8 比特的二進(jìn)制編碼后,可以看到中間圖片漢明距離很小,而它們和左邊圖片編碼的漢明距離很大。
【學(xué)位授予單位】:南京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP391.41;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 李武軍;周志華;;大數(shù)據(jù)哈希學(xué)習(xí):現(xiàn)狀與趨勢[J];科學(xué)通報(bào);2015年Z1期
本文編號:2701920
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2701920.html
最近更新
教材專著