Hadoop平臺下基于LSH的圖像索引系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時間:2021-10-19 09:44
圖像相似性檢索是計算機(jī)科學(xué)中的一個基礎(chǔ)問題,隨著數(shù)據(jù)特征的維度升高,樹型結(jié)構(gòu)索引算法查找效率急劇下降,這就是很多近鄰搜索遭遇的“維度災(zāi)難”問題,解決這一問題的一種方法就是采用局部敏感哈希算法(Locality Sensitive Hash,LSH)。LSH算法的性能對幾個參數(shù)非常敏感,而這些參數(shù)必須由算法實(shí)現(xiàn)時選擇。同時,傳統(tǒng)的集中式圖像檢索系統(tǒng)當(dāng)面對海量數(shù)據(jù)時就會暴露出性能瓶頸問題。本文針對上述特性及現(xiàn)存方案的一些不足,開展Hadoop平臺下基于LSH算法的圖像索引系統(tǒng)的研究。本文首先研究了圖像檢索的關(guān)鍵技術(shù),分析了Hadoop平臺的結(jié)構(gòu)組成、基本特性等,基于LSH算法利用Hadoop云平臺的Master-Slaver結(jié)構(gòu)來存儲海量圖像數(shù)據(jù),并以此作為分而治之地處理圖像的依據(jù),為海量圖像提供有效的檢索方法。這為全方位的分析和研究圖像檢索奠定了基礎(chǔ),為原型系統(tǒng)設(shè)計與實(shí)現(xiàn)提供了理論和技術(shù)方法?紤]到LSH算法中的參數(shù)與數(shù)據(jù)集有關(guān),本文抽取數(shù)據(jù)集樣本,觀察數(shù)據(jù)集分布,建立數(shù)據(jù)集分布和參數(shù)的關(guān)系模型,提出參數(shù)自適應(yīng)優(yōu)化的方法,有助于提高召回率和準(zhǔn)確率。針對LSH算法參數(shù)選擇困難的特點(diǎn),本文提...
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
Hadoop集群配置信息
圖 4.8 Hadoop 集群配置信息4.3.3 性能測試由于 LSH 算法是基于 Hadoop 的分布式算法,故首先需要驗(yàn)證分布式計算對于算法時間性能的影響程度。由于實(shí)驗(yàn)條件限制,采用的實(shí)現(xiàn)機(jī)器是 1 臺物理機(jī)作為主節(jié)點(diǎn)和 6 臺虛擬機(jī)作為從節(jié)點(diǎn),物理機(jī)主機(jī)名為 master,虛擬機(jī)主機(jī)名為 slaver1,slaver2…slaver6,每臺虛擬機(jī)分配單核 CPU 和 512M 內(nèi)存,磁盤分配 20G,網(wǎng)絡(luò)采用 NAT 方法連接。接下來要驗(yàn)證不同的節(jié)點(diǎn)個數(shù)對實(shí)驗(yàn)運(yùn)行時間的影響,實(shí)驗(yàn)驗(yàn)證時所使用的從節(jié)點(diǎn)個數(shù)分別為 2,3…6。當(dāng)從節(jié)點(diǎn)個數(shù)為 4 的時候,實(shí)驗(yàn)結(jié)果如圖 4.9 所示:
圖 4.9 從節(jié)點(diǎn)個數(shù)為 4 時運(yùn)行時間不同個數(shù)從節(jié)點(diǎn)的運(yùn)行時間如圖 4.10 所示:圖 4.10 不同個數(shù)從節(jié)點(diǎn)和運(yùn)行時間的關(guān)系示意圖從上圖中可以看出,當(dāng)從節(jié)點(diǎn)個數(shù)逐漸遞增的時候,程序運(yùn)行時間逐漸遞減,可以體現(xiàn)出 Hadoop 集群對于 LSH 算法有一定的加速效果,但加速效果會減緩,是由于算法的運(yùn)行速
【參考文獻(xiàn)】:
期刊論文
[1]智慧城市中的大數(shù)據(jù)[J]. 李德仁. 中國建設(shè)信息. 2014(03)
[2]高維數(shù)據(jù)的相似性度量研究[J]. 賀玲,蔡益朝,楊征. 計算機(jī)科學(xué). 2010(05)
[3]HPMR在并行矩陣計算中的應(yīng)用[J]. 鄭啟龍,吳曉偉,房明,王昊,汪勝,王向前. 計算機(jī)工程. 2010(08)
[4]網(wǎng)絡(luò)計算系統(tǒng)的分類研究[J]. 徐志偉,廖華明,余海燕,查禮. 計算機(jī)學(xué)報. 2008(09)
碩士論文
[1]基于Hadoop的圖像檢索算法研究與實(shí)現(xiàn)[D]. 陳永權(quán).華南理工大學(xué) 2013
本文編號:3444631
【文章來源】:南京郵電大學(xué)江蘇省
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
Hadoop集群配置信息
圖 4.8 Hadoop 集群配置信息4.3.3 性能測試由于 LSH 算法是基于 Hadoop 的分布式算法,故首先需要驗(yàn)證分布式計算對于算法時間性能的影響程度。由于實(shí)驗(yàn)條件限制,采用的實(shí)現(xiàn)機(jī)器是 1 臺物理機(jī)作為主節(jié)點(diǎn)和 6 臺虛擬機(jī)作為從節(jié)點(diǎn),物理機(jī)主機(jī)名為 master,虛擬機(jī)主機(jī)名為 slaver1,slaver2…slaver6,每臺虛擬機(jī)分配單核 CPU 和 512M 內(nèi)存,磁盤分配 20G,網(wǎng)絡(luò)采用 NAT 方法連接。接下來要驗(yàn)證不同的節(jié)點(diǎn)個數(shù)對實(shí)驗(yàn)運(yùn)行時間的影響,實(shí)驗(yàn)驗(yàn)證時所使用的從節(jié)點(diǎn)個數(shù)分別為 2,3…6。當(dāng)從節(jié)點(diǎn)個數(shù)為 4 的時候,實(shí)驗(yàn)結(jié)果如圖 4.9 所示:
圖 4.9 從節(jié)點(diǎn)個數(shù)為 4 時運(yùn)行時間不同個數(shù)從節(jié)點(diǎn)的運(yùn)行時間如圖 4.10 所示:圖 4.10 不同個數(shù)從節(jié)點(diǎn)和運(yùn)行時間的關(guān)系示意圖從上圖中可以看出,當(dāng)從節(jié)點(diǎn)個數(shù)逐漸遞增的時候,程序運(yùn)行時間逐漸遞減,可以體現(xiàn)出 Hadoop 集群對于 LSH 算法有一定的加速效果,但加速效果會減緩,是由于算法的運(yùn)行速
【參考文獻(xiàn)】:
期刊論文
[1]智慧城市中的大數(shù)據(jù)[J]. 李德仁. 中國建設(shè)信息. 2014(03)
[2]高維數(shù)據(jù)的相似性度量研究[J]. 賀玲,蔡益朝,楊征. 計算機(jī)科學(xué). 2010(05)
[3]HPMR在并行矩陣計算中的應(yīng)用[J]. 鄭啟龍,吳曉偉,房明,王昊,汪勝,王向前. 計算機(jī)工程. 2010(08)
[4]網(wǎng)絡(luò)計算系統(tǒng)的分類研究[J]. 徐志偉,廖華明,余海燕,查禮. 計算機(jī)學(xué)報. 2008(09)
碩士論文
[1]基于Hadoop的圖像檢索算法研究與實(shí)現(xiàn)[D]. 陳永權(quán).華南理工大學(xué) 2013
本文編號:3444631
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3444631.html
最近更新
教材專著