基于HBase的海量圖片存儲與快速檢索技術(shù)研究
發(fā)布時間:2022-01-19 16:01
Web2.0時代的到來使得越來越多的圖片需要被存儲到數(shù)據(jù)庫中,海量的圖片信息、非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)、頻繁的讀寫操作都為數(shù)據(jù)存儲提供了難度。如何高效的存儲海量圖片數(shù)據(jù)是一個值得關(guān)注的話題,大數(shù)據(jù)的出現(xiàn)為我們解決海量圖片存儲提供了新的思路。論文針對人臉海量圖片的特點和存儲需求以及對分布式存儲框架的對比,提出了基于HBase的海量圖片解決方案,并采用了Master/Slaver分布式存儲結(jié)構(gòu)。為了提高圖片數(shù)據(jù)的可靠性,構(gòu)建HA高可用架構(gòu)提高系統(tǒng)的可靠性和容錯性。在圖片存儲方面,為了提高海量圖片的插入效率,針對不同的圖片來源設(shè)計不同的表和入庫方式。針對其中的大規(guī)模人臉抓拍數(shù)據(jù)以及非結(jié)構(gòu)化的人物信息設(shè)計了分布式存儲主鍵,成功的解決HBase在高并發(fā)情況數(shù)據(jù)不平衡的問題,提高了region各區(qū)域的負載均衡。由于人臉圖片是小文件類型,過多會影響集群的存取效率,因此本文在Hadoop中現(xiàn)有的解決方案上進行優(yōu)化,提出一種新的解決方案,首先提取人臉圖片中的特征值,再利用k-means算法將相似度高的圖片小文件合并到大文件中,提高Hadoop中block塊的利用率。在文本檢索方面,由于HBase缺乏二級索引,...
【文章來源】:長江大學湖北省
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
MapReduce體系結(jié)構(gòu)
6圖2-1MapReduce體系結(jié)構(gòu)Figure2-1MapReducearchitectureMap和Reduce是MapReduce處理海量數(shù)據(jù)的核心技術(shù),是由主節(jié)點進行主動的分解結(jié)果。Map階段主要是將任務(wù)分成小塊,即把復雜的任務(wù)分解成為若干個簡單的小塊任務(wù)進行,這些任務(wù)通過主節(jié)點直接分配給子節(jié)點進行計算,每個任務(wù)和任務(wù)之間并沒有相關(guān)的關(guān)系。MapReduce框架要先對大量的數(shù)據(jù)進行拆分排序,然后將結(jié)果和后一階段合并輸出。Reduce階段會對Map階段送來的任務(wù)進行分析,合并,最后處理數(shù)據(jù)。Map過程以及Reduce的過程都是接受的鍵值對形式,但是不同過程中的鍵值對的值以及意義都不一定一樣。且從Map段的接收數(shù)據(jù)到輸出數(shù)據(jù)的過程中都是通過鍵值對傳遞,每個過程都要為鍵值對進行復雜的處理過程,但是最后輸出的Key和Value的值不一定和前面的Key,Value的值是一致的。下面詳細展示了數(shù)據(jù)的傳遞過程:圖2-2MapReduce過程圖Figure2-2MapReduceprocessdiagram
7(2)HDFSHDFS[16]來源于Google的論文GoogleFileSystem(GFS),是Hadoop平臺具備分布式存儲的核心基矗為了能夠高效存儲大文件集,HDFS繼承了其他文件系統(tǒng)中的block塊結(jié)構(gòu),將這些大文件分割成為一個個block塊大小的文件存儲在Hadoop的節(jié)點中,并默認保存著3個副本。在hadoop1.x中block塊大小為設(shè)置為64M,而新版本中block塊大小變成128M,當存儲的文件小于塊大小的時候并不會占用整個block的空間。HDFS文件存儲系統(tǒng)在Hadoop集群中的構(gòu)建上密不可分,是一個主/從體系的結(jié)構(gòu),主要起著存儲海量數(shù)據(jù)的作用,即能夠存儲“超大文件”,能夠達到PB級別。HDFS是屬于一次寫入,可以進行多次讀取的方式(流式讀。,并不支持已寫入數(shù)據(jù)的更新操作,但是能夠允許在文件尾部能夠添加新的數(shù)據(jù),同時也就意味著這些大量數(shù)據(jù)集一旦產(chǎn)生過后,就會被分發(fā)存儲到不同的存儲節(jié)點上,來應(yīng)對不同情況的數(shù)據(jù)處理。HDFS分布式文件存儲系統(tǒng)主要是由NameNode,SecondaryNameNode和DataNode這三個部分組成的,主節(jié)點靠NameNode,SecondaryNameNode處理數(shù)據(jù),DataNode在從節(jié)點中接收分配的任務(wù),如下面圖是HDFS的架構(gòu)圖。圖2-3HDFS架構(gòu)圖Figure2-3HDFSarchitecturediagramDataNode在主節(jié)點中主要是用來管理一系列數(shù)據(jù),并且記錄這些文件以及文件內(nèi)部中的數(shù)據(jù)信息,為了節(jié)約內(nèi)存,DataNode并沒有存儲這些信息。這些信息
【參考文獻】:
期刊論文
[1]基于Elasticsearch的HBase大數(shù)據(jù)二級索引方案[J]. 李傳冰. 電腦知識與技術(shù). 2020(04)
[2]聚類中心初始值選擇方法綜述[J]. 鄧旭冉,超木日力格,郭靜. 中國電子科學研究院學報. 2019(04)
[3]基于海量數(shù)據(jù)的HBase寫入性能測試與優(yōu)化[J]. 青欣,文偉軍,金星,姜鎮(zhèn). 電腦知識與技術(shù). 2019(06)
[4]ZooKeeper的開發(fā)和應(yīng)用[J]. 陳冬梅,常廣炎. 電腦編程技巧與維護. 2017(21)
[5]基于HBase+ ElasticSearch的海量交通數(shù)據(jù)實時存取方案設(shè)計[J]. 董長青,任女爾,張慶余,田玉靖. 大數(shù)據(jù). 2017(01)
[6]基于Redis實現(xiàn)HBase二級索引的方法[J]. 崔丹,史金鑫. 軟件. 2016(11)
[7]面向HBase的大規(guī)模數(shù)據(jù)加載研究[J]. 賀正紅,周婭,文締堯,吳清霞. 計算機系統(tǒng)應(yīng)用. 2016(06)
[8]基于HBase的小文件高效存儲方法[J]. 熊安萍,熊風波. 重慶郵電大學學報(自然科學版). 2016(01)
[9]SQL-DFS:一種基于HDFS的海量小文件存儲系統(tǒng)[J]. 馬志強,楊雙濤,閆瑞,張澤廣. 北京工業(yè)大學學報. 2016(01)
[10]Hadoop高可用解決方案研究[J]. 黃強,沈奇威,李煒. 電信技術(shù). 2015(11)
碩士論文
[1]Hadoop平臺下基于LSH的圖像索引系統(tǒng)的研究與實現(xiàn)[D]. 王永榮.南京郵電大學 2019
[2]Hadoop集群中小文件的存取優(yōu)化研究[D]. 馬振.新疆大學 2019
[3]大容量實時人臉檢索系統(tǒng)及其任務(wù)調(diào)度算法的研究與實現(xiàn)[D]. 王晨曦.北京郵電大學 2019
[4]基于HBase的大數(shù)據(jù)存儲優(yōu)化設(shè)計與性能分析[D]. 溫振蕙.中北大學 2019
[5]基于Redis的分布式緩存系統(tǒng)的設(shè)計與實現(xiàn)[D]. 章鋮.東南大學 2018
[6]基于側(cè)掃聲吶圖像的水下組合導航算法研究[D]. 李凱.國防科技大學 2017
[7]基于HBase的交通流數(shù)據(jù)實時存儲與查詢優(yōu)化方案的設(shè)計與實現(xiàn)[D]. 瞿龍俊.江蘇大學 2017
[8]基于協(xié)處理器機制的HBase檢索速度改進研究[D]. 夏超俊.湖南大學 2015
[9]基于Hadoop的海量圖片云存儲系統(tǒng)研究與設(shè)計[D]. 張衛(wèi)東.中國海洋大學 2014
[10]基于HBase的海量數(shù)據(jù)實時查詢系統(tǒng)設(shè)計與實現(xiàn)[D]. 卓海藝.北京郵電大學 2013
本文編號:3597151
【文章來源】:長江大學湖北省
【文章頁數(shù)】:71 頁
【學位級別】:碩士
【部分圖文】:
MapReduce體系結(jié)構(gòu)
6圖2-1MapReduce體系結(jié)構(gòu)Figure2-1MapReducearchitectureMap和Reduce是MapReduce處理海量數(shù)據(jù)的核心技術(shù),是由主節(jié)點進行主動的分解結(jié)果。Map階段主要是將任務(wù)分成小塊,即把復雜的任務(wù)分解成為若干個簡單的小塊任務(wù)進行,這些任務(wù)通過主節(jié)點直接分配給子節(jié)點進行計算,每個任務(wù)和任務(wù)之間并沒有相關(guān)的關(guān)系。MapReduce框架要先對大量的數(shù)據(jù)進行拆分排序,然后將結(jié)果和后一階段合并輸出。Reduce階段會對Map階段送來的任務(wù)進行分析,合并,最后處理數(shù)據(jù)。Map過程以及Reduce的過程都是接受的鍵值對形式,但是不同過程中的鍵值對的值以及意義都不一定一樣。且從Map段的接收數(shù)據(jù)到輸出數(shù)據(jù)的過程中都是通過鍵值對傳遞,每個過程都要為鍵值對進行復雜的處理過程,但是最后輸出的Key和Value的值不一定和前面的Key,Value的值是一致的。下面詳細展示了數(shù)據(jù)的傳遞過程:圖2-2MapReduce過程圖Figure2-2MapReduceprocessdiagram
7(2)HDFSHDFS[16]來源于Google的論文GoogleFileSystem(GFS),是Hadoop平臺具備分布式存儲的核心基矗為了能夠高效存儲大文件集,HDFS繼承了其他文件系統(tǒng)中的block塊結(jié)構(gòu),將這些大文件分割成為一個個block塊大小的文件存儲在Hadoop的節(jié)點中,并默認保存著3個副本。在hadoop1.x中block塊大小為設(shè)置為64M,而新版本中block塊大小變成128M,當存儲的文件小于塊大小的時候并不會占用整個block的空間。HDFS文件存儲系統(tǒng)在Hadoop集群中的構(gòu)建上密不可分,是一個主/從體系的結(jié)構(gòu),主要起著存儲海量數(shù)據(jù)的作用,即能夠存儲“超大文件”,能夠達到PB級別。HDFS是屬于一次寫入,可以進行多次讀取的方式(流式讀。,并不支持已寫入數(shù)據(jù)的更新操作,但是能夠允許在文件尾部能夠添加新的數(shù)據(jù),同時也就意味著這些大量數(shù)據(jù)集一旦產(chǎn)生過后,就會被分發(fā)存儲到不同的存儲節(jié)點上,來應(yīng)對不同情況的數(shù)據(jù)處理。HDFS分布式文件存儲系統(tǒng)主要是由NameNode,SecondaryNameNode和DataNode這三個部分組成的,主節(jié)點靠NameNode,SecondaryNameNode處理數(shù)據(jù),DataNode在從節(jié)點中接收分配的任務(wù),如下面圖是HDFS的架構(gòu)圖。圖2-3HDFS架構(gòu)圖Figure2-3HDFSarchitecturediagramDataNode在主節(jié)點中主要是用來管理一系列數(shù)據(jù),并且記錄這些文件以及文件內(nèi)部中的數(shù)據(jù)信息,為了節(jié)約內(nèi)存,DataNode并沒有存儲這些信息。這些信息
【參考文獻】:
期刊論文
[1]基于Elasticsearch的HBase大數(shù)據(jù)二級索引方案[J]. 李傳冰. 電腦知識與技術(shù). 2020(04)
[2]聚類中心初始值選擇方法綜述[J]. 鄧旭冉,超木日力格,郭靜. 中國電子科學研究院學報. 2019(04)
[3]基于海量數(shù)據(jù)的HBase寫入性能測試與優(yōu)化[J]. 青欣,文偉軍,金星,姜鎮(zhèn). 電腦知識與技術(shù). 2019(06)
[4]ZooKeeper的開發(fā)和應(yīng)用[J]. 陳冬梅,常廣炎. 電腦編程技巧與維護. 2017(21)
[5]基于HBase+ ElasticSearch的海量交通數(shù)據(jù)實時存取方案設(shè)計[J]. 董長青,任女爾,張慶余,田玉靖. 大數(shù)據(jù). 2017(01)
[6]基于Redis實現(xiàn)HBase二級索引的方法[J]. 崔丹,史金鑫. 軟件. 2016(11)
[7]面向HBase的大規(guī)模數(shù)據(jù)加載研究[J]. 賀正紅,周婭,文締堯,吳清霞. 計算機系統(tǒng)應(yīng)用. 2016(06)
[8]基于HBase的小文件高效存儲方法[J]. 熊安萍,熊風波. 重慶郵電大學學報(自然科學版). 2016(01)
[9]SQL-DFS:一種基于HDFS的海量小文件存儲系統(tǒng)[J]. 馬志強,楊雙濤,閆瑞,張澤廣. 北京工業(yè)大學學報. 2016(01)
[10]Hadoop高可用解決方案研究[J]. 黃強,沈奇威,李煒. 電信技術(shù). 2015(11)
碩士論文
[1]Hadoop平臺下基于LSH的圖像索引系統(tǒng)的研究與實現(xiàn)[D]. 王永榮.南京郵電大學 2019
[2]Hadoop集群中小文件的存取優(yōu)化研究[D]. 馬振.新疆大學 2019
[3]大容量實時人臉檢索系統(tǒng)及其任務(wù)調(diào)度算法的研究與實現(xiàn)[D]. 王晨曦.北京郵電大學 2019
[4]基于HBase的大數(shù)據(jù)存儲優(yōu)化設(shè)計與性能分析[D]. 溫振蕙.中北大學 2019
[5]基于Redis的分布式緩存系統(tǒng)的設(shè)計與實現(xiàn)[D]. 章鋮.東南大學 2018
[6]基于側(cè)掃聲吶圖像的水下組合導航算法研究[D]. 李凱.國防科技大學 2017
[7]基于HBase的交通流數(shù)據(jù)實時存儲與查詢優(yōu)化方案的設(shè)計與實現(xiàn)[D]. 瞿龍俊.江蘇大學 2017
[8]基于協(xié)處理器機制的HBase檢索速度改進研究[D]. 夏超俊.湖南大學 2015
[9]基于Hadoop的海量圖片云存儲系統(tǒng)研究與設(shè)計[D]. 張衛(wèi)東.中國海洋大學 2014
[10]基于HBase的海量數(shù)據(jù)實時查詢系統(tǒng)設(shè)計與實現(xiàn)[D]. 卓海藝.北京郵電大學 2013
本文編號:3597151
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3597151.html
最近更新
教材專著