一種基于混合索引的HDFS小文件存儲策略
【圖文】:
映射)的B+樹索引,DataNode數(shù)據(jù)端根據(jù)所存儲小文件的大小,有區(qū)別的建立合適的塊內(nèi)索引,以實現(xiàn)小文件高效快速的訪問。圖1小文件存儲架構(gòu)圖Fig.1Smallfilesstoragearchitecture圖2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件標(biāo)簽和小文件映射動態(tài)增長,對上層的小文件標(biāo)簽建立基于小文件標(biāo)簽的可擴(kuò)展散列索引?蓴U(kuò)展散列可節(jié)省空間,當(dāng)索引項增長時,動態(tài)分配桶,,雖然需要維護(hù)桶地址表,這一額外開銷影響非常小,我們可以忽略。傳統(tǒng)的散列索引結(jié)構(gòu)為了提高數(shù)據(jù)映射的隨機(jī)性,相鄰數(shù)據(jù)項在索引項的位置是離散的,這不利于小文件映射記錄的局部性訪問。本文提出基于文件標(biāo)簽的散列索引,除了保持散列索引的處理速度、存儲空間的優(yōu)勢,還能有效提高緩存命中率。該索引結(jié)構(gòu)的主要思路是根據(jù)小文件所屬標(biāo)簽,使用文件標(biāo)簽代替數(shù)據(jù)項作為索引單元,保證同一標(biāo)簽的文件映射記錄被映射到同一個桶中,訪問文件映射記錄時,其緩存命中率有所提高,從而使小文件達(dá)到更高的訪問效率。下層的小文件映射采用B+樹結(jié)構(gòu),由于小文件映射記錄海量且要適應(yīng)多個客戶端并發(fā)請求,Na-meNode內(nèi)存不能承擔(dān)載如此大的負(fù)載,所以小文件映射只能存儲在磁盤上,需按文件塊讀取到內(nèi)存。要有效查詢小文件映射,必須減少磁盤訪問次數(shù),而B+樹索引具有搜索路徑短的特點,適合作為小文件映射的索引結(jié)構(gòu)。B+樹索引的搜索路徑小于[log[n/2]()K](n為結(jié)點的階,K為索引項的總數(shù)量)。例如,結(jié)點的大小一般為磁盤塊大小(4KByte),如果搜索碼大小為32Byte,n=4×210/32=100,如果索引項有1000000個,一次查詢訪問磁盤次數(shù)為log[100/2](1000000)=4次。再加上緩存的作用,訪問磁盤的次數(shù)更少。
映射)的B+樹索引,DataNode數(shù)據(jù)端根據(jù)所存儲小文件的大小,有區(qū)別的建立合適的塊內(nèi)索引,以實現(xiàn)小文件高效快速的訪問。圖1小文件存儲架構(gòu)圖Fig.1Smallfilesstoragearchitecture圖2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件標(biāo)簽和小文件映射動態(tài)增長,對上層的小文件標(biāo)簽建立基于小文件標(biāo)簽的可擴(kuò)展散列索引?蓴U(kuò)展散列可節(jié)省空間,當(dāng)索引項增長時,動態(tài)分配桶,雖然需要維護(hù)桶地址表,這一額外開銷影響非常小,我們可以忽略。傳統(tǒng)的散列索引結(jié)構(gòu)為了提高數(shù)據(jù)映射的隨機(jī)性,相鄰數(shù)據(jù)項在索引項的位置是離散的,這不利于小文件映射記錄的局部性訪問。本文提出基于文件標(biāo)簽的散列索引,除了保持散列索引的處理速度、存儲空間的優(yōu)勢,還能有效提高緩存命中率。該索引結(jié)構(gòu)的主要思路是根據(jù)小文件所屬標(biāo)簽,使用文件標(biāo)簽代替數(shù)據(jù)項作為索引單元,保證同一標(biāo)簽的文件映射記錄被映射到同一個桶中,訪問文件映射記錄時,其緩存命中率有所提高,從而使小文件達(dá)到更高的訪問效率。下層的小文件映射采用B+樹結(jié)構(gòu),由于小文件映射記錄海量且要適應(yīng)多個客戶端并發(fā)請求,Na-meNode內(nèi)存不能承擔(dān)載如此大的負(fù)載,所以小文件映射只能存儲在磁盤上,需按文件塊讀取到內(nèi)存。要有效查詢小文件映射,必須減少磁盤訪問次數(shù),而B+樹索引具有搜索路徑短的特點,適合作為小文件映射的索引結(jié)構(gòu)。B+樹索引的搜索路徑小于[log[n/2]()K](n為結(jié)點的階,K為索引項的總數(shù)量)。例如,結(jié)點的大小一般為磁盤塊大小(4KByte),如果搜索碼大小為32Byte,n=4×210/32=100,如果索引項有1000000個,一次查詢訪問磁盤次數(shù)為log[100/2](1000000)=4次。再加上緩存的作用,訪問磁盤的次數(shù)更少。
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 郝杰;逯彥博;劉鑫吉;夏樹濤;;分布式存儲中的再生碼綜述[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2013年01期
2 趙躍龍;謝曉玲;蔡詠才;王國華;劉霖;;一種性能優(yōu)化的小文件存儲訪問策略的研究[J];計算機(jī)研究與發(fā)展;2012年07期
3 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計算機(jī)應(yīng)用與軟件;2012年08期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 董新華;李瑞軒;周灣灣;王聰;薛正元;廖東杰;;Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J];計算機(jī)研究與發(fā)展;2013年S2期
2 陳渝;;基于Cache的海量圖片存取優(yōu)化方案[J];計算機(jī)測量與控制;2014年08期
3 英昌甜;于炯;魯亮;劉建礦;;基于小文件的內(nèi)存云存儲優(yōu)化策略[J];計算機(jī)應(yīng)用;2014年11期
4 楊洪章;張軍偉;許魯;劉振軍;;基于pNFS的小文件間數(shù)據(jù)預(yù)讀機(jī)制研究[J];計算機(jī)研究與發(fā)展;2014年S1期
5 徐教顯;王雅文;;基于緩存估算模型的代碼測試系統(tǒng)性能優(yōu)化方法[J];軟件;2013年12期
6 程付超;苗放;陳墾;;自適應(yīng)的分布式文件系統(tǒng)元數(shù)據(jù)管理模型[J];計算機(jī)工程與設(shè)計;2014年03期
7 尹穎;林慶;林涵陽;;HDFS中高效存儲小文件的方法[J];計算機(jī)工程與設(shè)計;2015年02期
8 王濤;姚世紅;徐正全;熊煉;;云存儲中面向訪問任務(wù)的小文件合并與預(yù)取策略[J];武漢大學(xué)學(xué)報(信息科學(xué)版);2013年12期
9 周國安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
10 吳陽;馮徑;;面向高效文件訪問的目錄結(jié)構(gòu)優(yōu)化研究[J];軟件工程師;2014年11期
相關(guān)會議論文 前1條
1 陳驍;尚德生;黨瑞鵬;;探月工程測控應(yīng)用系統(tǒng)遙操作軟件運行模式研究[A];中國宇航學(xué)會深空探測技術(shù)專業(yè)委員會第十屆學(xué)術(shù)年會論文集[C];2013年
相關(guān)碩士學(xué)位論文 前7條
1 羅雄威;SDFS分布式文件系統(tǒng)的研究與設(shè)計[D];華南理工大學(xué);2013年
2 劉伯睿;海量數(shù)據(jù)小文件分布式存儲系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南大學(xué);2013年
3 楊燦;基于HDFS的華圖在線文庫系統(tǒng)數(shù)據(jù)存儲與管理研究[D];中南大學(xué);2013年
4 蔣向陽;基于Hadoop的云安全存儲系統(tǒng)的設(shè)計與實現(xiàn)[D];廣東工業(yè)大學(xué);2014年
5 孔鑫;基于Hadoop的海量小型XML數(shù)據(jù)文件處理技術(shù)的設(shè)計和實現(xiàn)[D];西安電子科技大學(xué);2014年
6 何華;GlusterFS的數(shù)據(jù)分布策略與性能優(yōu)化研究[D];國防科學(xué)技術(shù)大學(xué);2013年
7 趙玉龍;基于Hadoop的海量小文件處理性能研究與優(yōu)化[D];內(nèi)蒙古科技大學(xué);2014年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 金海;羅飛;章勤;張浩;;一個基于P2P高性能計算的高效數(shù)據(jù)傳輸協(xié)議[J];計算機(jī)研究與發(fā)展;2006年09期
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 周英華;金培權(quán);岳麗華;龔育昌;;基于位置的web搜索索引研究[J];中國科學(xué)技術(shù)大學(xué)學(xué)報;2007年02期
2 陳雍;謝旭升;魏根芽;;Oracle B*樹索引內(nèi)部機(jī)制及其應(yīng)用的研究[J];計算機(jī)與現(xiàn)代化;2008年10期
3 趙娟娟;;嵌入數(shù)據(jù)庫索引機(jī)制及特點研究[J];硅谷;2011年02期
4 高玉良;張濟(jì)強(qiáng);白瑤;;基于Lucene的多索引搜索的研究與應(yīng)用[J];電腦知識與技術(shù);2012年07期
5 陳仲肅;;淺談索引失效原因、對策及其應(yīng)用[J];軟件;2012年07期
6 耿慶田;狄婧;常亮;趙宏偉;;基于B+樹的數(shù)據(jù)索引存儲[J];吉林大學(xué)學(xué)報(理學(xué)版);2013年06期
7 張
本文編號:2576889
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2576889.html