天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機(jī)論文 >

一種基于混合索引的HDFS小文件存儲策略

發(fā)布時間:2020-02-06 12:10
【摘要】:Hadoop分布式文件系統(tǒng)(hadoop distributed file system,HDFS)因其穩(wěn)定高效、低成本等優(yōu)勢,已被很多大型企業(yè)廣泛使用。針對HDFS海量小文件存儲時元數(shù)據(jù)服務(wù)器節(jié)點內(nèi)存開銷過大,合并文件中小文件訪問效率不高的問題,提出一種改進(jìn)的基于混合索引的小文件存儲策略,應(yīng)用分類器分類標(biāo)記小文件,并在元數(shù)據(jù)服務(wù)器建立H-B+樹索引,在存儲節(jié)點根據(jù)小文件大小建立不同的塊內(nèi)索引,達(dá)到提高小文件訪問效率的目標(biāo)。實現(xiàn)中采用緩存結(jié)構(gòu),以提高客戶端訪問的響應(yīng)速度,同時也有利于元數(shù)據(jù)服務(wù)器節(jié)點的內(nèi)存負(fù)載。實驗結(jié)果表明,基于混合索引的小文件存儲策略能有效提高小文件訪問效率,并顯著降低元數(shù)據(jù)節(jié)點內(nèi)存開銷。
【圖文】:

架構(gòu)圖,文件存儲,架構(gòu),文件映射


映射)的B+樹索引,DataNode數(shù)據(jù)端根據(jù)所存儲小文件的大小,有區(qū)別的建立合適的塊內(nèi)索引,以實現(xiàn)小文件高效快速的訪問。圖1小文件存儲架構(gòu)圖Fig.1Smallfilesstoragearchitecture圖2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件標(biāo)簽和小文件映射動態(tài)增長,對上層的小文件標(biāo)簽建立基于小文件標(biāo)簽的可擴(kuò)展散列索引?蓴U(kuò)展散列可節(jié)省空間,當(dāng)索引項增長時,動態(tài)分配桶,,雖然需要維護(hù)桶地址表,這一額外開銷影響非常小,我們可以忽略。傳統(tǒng)的散列索引結(jié)構(gòu)為了提高數(shù)據(jù)映射的隨機(jī)性,相鄰數(shù)據(jù)項在索引項的位置是離散的,這不利于小文件映射記錄的局部性訪問。本文提出基于文件標(biāo)簽的散列索引,除了保持散列索引的處理速度、存儲空間的優(yōu)勢,還能有效提高緩存命中率。該索引結(jié)構(gòu)的主要思路是根據(jù)小文件所屬標(biāo)簽,使用文件標(biāo)簽代替數(shù)據(jù)項作為索引單元,保證同一標(biāo)簽的文件映射記錄被映射到同一個桶中,訪問文件映射記錄時,其緩存命中率有所提高,從而使小文件達(dá)到更高的訪問效率。下層的小文件映射采用B+樹結(jié)構(gòu),由于小文件映射記錄海量且要適應(yīng)多個客戶端并發(fā)請求,Na-meNode內(nèi)存不能承擔(dān)載如此大的負(fù)載,所以小文件映射只能存儲在磁盤上,需按文件塊讀取到內(nèi)存。要有效查詢小文件映射,必須減少磁盤訪問次數(shù),而B+樹索引具有搜索路徑短的特點,適合作為小文件映射的索引結(jié)構(gòu)。B+樹索引的搜索路徑小于[log[n/2]()K](n為結(jié)點的階,K為索引項的總數(shù)量)。例如,結(jié)點的大小一般為磁盤塊大小(4KByte),如果搜索碼大小為32Byte,n=4×210/32=100,如果索引項有1000000個,一次查詢訪問磁盤次數(shù)為log[100/2](1000000)=4次。再加上緩存的作用,訪問磁盤的次數(shù)更少。

索引,策略,文件映射


映射)的B+樹索引,DataNode數(shù)據(jù)端根據(jù)所存儲小文件的大小,有區(qū)別的建立合適的塊內(nèi)索引,以實現(xiàn)小文件高效快速的訪問。圖1小文件存儲架構(gòu)圖Fig.1Smallfilesstoragearchitecture圖2混合索引策略Fig.2Hybridindexstrategy本文混合索引策略中,由于小文件標(biāo)簽和小文件映射動態(tài)增長,對上層的小文件標(biāo)簽建立基于小文件標(biāo)簽的可擴(kuò)展散列索引?蓴U(kuò)展散列可節(jié)省空間,當(dāng)索引項增長時,動態(tài)分配桶,雖然需要維護(hù)桶地址表,這一額外開銷影響非常小,我們可以忽略。傳統(tǒng)的散列索引結(jié)構(gòu)為了提高數(shù)據(jù)映射的隨機(jī)性,相鄰數(shù)據(jù)項在索引項的位置是離散的,這不利于小文件映射記錄的局部性訪問。本文提出基于文件標(biāo)簽的散列索引,除了保持散列索引的處理速度、存儲空間的優(yōu)勢,還能有效提高緩存命中率。該索引結(jié)構(gòu)的主要思路是根據(jù)小文件所屬標(biāo)簽,使用文件標(biāo)簽代替數(shù)據(jù)項作為索引單元,保證同一標(biāo)簽的文件映射記錄被映射到同一個桶中,訪問文件映射記錄時,其緩存命中率有所提高,從而使小文件達(dá)到更高的訪問效率。下層的小文件映射采用B+樹結(jié)構(gòu),由于小文件映射記錄海量且要適應(yīng)多個客戶端并發(fā)請求,Na-meNode內(nèi)存不能承擔(dān)載如此大的負(fù)載,所以小文件映射只能存儲在磁盤上,需按文件塊讀取到內(nèi)存。要有效查詢小文件映射,必須減少磁盤訪問次數(shù),而B+樹索引具有搜索路徑短的特點,適合作為小文件映射的索引結(jié)構(gòu)。B+樹索引的搜索路徑小于[log[n/2]()K](n為結(jié)點的階,K為索引項的總數(shù)量)。例如,結(jié)點的大小一般為磁盤塊大小(4KByte),如果搜索碼大小為32Byte,n=4×210/32=100,如果索引項有1000000個,一次查詢訪問磁盤次數(shù)為log[100/2](1000000)=4次。再加上緩存的作用,訪問磁盤的次數(shù)更少。

【參考文獻(xiàn)】

相關(guān)期刊論文 前3條

1 郝杰;逯彥博;劉鑫吉;夏樹濤;;分布式存儲中的再生碼綜述[J];重慶郵電大學(xué)學(xué)報(自然科學(xué)版);2013年01期

2 趙躍龍;謝曉玲;蔡詠才;王國華;劉霖;;一種性能優(yōu)化的小文件存儲訪問策略的研究[J];計算機(jī)研究與發(fā)展;2012年07期

3 王鈴惠;李小勇;張軼彬;;海量小文件存儲文件系統(tǒng)研究綜述[J];計算機(jī)應(yīng)用與軟件;2012年08期

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 董新華;李瑞軒;周灣灣;王聰;薛正元;廖東杰;;Hadoop系統(tǒng)性能優(yōu)化與功能增強(qiáng)綜述[J];計算機(jī)研究與發(fā)展;2013年S2期

2 陳渝;;基于Cache的海量圖片存取優(yōu)化方案[J];計算機(jī)測量與控制;2014年08期

3 英昌甜;于炯;魯亮;劉建礦;;基于小文件的內(nèi)存云存儲優(yōu)化策略[J];計算機(jī)應(yīng)用;2014年11期

4 楊洪章;張軍偉;許魯;劉振軍;;基于pNFS的小文件間數(shù)據(jù)預(yù)讀機(jī)制研究[J];計算機(jī)研究與發(fā)展;2014年S1期

5 徐教顯;王雅文;;基于緩存估算模型的代碼測試系統(tǒng)性能優(yōu)化方法[J];軟件;2013年12期

6 程付超;苗放;陳墾;;自適應(yīng)的分布式文件系統(tǒng)元數(shù)據(jù)管理模型[J];計算機(jī)工程與設(shè)計;2014年03期

7 尹穎;林慶;林涵陽;;HDFS中高效存儲小文件的方法[J];計算機(jī)工程與設(shè)計;2015年02期

8 王濤;姚世紅;徐正全;熊煉;;云存儲中面向訪問任務(wù)的小文件合并與預(yù)取策略[J];武漢大學(xué)學(xué)報(信息科學(xué)版);2013年12期

9 周國安;李強(qiáng);陳新;胡旭;;云環(huán)境下海量小文件存儲技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期

10 吳陽;馮徑;;面向高效文件訪問的目錄結(jié)構(gòu)優(yōu)化研究[J];軟件工程師;2014年11期

相關(guān)會議論文 前1條

1 陳驍;尚德生;黨瑞鵬;;探月工程測控應(yīng)用系統(tǒng)遙操作軟件運行模式研究[A];中國宇航學(xué)會深空探測技術(shù)專業(yè)委員會第十屆學(xué)術(shù)年會論文集[C];2013年

相關(guān)碩士學(xué)位論文 前7條

1 羅雄威;SDFS分布式文件系統(tǒng)的研究與設(shè)計[D];華南理工大學(xué);2013年

2 劉伯睿;海量數(shù)據(jù)小文件分布式存儲系統(tǒng)的設(shè)計與實現(xiàn)[D];湖南大學(xué);2013年

3 楊燦;基于HDFS的華圖在線文庫系統(tǒng)數(shù)據(jù)存儲與管理研究[D];中南大學(xué);2013年

4 蔣向陽;基于Hadoop的云安全存儲系統(tǒng)的設(shè)計與實現(xiàn)[D];廣東工業(yè)大學(xué);2014年

5 孔鑫;基于Hadoop的海量小型XML數(shù)據(jù)文件處理技術(shù)的設(shè)計和實現(xiàn)[D];西安電子科技大學(xué);2014年

6 何華;GlusterFS的數(shù)據(jù)分布策略與性能優(yōu)化研究[D];國防科學(xué)技術(shù)大學(xué);2013年

7 趙玉龍;基于Hadoop的海量小文件處理性能研究與優(yōu)化[D];內(nèi)蒙古科技大學(xué);2014年

【二級參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 金海;羅飛;章勤;張浩;;一個基于P2P高性能計算的高效數(shù)據(jù)傳輸協(xié)議[J];計算機(jī)研究與發(fā)展;2006年09期

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周英華;金培權(quán);岳麗華;龔育昌;;基于位置的web搜索索引研究[J];中國科學(xué)技術(shù)大學(xué)學(xué)報;2007年02期

2 陳雍;謝旭升;魏根芽;;Oracle B*樹索引內(nèi)部機(jī)制及其應(yīng)用的研究[J];計算機(jī)與現(xiàn)代化;2008年10期

3 趙娟娟;;嵌入數(shù)據(jù)庫索引機(jī)制及特點研究[J];硅谷;2011年02期

4 高玉良;張濟(jì)強(qiáng);白瑤;;基于Lucene的多索引搜索的研究與應(yīng)用[J];電腦知識與技術(shù);2012年07期

5 陳仲肅;;淺談索引失效原因、對策及其應(yīng)用[J];軟件;2012年07期

6 耿慶田;狄婧;常亮;趙宏偉;;基于B+樹的數(shù)據(jù)索引存儲[J];吉林大學(xué)學(xué)報(理學(xué)版);2013年06期

7 張

本文編號:2576889


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2576889.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1c9fd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com