天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 計算機論文 >

面向大數(shù)據(jù)的高效存儲容量縮減技術研究

發(fā)布時間:2020-07-11 20:54
【摘要】:隨著信息化的發(fā)展,全球數(shù)據(jù)量呈指數(shù)式增長,數(shù)據(jù)中心存儲規(guī)模快速邁向了PB級甚至是EB級,其中包含了大量的冗余數(shù)據(jù)。這些冗余數(shù)據(jù)占用了大量的存儲資源,導致存儲系統(tǒng)性能降低,數(shù)據(jù)存儲和管理成本增加等問題。在此背景下,存儲容量縮減技術在不改變數(shù)據(jù)基本屬性前提下,通過采用重復數(shù)據(jù)刪除技術和數(shù)據(jù)壓縮技術,有效地縮減數(shù)據(jù)量的規(guī)模,提高存儲資源利用率,降低管理成本。存儲容量縮減技術已經(jīng)成為業(yè)界研究的熱點,顯示出重要的學術價值和應用價值。然而,大數(shù)據(jù)的規(guī)模巨大、類型繁多、冗余量龐大以及對數(shù)據(jù)處理的速度要求較高等特點,導致存儲容量縮減技術在面對大數(shù)據(jù)應用時仍然存在許多需要解決的技術問題。例如如何降低數(shù)據(jù)分塊時間開銷,減少冗余數(shù)據(jù)塊發(fā)現(xiàn)時間以及提高數(shù)據(jù)壓縮速度和壓縮率等方面。針對上述問題,從存儲容量縮減技術的數(shù)據(jù)分塊策略、冗余數(shù)據(jù)塊的發(fā)現(xiàn)機制以及數(shù)據(jù)塊的高速壓縮機制等方面進行深入的研究。具體來說,主要從以下三個方面提出了創(chuàng)新性理論或方法:1.基于位串內(nèi)容感知的數(shù)據(jù)分塊策略(Bit-string Content-aware Chunking Strategy,BCCS):圍繞影響數(shù)據(jù)分塊性能的各種因素進行分析和討論,實現(xiàn)了一種新的基于位串的數(shù)字簽名技術,并在此基礎上提出了BCCS。BCCS從數(shù)據(jù)塊每個正文字節(jié)中抽取某一特定比特來構成窗口特征數(shù)據(jù),并使用位操作替代傳統(tǒng)的比較操作。該策略充分利用每一次失敗的匹配嘗試所帶來的特征信息,盡量排除盡可能多的不能匹配位置,從中獲取最大跳躍長度,從而加快二進制串的匹配過程,降低確定塊邊界的CPU資源消耗。實驗結果表明,對于可變數(shù)據(jù)測試集,相對Rabin算法,BCCS的數(shù)據(jù)塊劃分速度最多可以提高197%;對于固定數(shù)據(jù)測試集,相對于FSP算法,BCCS速度僅僅降低10.8%,而其數(shù)據(jù)壓縮率卻較FSP的0.977提高到了1.206,可以提高20%。2.基于二級布隆過濾的冗余數(shù)據(jù)塊發(fā)現(xiàn)機制(Redundant Chunk Query Mechanism based on Two-staged Bloom Filter,RCQM-TBF):針對數(shù)據(jù)指紋(FingerPrint,FP)數(shù)量巨大,不能完全存儲在內(nèi)存中,導致性能下降的問題,提出了RCQM-TBF。RCQM-TBF中第二級布隆過濾器作為第一級布隆過濾器結果的一個整體表現(xiàn),其每一個比特位代表進入相同準二級假陽性誤判狀態(tài)的所有FP。對于FP假陽性訪問,TBF通過降低二級布隆過濾機制中第一級和第二級過濾的假陽性誤判率,快速判斷新到達數(shù)據(jù)塊的非存在性;對于FP正常性訪問,TBF通過建立FP高速緩存鏈表和對應的FP預取機制來減少直接的硬盤訪問,對新到達的數(shù)據(jù)塊存在性進行快速判斷;同時TBF創(chuàng)建了一個具有強全局散列特性的哈希函數(shù)族,減小碰撞發(fā)生的可能性。實驗結果表明,對于非冗余測試數(shù)據(jù)集,RCQM-TBF的FP查詢延遲性能和數(shù)據(jù)塊的存儲性能較采用標準布隆過濾算法的ZHU-BLOOM FILTER最多提升了28%;對于冗余測試數(shù)據(jù)集,RCQM-TBF的存儲速度較ZHU-BLOOM FILTER最多可以提高100%到135%;當擴充服務器內(nèi)存時,理論上RCQM-TBF可管理的存儲數(shù)據(jù)容量最大可以達到64PB。3.基于多矩陣并行匹配的高速數(shù)據(jù)壓縮機制(Parallel Matching LZSS based on Multiple Matrix,PMLZSS-MM):為了加快壓縮速度,并提高存儲容量利用率,提出了PMLZSS-MM。該機制實現(xiàn)了一種GPU平臺下的多矩陣并行匹配工作模式,將需要壓縮的數(shù)據(jù)動態(tài)劃分多個字典串和預讀串,分別將其作為矩陣的縱軸和橫軸,分解到GPU中的不同線程塊中,形成多個矩陣進行并行匹配;而對于需串行執(zhí)行的壓縮編碼生成部分,仍然在CPU上執(zhí)行。通過合理的調(diào)度策略,協(xié)調(diào)兩者共同完成任務。實驗結果表明,PMLZSS-MM容量縮減率有所下降。相對于經(jīng)典CPU平臺上的串行LZSS算法,容量縮減率最多下降了1.5%。但PMLZSS-MM顯著提高了大數(shù)據(jù)的壓縮速度,當字典窗口設置為4KB,預讀數(shù)據(jù)窗口設置為64B時,相對于CPU平臺上的串行LZSS算法,其壓縮吞吐率最大提高了18倍;相對于GPU平臺上的并行CULZSS算法,其壓縮吞吐率最大提高了20.8%。綜上所述,通過采用BCCS,有效地減小數(shù)據(jù)分塊過程中的CPU資源消耗,提高發(fā)現(xiàn)塊邊界的速度;采用RCQM-TBF,提高數(shù)據(jù)指紋查詢速度,獲取高效的查詢速度;引入PMLZSS-MM,進一步補充和優(yōu)化前兩項技術的不足,獲取更高的存儲容量縮減率。
【學位授予單位】:華中科技大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP333
【圖文】:

對比圖,數(shù)據(jù),對比圖,氣象預測


沒有辦法提前知道其結構的數(shù)據(jù),如文本、圖像、視存儲在關系數(shù)據(jù)庫中,而是以文件形式存儲,并且通快速度。大數(shù)據(jù)是一種以實時數(shù)據(jù)處理、實時結果導包含兩個方面:一方面是數(shù)據(jù)產(chǎn)生得快,例如,當用戶日志文件數(shù)據(jù)、傳感器網(wǎng)絡數(shù)據(jù)、GPS 產(chǎn)生的位置非常龐大的數(shù)據(jù)量;另一方面是數(shù)據(jù)處理也要求快速。,隨著時間流逝,數(shù)據(jù)價值會折舊甚至變?yōu)闊o價值。感器的數(shù)據(jù)產(chǎn)生幾秒之后就失去意義了,而氣象預測信也將變得毫無意義。在實際的應用中,例如社交網(wǎng)絡數(shù)據(jù)、電子商務應用800000tes產(chǎn)生的數(shù)據(jù) 可用存儲容量

位串,數(shù)量比,模式,數(shù)據(jù)集


11bit 12bit 13bit 14bit圖 2.20 采用不同長度的模式位串劃分 Chunk 數(shù)量比較如圖2.20所示,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后產(chǎn)生的Chunk數(shù)量;圖2.21,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后的Chunk冗余率。可以觀察到,最終產(chǎn)生的Chunk數(shù)量與模式位串的長度緊密相關。隨著模式長度的增大,所得到的Chunk長度增加,每個子數(shù)據(jù)集Chunking后產(chǎn)生的Chunk數(shù)量按比例減少。當選用模式長度為13bit(對應Chunk預期長度為8KB)時

冗余率,位串,模式,長度


圖 2.20 采用不同長度的模式位串劃分 Chunk 數(shù)量比較如圖2.20所示,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后產(chǎn)生的Chunk數(shù)量;圖2.21,圖中橫軸表示5個子數(shù)據(jù)集,縱軸表示Chunking后的Chunk冗余率?梢杂^察到,最終產(chǎn)生的Chunk數(shù)量與模式位串的長度緊密相關。隨著模式長度的增大,所得到的Chunk長度增加,每個子數(shù)據(jù)集Chunking后產(chǎn)生的Chunk數(shù)量按比例減少。當選用模式長度為13bit(對應Chunk預期長度為8KB)時,其產(chǎn)生的Chunk數(shù)量僅僅為模式長度為11bit(對應Chunk預期長度為2KB)時的25%~35%左右,而Chunk的冗

【相似文獻】

相關期刊論文 前10條

1 史江瑾;王洪生;汪琳;初劍;;存儲容量單位表示方法的探討[J];電子工程師;2006年03期

2 趙國求;;計算機知識點滴[J];武鋼技術;1985年01期

3 顏世科,李桂芬;單板(單片)機系統(tǒng)中存儲容量大于2~N的擴展方法[J];電子與自動化;1997年05期

4 方卉;存儲容量為130MB的軟磁盤驅動器[J];計算機工程;1998年12期

5 任伏兵;一種擴展8096存儲容量的方法[J];自動化儀表;1994年12期

6 ;不斷增大的存儲容量[J];個人電腦;1997年10期

7 AlixL.Paultre;郵票大小的全息媒體擁有高達1GB的存儲容量[J];今日電子;2004年07期

8 Matthew Kendall,Duncan Furness;提高便攜式消費電子的存儲容量[J];電子產(chǎn)品世界;2005年07期

9 周福新;;大存儲容量的激光卡[J];激光與光電子學進展;1986年01期

10 馮蓓;;音樂之旅[J];通信技術;2004年06期

相關會議論文 前1條

1 李曉凡;陳岳瑞;孔宇菲;任久春;繆健;陳良堯;;新型三維高密度光存儲方法的研究[A];上海市激光學會2005年學術年會論文集[C];2005年

相關重要報紙文章 前10條

1 通訊員  邱克忠 記者  賀耀堂;存儲容量蘇北最大[N];連云港日報;2006年

2 丁小魚邋編譯;學會管理存儲容量[N];計算機世界;2007年

3 ;如何增加本地存儲容量[N];網(wǎng)絡世界;2009年

4 ;五個步驟改進存儲容量規(guī)劃[N];網(wǎng)絡世界;2009年

5 本報記者 鄒本X;移動存儲容量也“短斤缺兩”[N];中國消費者報;2005年

6 苗建 編譯;如何應對存儲容量危機?[N];計算機世界;2010年

7 記者 余瀛波;智能手機存儲容量虛標成投訴熱點[N];法制日報;2013年

8 張馳;從容應對存儲容量危機[N];網(wǎng)絡世界;2010年

9 記者 王惜純;手機存儲容量投訴量不小[N];中國質量報;2013年

10 編譯 郭濤;有效遏制存儲年支出增長10%[N];中國計算機報;2009年

相關博士學位論文 前1條

1 周斌;面向大數(shù)據(jù)的高效存儲容量縮減技術研究[D];華中科技大學;2015年

相關碩士學位論文 前2條

1 伊莉婭;面向服務的未來互聯(lián)網(wǎng)絡副本存儲技術及策略[D];北京郵電大學;2015年

2 戴健雄;VXI總線大存儲容量掃描A/D模塊研制[D];哈爾濱工業(yè)大學;2007年



本文編號:2750916

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2750916.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶1c068***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com