云存儲系統(tǒng)文件級數(shù)據(jù)去重方法研究

發(fā)布時間：2020-06-05 10:01

【摘要】：據(jù)統(tǒng)計,全球云存儲系統(tǒng)中有大約百分之三十到百分之六十的重復(fù)數(shù)據(jù),對于普通用戶個人的存儲可以高達百分之七十。然而重復(fù)數(shù)據(jù)處理技術(shù)大多應(yīng)用在備份領(lǐng)域,在文件上傳之前進行重復(fù)數(shù)據(jù)處理研究相對較少。如果對在線數(shù)據(jù)去重進行詳細(xì)設(shè)計無疑會對文件系統(tǒng)整體處理性能帶來巨大的提升。針對云存儲系統(tǒng)中文件系統(tǒng)層基礎(chǔ)上的文件級數(shù)據(jù)去重技術(shù),本文采用了一種客戶端服務(wù)端任務(wù)劃分的文件去重思路。其包含兩個方面:首先是提出基于布隆過濾器的文件預(yù)篩選算法,其次提出了PIA算法用于文件遞增分段摘要計算。最后基于上述方法,本文對整個去重系統(tǒng)進行了設(shè)計。首先,文件上傳后需要經(jīng)過預(yù)篩選環(huán)節(jié),經(jīng)過布隆過濾器和表分區(qū)中文件客觀屬性的對比,系統(tǒng)中不存在的文件將直接上傳,不參與后續(xù)計算。其次,對于系統(tǒng)中可能存在的文件,在PIA算法中進行詳細(xì)的比對,上傳文件后客戶端未完成的工作便由服務(wù)端繼續(xù)完成。本方法在客戶端逐層判斷文件是否已經(jīng)存在于系統(tǒng)中,將判斷為不存在于系統(tǒng)中的文件上傳到服務(wù)端,使之不參與客戶端的后續(xù)計算,達到提升服務(wù)端資源利用率和降低客戶端開銷的目的。最后在FastDFS分布式文件系統(tǒng)中進行試驗,并將本文提出的PIA算法與去其重組件FastDHT的全文件摘要算法對比。實驗結(jié)果表明:在不降低重復(fù)文件刪除率的情況下,本文提出的PIA算法相較于FastDHT的全文件摘要算法,具有時延小,CPU占用率低,內(nèi)存占用低的特點,最優(yōu)情況下去重時延降低至2ms,CPU利用率降低24.17%,內(nèi)存占用率降低37.5%。
【圖文】：

去重,方法,服務(wù)端,數(shù)據(jù)

圖 2.1(a) 傳統(tǒng)數(shù)據(jù)去重方法圖 2.1(b) 本文數(shù)據(jù)去重方法文件預(yù)篩選的目的是根據(jù)文件相關(guān)的信息找出系統(tǒng)中不存在的文件，避免參與來減輕后續(xù)步驟的壓力。同時找出可能相同的文件，，作為比對的目標(biāo)文件。將目標(biāo)的摘要值計算和摘要值比對同時進行，在第一時間發(fā)現(xiàn)文件的不同，進而將文件在傳統(tǒng)方法中，摘要計算作為一個完整的步驟，放在客戶端會造成用戶體驗差在服務(wù)端又會產(chǎn)生資源浪費。針對這一問題，本文設(shè)計的客戶端服務(wù)端任務(wù)劃分方以很好解決這個問題，具體的設(shè)計在后面展開。根據(jù)上面的總體的去重方法，本章后續(xù)部分將對客戶端與服務(wù)端的任務(wù)劃分、預(yù)篩選、摘要算法相關(guān)研究這三個部分進行介紹。2.3 功能設(shè)計出于提升客戶端的用戶體驗、降低服務(wù)端去重資源浪費的考慮，本文設(shè)計了一戶端與服務(wù)端結(jié)合的方法來使得二者優(yōu)勢互補，其核心思想是客戶端判斷文件的性，將不重復(fù)的文件交給服務(wù)端完成計算工作，并在在此基礎(chǔ)上增加了預(yù)篩選過程

任務(wù)劃分,去重,思路,思想

圖 2.2 數(shù)據(jù)去重任務(wù)劃分思路務(wù)劃分思想，本文設(shè)計的方法主要分成了兩個部分。第索引的相關(guān)方法，找出不重復(fù)的文件先行上傳，避免其計算工作，此外在預(yù)篩選環(huán)節(jié)還需要找出可能相同的文方式在第三章進行詳細(xì)的介紹。要計算，本文將其分開放在客戶端和服務(wù)端實現(xiàn)。在客對文件進行數(shù)據(jù)重復(fù)性的驗證，采用的是邊計算邊比對便不上傳，反之，判定為不重復(fù)的文件可以繼續(xù)執(zhí)行后客戶端已經(jīng)確認(rèn)文件不重復(fù)的情況下，補充計算文件的下一次比對其他文件時使用，因此，此處只計算而不用四章進行詳細(xì)的介紹。然服務(wù)端任務(wù)劃分只有一步，但實際情況中，上傳的大務(wù)端仍然承擔(dān)了主要的計算任務(wù)，而只有那些完全重復(fù)程，可以認(rèn)為任務(wù)劃分比較合理。
【學(xué)位授予單位】：武漢紡織大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2019
【分類號】：TP333;TP301.6

【參考文獻】

相關(guān)碩士學(xué)位論文前6條

1 朱帥;基于FastDFS的云存儲文件系統(tǒng)性能優(yōu)化設(shè)計與實現(xiàn)[D];東南大學(xué);2017年

2 孔德云;基于FastDFS的大并發(fā)問題的研究與應(yīng)用[D];中北大學(xué);2017年

3 郝鵬飛;大數(shù)據(jù)模型分析平臺下的數(shù)據(jù)溯源關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2017年

4 趙光亮;基于Ajax和改進MD5算法的數(shù)字簽名技術(shù)研究與應(yīng)用[D];湖南大學(xué);2016年

5 胡維政;針對文件的在線去重系統(tǒng)設(shè)計與實現(xiàn)[D];華中科技大學(xué);2016年

6 劉俊強;基于FastDFS云存儲系統(tǒng)的研究與設(shè)計[D];電子科技大學(xué);2016年

本文編號：2697881

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2697881.html

上一篇：信息技術(shù)產(chǎn)品的倫理責(zé)任分析
下一篇：基于LDAP集群的分布式系統(tǒng)研究與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

云存儲系統(tǒng)文件級數(shù)據(jù)去重方法研究