云存儲系統(tǒng)文件級數(shù)據(jù)去重方法研究
發(fā)布時間:2020-06-05 10:01
【摘要】:據(jù)統(tǒng)計,全球云存儲系統(tǒng)中有大約百分之三十到百分之六十的重復(fù)數(shù)據(jù),對于普通用戶個人的存儲可以高達百分之七十。然而重復(fù)數(shù)據(jù)處理技術(shù)大多應(yīng)用在備份領(lǐng)域,在文件上傳之前進行重復(fù)數(shù)據(jù)處理研究相對較少。如果對在線數(shù)據(jù)去重進行詳細(xì)設(shè)計無疑會對文件系統(tǒng)整體處理性能帶來巨大的提升。針對云存儲系統(tǒng)中文件系統(tǒng)層基礎(chǔ)上的文件級數(shù)據(jù)去重技術(shù),本文采用了一種客戶端服務(wù)端任務(wù)劃分的文件去重思路。其包含兩個方面:首先是提出基于布隆過濾器的文件預(yù)篩選算法,其次提出了PIA算法用于文件遞增分段摘要計算。最后基于上述方法,本文對整個去重系統(tǒng)進行了設(shè)計。首先,文件上傳后需要經(jīng)過預(yù)篩選環(huán)節(jié),經(jīng)過布隆過濾器和表分區(qū)中文件客觀屬性的對比,系統(tǒng)中不存在的文件將直接上傳,不參與后續(xù)計算。其次,對于系統(tǒng)中可能存在的文件,在PIA算法中進行詳細(xì)的比對,上傳文件后客戶端未完成的工作便由服務(wù)端繼續(xù)完成。本方法在客戶端逐層判斷文件是否已經(jīng)存在于系統(tǒng)中,將判斷為不存在于系統(tǒng)中的文件上傳到服務(wù)端,使之不參與客戶端的后續(xù)計算,達到提升服務(wù)端資源利用率和降低客戶端開銷的目的。最后在FastDFS分布式文件系統(tǒng)中進行試驗,并將本文提出的PIA算法與去其重組件FastDHT的全文件摘要算法對比。實驗結(jié)果表明:在不降低重復(fù)文件刪除率的情況下,本文提出的PIA算法相較于FastDHT的全文件摘要算法,具有時延小,CPU占用率低,內(nèi)存占用低的特點,最優(yōu)情況下去重時延降低至2ms,CPU利用率降低24.17%,內(nèi)存占用率降低37.5%。
【圖文】:
圖 2.1(a) 傳統(tǒng)數(shù)據(jù)去重方法 圖 2.1(b) 本文數(shù)據(jù)去重方法文件預(yù)篩選的目的是根據(jù)文件相關(guān)的信息找出系統(tǒng)中不存在的文件,避免參與來減輕后續(xù)步驟的壓力。同時找出可能相同的文件,,作為比對的目標(biāo)文件。將目標(biāo)的摘要值計算和摘要值比對同時進行,在第一時間發(fā)現(xiàn)文件的不同,進而將文件在傳統(tǒng)方法中,摘要計算作為一個完整的步驟,放在客戶端會造成用戶體驗差在服務(wù)端又會產(chǎn)生資源浪費。針對這一問題,本文設(shè)計的客戶端服務(wù)端任務(wù)劃分方以很好解決這個問題,具體的設(shè)計在后面展開。根據(jù)上面的總體的去重方法,本章后續(xù)部分將對客戶端與服務(wù)端的任務(wù)劃分、預(yù)篩選、摘要算法相關(guān)研究這三個部分進行介紹。2.3 功能設(shè)計出于提升客戶端的用戶體驗、降低服務(wù)端去重資源浪費的考慮,本文設(shè)計了一戶端與服務(wù)端結(jié)合的方法來使得二者優(yōu)勢互補,其核心思想是客戶端判斷文件的性,將不重復(fù)的文件交給服務(wù)端完成計算工作,并在在此基礎(chǔ)上增加了預(yù)篩選過程
圖 2.2 數(shù)據(jù)去重任務(wù)劃分思路務(wù)劃分思想,本文設(shè)計的方法主要分成了兩個部分。第索引的相關(guān)方法,找出不重復(fù)的文件先行上傳,避免其計算工作,此外在預(yù)篩選環(huán)節(jié)還需要找出可能相同的文方式在第三章進行詳細(xì)的介紹。要計算,本文將其分開放在客戶端和服務(wù)端實現(xiàn)。在客對文件進行數(shù)據(jù)重復(fù)性的驗證,采用的是邊計算邊比對便不上傳,反之,判定為不重復(fù)的文件可以繼續(xù)執(zhí)行后客戶端已經(jīng)確認(rèn)文件不重復(fù)的情況下,補充計算文件的下一次比對其他文件時使用,因此,此處只計算而不用四章進行詳細(xì)的介紹。然服務(wù)端任務(wù)劃分只有一步,但實際情況中,上傳的大務(wù)端仍然承擔(dān)了主要的計算任務(wù),而只有那些完全重復(fù)程,可以認(rèn)為任務(wù)劃分比較合理。
【學(xué)位授予單位】:武漢紡織大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP333;TP301.6
本文編號:2697881
【圖文】:
圖 2.1(a) 傳統(tǒng)數(shù)據(jù)去重方法 圖 2.1(b) 本文數(shù)據(jù)去重方法文件預(yù)篩選的目的是根據(jù)文件相關(guān)的信息找出系統(tǒng)中不存在的文件,避免參與來減輕后續(xù)步驟的壓力。同時找出可能相同的文件,,作為比對的目標(biāo)文件。將目標(biāo)的摘要值計算和摘要值比對同時進行,在第一時間發(fā)現(xiàn)文件的不同,進而將文件在傳統(tǒng)方法中,摘要計算作為一個完整的步驟,放在客戶端會造成用戶體驗差在服務(wù)端又會產(chǎn)生資源浪費。針對這一問題,本文設(shè)計的客戶端服務(wù)端任務(wù)劃分方以很好解決這個問題,具體的設(shè)計在后面展開。根據(jù)上面的總體的去重方法,本章后續(xù)部分將對客戶端與服務(wù)端的任務(wù)劃分、預(yù)篩選、摘要算法相關(guān)研究這三個部分進行介紹。2.3 功能設(shè)計出于提升客戶端的用戶體驗、降低服務(wù)端去重資源浪費的考慮,本文設(shè)計了一戶端與服務(wù)端結(jié)合的方法來使得二者優(yōu)勢互補,其核心思想是客戶端判斷文件的性,將不重復(fù)的文件交給服務(wù)端完成計算工作,并在在此基礎(chǔ)上增加了預(yù)篩選過程
圖 2.2 數(shù)據(jù)去重任務(wù)劃分思路務(wù)劃分思想,本文設(shè)計的方法主要分成了兩個部分。第索引的相關(guān)方法,找出不重復(fù)的文件先行上傳,避免其計算工作,此外在預(yù)篩選環(huán)節(jié)還需要找出可能相同的文方式在第三章進行詳細(xì)的介紹。要計算,本文將其分開放在客戶端和服務(wù)端實現(xiàn)。在客對文件進行數(shù)據(jù)重復(fù)性的驗證,采用的是邊計算邊比對便不上傳,反之,判定為不重復(fù)的文件可以繼續(xù)執(zhí)行后客戶端已經(jīng)確認(rèn)文件不重復(fù)的情況下,補充計算文件的下一次比對其他文件時使用,因此,此處只計算而不用四章進行詳細(xì)的介紹。然服務(wù)端任務(wù)劃分只有一步,但實際情況中,上傳的大務(wù)端仍然承擔(dān)了主要的計算任務(wù),而只有那些完全重復(fù)程,可以認(rèn)為任務(wù)劃分比較合理。
【學(xué)位授予單位】:武漢紡織大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP333;TP301.6
【參考文獻】
相關(guān)碩士學(xué)位論文 前6條
1 朱帥;基于FastDFS的云存儲文件系統(tǒng)性能優(yōu)化設(shè)計與實現(xiàn)[D];東南大學(xué);2017年
2 孔德云;基于FastDFS的大并發(fā)問題的研究與應(yīng)用[D];中北大學(xué);2017年
3 郝鵬飛;大數(shù)據(jù)模型分析平臺下的數(shù)據(jù)溯源關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2017年
4 趙光亮;基于Ajax和改進MD5算法的數(shù)字簽名技術(shù)研究與應(yīng)用[D];湖南大學(xué);2016年
5 胡維政;針對文件的在線去重系統(tǒng)設(shè)計與實現(xiàn)[D];華中科技大學(xué);2016年
6 劉俊強;基于FastDFS云存儲系統(tǒng)的研究與設(shè)計[D];電子科技大學(xué);2016年
本文編號:2697881
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2697881.html
最近更新
教材專著