面向數(shù)據(jù)中心的高性能重復(fù)數(shù)據(jù)刪除機制研究
發(fā)布時間:2021-04-07 07:43
重復(fù)刪除技術(shù)是當前去除冗余數(shù)據(jù)的一種有效的技術(shù)手段,能夠為大規(guī)模數(shù)據(jù)存儲節(jié)省存儲空間,減少了存儲開銷。隨著數(shù)據(jù)中心的發(fā)展,重復(fù)刪除技術(shù)得到了廣泛的關(guān)注和應(yīng)用。現(xiàn)在的數(shù)據(jù)中心突出的特點是分布式架構(gòu)、系統(tǒng)規(guī)模大、數(shù)據(jù)冗余度高,這給重復(fù)數(shù)據(jù)刪除技術(shù)帶來更大的挑戰(zhàn),亟需高并發(fā)的重刪技術(shù)以提高數(shù)據(jù)吞吐率。為了適應(yīng)數(shù)據(jù)中心的多流數(shù)據(jù)存儲,基于多流排序索引的重刪技術(shù)得到初步研究,具有易擴展、并行度高的特點,能夠極大地提高吞吐率。在此基礎(chǔ)上進行研究分析,我們發(fā)現(xiàn)多流排序索引重刪算法存在著以下兩個問題:1、多個客戶端之間資源分配不均,可能導(dǎo)致單個客戶端性能下降;2、多流并行重刪使指紋過于分散,破壞了數(shù)據(jù)流的局部性,從而影響了存儲數(shù)據(jù)的吞吐率。對此,我們提出相應(yīng)算法有效解決這些問題,完善排序索引結(jié)構(gòu),進一步優(yōu)化重刪性能。具體研究內(nèi)容如下:1)提出了一種基于指紋分布的指紋檢重調(diào)度算法。首先,通過實驗獲取部分數(shù)據(jù)流讀取的指紋頁信息,分析數(shù)據(jù)流在指紋索引表上的指紋分布類型,以及不同的指紋分布類型的數(shù)據(jù)流出現(xiàn)時間延遲的長短。然后,利用數(shù)據(jù)流的指紋大小預(yù)測數(shù)據(jù)流的指紋分布類型設(shè)計分類器。接下來,根據(jù)預(yù)測的指紋分布類...
【文章來源】:天津理工大學(xué)天津市
【文章頁數(shù)】:45 頁
【學(xué)位級別】:碩士
【部分圖文】:
重復(fù)數(shù)據(jù)刪除基本流程
整個分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)的架構(gòu)(如圖 2-2 所示)主要由應(yīng)用服務(wù)器、數(shù)據(jù)重刪服務(wù)器和存儲服務(wù)器三部分組成。應(yīng)用服務(wù)器的主要模塊包括用戶服務(wù)接口、數(shù)據(jù)存儲服務(wù)和存儲代理[36-38]。用戶服務(wù)接口和存儲代理通常成對部署在相同的物理節(jié)點,以減少不必要的網(wǎng)絡(luò)通信開銷。當用戶發(fā)起存儲任務(wù)時,由存儲代理根據(jù)負載均衡器向相應(yīng)的數(shù)據(jù)重刪服務(wù)器發(fā)送任務(wù)請求,在任務(wù)完成后接收結(jié)果。在本地存儲的數(shù)據(jù)包括文件級和數(shù)據(jù)分塊的指紋,以及每個存儲任務(wù)的存儲清單。數(shù)據(jù)存儲服務(wù)器提供了數(shù)據(jù)存儲的功能,通過存儲服務(wù)接口一方面提供數(shù)據(jù)塊的存儲操作;另一方面提供數(shù)據(jù)恢復(fù)的讀取操作。數(shù)據(jù)存儲以容器為單位進行操作,包括多個邏輯上連續(xù)的數(shù)據(jù)塊。通過這種連續(xù)存儲保存了備份數(shù)據(jù)流的內(nèi)容局部性。重復(fù)數(shù)據(jù)刪除服務(wù)器中主要包括數(shù)據(jù)緩存、數(shù)據(jù)指紋索引和服務(wù)接口等功能模塊服務(wù)接口一方面對上層的應(yīng)用服務(wù)器提供功能接口,另一方面對下層的數(shù)據(jù)存儲服務(wù)器提供存儲接口。其中數(shù)據(jù)緩存,包含了最近訪問的數(shù)據(jù)容器,同時在內(nèi)存中保存了備份數(shù)據(jù)流的局部性,這樣可以減少和避免數(shù)據(jù)塊的重復(fù)數(shù)據(jù)檢測(指紋檢測)和相似數(shù)據(jù)檢測帶來的訪問磁盤索引次數(shù)。數(shù)據(jù)指紋索引用來檢索數(shù)據(jù)塊的指紋,從而實現(xiàn)數(shù)據(jù)塊的重刪操作。
第三章 基于指紋分布的檢重調(diào)度算法重刪效率。然而,我們無法提前知道數(shù)據(jù)流的指紋分布范圍,不能準確推出誰會出遲,以及怎樣調(diào)整能緩解延遲。一個值得思考的問題是:怎樣推測哪些數(shù)據(jù)流會出遲,以及是在哪一處出現(xiàn)延遲?本文設(shè)計了一個分類器,它能利用數(shù)據(jù)流的一些基息預(yù)測數(shù)據(jù)流在指紋索引表中的指紋分布狀況。圖 3-1 描述了重刪系統(tǒng)的指紋檢索過程。服務(wù)器接收每個客戶端傳送過來的有序流。數(shù)據(jù)流被客戶端分割成塊,為每一個塊生成一個指紋,構(gòu)成指紋流。指紋用于塊之間的比較。指紋索引表包含了系統(tǒng)中已有數(shù)據(jù)塊的指紋,并有序存于磁盤。指引表被分割成頁,每個頁的大小固定。系統(tǒng)一次從磁盤中讀取一個指紋頁,數(shù)據(jù)流檢重。當所有數(shù)據(jù)流都發(fā)出讀取指紋頁的請求時,將下一個指紋頁讀入內(nèi)存。若數(shù)的數(shù)據(jù)塊已經(jīng)存在于系統(tǒng)中,則無需再次存儲。剔除重復(fù)數(shù)據(jù)塊后,將剩下的數(shù)據(jù)入磁盤。分類器用來分析數(shù)據(jù)流的指紋分布特點,歸類指紋流。調(diào)度器從分類器處分類結(jié)果,結(jié)合每個數(shù)據(jù)流的請求,決策讀取哪一個指紋頁。
本文編號:3123083
【文章來源】:天津理工大學(xué)天津市
【文章頁數(shù)】:45 頁
【學(xué)位級別】:碩士
【部分圖文】:
重復(fù)數(shù)據(jù)刪除基本流程
整個分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)的架構(gòu)(如圖 2-2 所示)主要由應(yīng)用服務(wù)器、數(shù)據(jù)重刪服務(wù)器和存儲服務(wù)器三部分組成。應(yīng)用服務(wù)器的主要模塊包括用戶服務(wù)接口、數(shù)據(jù)存儲服務(wù)和存儲代理[36-38]。用戶服務(wù)接口和存儲代理通常成對部署在相同的物理節(jié)點,以減少不必要的網(wǎng)絡(luò)通信開銷。當用戶發(fā)起存儲任務(wù)時,由存儲代理根據(jù)負載均衡器向相應(yīng)的數(shù)據(jù)重刪服務(wù)器發(fā)送任務(wù)請求,在任務(wù)完成后接收結(jié)果。在本地存儲的數(shù)據(jù)包括文件級和數(shù)據(jù)分塊的指紋,以及每個存儲任務(wù)的存儲清單。數(shù)據(jù)存儲服務(wù)器提供了數(shù)據(jù)存儲的功能,通過存儲服務(wù)接口一方面提供數(shù)據(jù)塊的存儲操作;另一方面提供數(shù)據(jù)恢復(fù)的讀取操作。數(shù)據(jù)存儲以容器為單位進行操作,包括多個邏輯上連續(xù)的數(shù)據(jù)塊。通過這種連續(xù)存儲保存了備份數(shù)據(jù)流的內(nèi)容局部性。重復(fù)數(shù)據(jù)刪除服務(wù)器中主要包括數(shù)據(jù)緩存、數(shù)據(jù)指紋索引和服務(wù)接口等功能模塊服務(wù)接口一方面對上層的應(yīng)用服務(wù)器提供功能接口,另一方面對下層的數(shù)據(jù)存儲服務(wù)器提供存儲接口。其中數(shù)據(jù)緩存,包含了最近訪問的數(shù)據(jù)容器,同時在內(nèi)存中保存了備份數(shù)據(jù)流的局部性,這樣可以減少和避免數(shù)據(jù)塊的重復(fù)數(shù)據(jù)檢測(指紋檢測)和相似數(shù)據(jù)檢測帶來的訪問磁盤索引次數(shù)。數(shù)據(jù)指紋索引用來檢索數(shù)據(jù)塊的指紋,從而實現(xiàn)數(shù)據(jù)塊的重刪操作。
第三章 基于指紋分布的檢重調(diào)度算法重刪效率。然而,我們無法提前知道數(shù)據(jù)流的指紋分布范圍,不能準確推出誰會出遲,以及怎樣調(diào)整能緩解延遲。一個值得思考的問題是:怎樣推測哪些數(shù)據(jù)流會出遲,以及是在哪一處出現(xiàn)延遲?本文設(shè)計了一個分類器,它能利用數(shù)據(jù)流的一些基息預(yù)測數(shù)據(jù)流在指紋索引表中的指紋分布狀況。圖 3-1 描述了重刪系統(tǒng)的指紋檢索過程。服務(wù)器接收每個客戶端傳送過來的有序流。數(shù)據(jù)流被客戶端分割成塊,為每一個塊生成一個指紋,構(gòu)成指紋流。指紋用于塊之間的比較。指紋索引表包含了系統(tǒng)中已有數(shù)據(jù)塊的指紋,并有序存于磁盤。指引表被分割成頁,每個頁的大小固定。系統(tǒng)一次從磁盤中讀取一個指紋頁,數(shù)據(jù)流檢重。當所有數(shù)據(jù)流都發(fā)出讀取指紋頁的請求時,將下一個指紋頁讀入內(nèi)存。若數(shù)的數(shù)據(jù)塊已經(jīng)存在于系統(tǒng)中,則無需再次存儲。剔除重復(fù)數(shù)據(jù)塊后,將剩下的數(shù)據(jù)入磁盤。分類器用來分析數(shù)據(jù)流的指紋分布特點,歸類指紋流。調(diào)度器從分類器處分類結(jié)果,結(jié)合每個數(shù)據(jù)流的請求,決策讀取哪一個指紋頁。
本文編號:3123083
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3123083.html
最近更新
教材專著