一種混合局部恢復(fù)碼及Hitchhiker碼的存儲(chǔ)策略
發(fā)布時(shí)間:2021-08-21 12:31
我們正處于一個(gè)大數(shù)據(jù)的時(shí)代.如今一個(gè)分布式存儲(chǔ)系統(tǒng)需要存放PB數(shù)量級(jí)數(shù)據(jù)的情況越來越常見.這些系統(tǒng)一般由普通商用組件構(gòu)成,其出錯(cuò)率相對(duì)較高.由此,分布式存儲(chǔ)系統(tǒng)需要保證數(shù)據(jù)的可靠性和可用性.多副本和糾刪碼是現(xiàn)在最為常用的技術(shù).相比多副本技術(shù),采用糾刪碼能在同等容錯(cuò)能力下大幅降低存儲(chǔ)開銷.然而,在進(jìn)行數(shù)據(jù)恢復(fù)時(shí),使用傳統(tǒng)的糾刪碼(如Reed-Solomon碼)會(huì)導(dǎo)致系統(tǒng)中產(chǎn)生大量的網(wǎng)絡(luò)帶寬消耗及磁盤讀寫操作,進(jìn)而導(dǎo)致退化讀延遲過高.注意到在系統(tǒng)中數(shù)據(jù)的訪問頻率呈Zipf分布,大多數(shù)數(shù)據(jù)訪問只涉及到少量數(shù)據(jù),而絕大多數(shù)數(shù)據(jù)的被訪頻率很低.根據(jù)這種數(shù)據(jù)訪問的偏斜性,本文提出如下存儲(chǔ)策略以解決采用糾刪碼的系統(tǒng)退化讀延遲過高的問題:對(duì)被訪頻率高的熱數(shù)據(jù)采用低恢復(fù)延遲的糾刪碼(如局部恢復(fù)碼Local Reconstruction Code,LRC)進(jìn)行編碼,而對(duì)被訪頻率低的冷數(shù)據(jù)采用保證最小存儲(chǔ)開銷的糾刪碼(如Hitchhiker碼)進(jìn)行編碼.由于熱數(shù)據(jù)占據(jù)了絕大多數(shù)的數(shù)據(jù)訪問,因此絕大多數(shù)的退化讀也將應(yīng)用在這些熱數(shù)據(jù)上,這樣這一策略就能在整個(gè)系統(tǒng)的角度獲取低恢復(fù)開銷的優(yōu)勢(shì).同時(shí),冷數(shù)據(jù)占據(jù)了系統(tǒng)...
【文章來源】:計(jì)算機(jī)學(xué)報(bào). 2020,43(04)北大核心EICSCD
【文章頁數(shù)】:13 頁
【部分圖文】:
5個(gè)HDFS集群的數(shù)據(jù)訪問頻率分布圖[15],CC{1,2,3,4}表示4個(gè)不同的Cloudera上的集群,F(xiàn)B表示Facebook的一個(gè)實(shí)際集群
(6,2,2)LRC(例)[11]
圖3展示了一個(gè)(10,4)RS碼應(yīng)用于Piggybacki‐ng框架的例子,圖4給出了圖3對(duì)應(yīng)的HH碼.在圖4中,如果要恢復(fù)第一個(gè)數(shù)據(jù)塊,即a1和b1,可以先利用b2、b3、…、b10和f1(b)恢復(fù)b1,進(jìn)而求得f2(b).在讀取a2、a3以及子條帶b中的第12個(gè)子塊f2(b)⊕a1⊕a2⊕a3后,進(jìn)行異或運(yùn)算即可恢復(fù)得到a1.圖4(10,4)Hitchhiker碼(例)[12]
本文編號(hào):3355607
【文章來源】:計(jì)算機(jī)學(xué)報(bào). 2020,43(04)北大核心EICSCD
【文章頁數(shù)】:13 頁
【部分圖文】:
5個(gè)HDFS集群的數(shù)據(jù)訪問頻率分布圖[15],CC{1,2,3,4}表示4個(gè)不同的Cloudera上的集群,F(xiàn)B表示Facebook的一個(gè)實(shí)際集群
(6,2,2)LRC(例)[11]
圖3展示了一個(gè)(10,4)RS碼應(yīng)用于Piggybacki‐ng框架的例子,圖4給出了圖3對(duì)應(yīng)的HH碼.在圖4中,如果要恢復(fù)第一個(gè)數(shù)據(jù)塊,即a1和b1,可以先利用b2、b3、…、b10和f1(b)恢復(fù)b1,進(jìn)而求得f2(b).在讀取a2、a3以及子條帶b中的第12個(gè)子塊f2(b)⊕a1⊕a2⊕a3后,進(jìn)行異或運(yùn)算即可恢復(fù)得到a1.圖4(10,4)Hitchhiker碼(例)[12]
本文編號(hào):3355607
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3355607.html
最近更新
教材專著