用戶感知的重復(fù)數(shù)據(jù)刪除算法
本文選題:重復(fù)數(shù)據(jù)刪除 + 云計算 ; 參考:《軟件學(xué)報》2015年10期
【摘要】:通過大量的實驗分析發(fā)現(xiàn):在云桌面場景下,數(shù)據(jù)擁有者之間的工作相關(guān)度越大,則該用戶之間存在重復(fù)數(shù)據(jù)的概率越大.基于該實驗結(jié)果,提出了用戶感知的重復(fù)數(shù)據(jù)刪除算法.該算法打破了數(shù)據(jù)空間局部性特征的限制,實現(xiàn)了以用戶為單位的更粗粒度的查重計算,可以在不影響重刪率的前提下,減少5~10倍常駐內(nèi)存指紋的數(shù)量,并可將每次查重計算的指紋檢索范圍控制在一個常數(shù)范圍內(nèi),不隨數(shù)據(jù)總量的增加而線性增加,從而有效避免了因為數(shù)據(jù)總量增加而導(dǎo)致內(nèi)存不足的問題.除此之外,該算法還能根據(jù)存儲系統(tǒng)的負(fù)載情況自動調(diào)整重復(fù)指紋檢索范圍,在性能與重刪率之間加以平衡,從而更好地滿足主存儲場景的需要.原型驗證表明,該算法可以很好地解決云計算場景下海量數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除性能問題.與Open Dedup算法相比,當(dāng)數(shù)據(jù)指紋總量超出內(nèi)存可用空間時,該算法可以表現(xiàn)出巨大的優(yōu)勢,減少200%以上的讀磁盤操作,響應(yīng)速度提升3倍以上.
[Abstract]:Through a large number of experiments, it is found that in the cloud desktop scenario, the greater the work correlation between the data owners, the greater the probability of duplicate data among the users. Based on the experimental results, a user-aware repetitive data deletion algorithm is proposed. The algorithm breaks the limitation of the local feature of data space, and realizes a coarser granularity recalculation based on the user. It can reduce the number of resident memory fingerprints by 5 ~ 10 times without affecting the rate of redelete. The range of fingerprint retrieval can be controlled within a constant range and not linearly increased with the increase of the total amount of data, thus effectively avoiding the problem of insufficient memory caused by the increase of the total amount of data. In addition, the algorithm can automatically adjust the range of repeated fingerprint retrieval according to the load of the storage system, and balance the performance with the rate of redelete so as to better meet the needs of the main storage scene. Prototype verification shows that the algorithm can solve the problem of duplicate data deletion performance in cloud computing scenarios. Compared with the Open Dedup algorithm, when the total amount of fingerprint data exceeds the memory available space, the algorithm can show great advantages, reduce the read disk operation by more than 200%, and increase the response speed by more than three times.
【作者單位】: 武漢大學(xué)計算機(jī)學(xué)院;深圳華為技術(shù)有限公司IT標(biāo)準(zhǔn)與專利部;國網(wǎng)湖南省電力公司信息通信公司;
【基金】:國家自然科學(xué)基金(61272454) 高等學(xué)校博士學(xué)科點專項科研基金(20130141110022)
【分類號】:TP333
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 付印金;肖儂;劉芳;;重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展[J];計算機(jī)研究與發(fā)展;2012年01期
2 付印金;肖儂;劉芳;鮑先強;;基于重復(fù)數(shù)據(jù)刪除的虛擬桌面存儲優(yōu)化技術(shù)[J];計算機(jī)研究與發(fā)展;2012年S1期
3 張俊麗;常艷麗;師文;;標(biāo)簽傳播算法理論及其應(yīng)用研究綜述[J];計算機(jī)應(yīng)用研究;2013年01期
4 孫競;余宏亮;鄭緯民;;支持分布式存儲刪冗的相似文件元數(shù)據(jù)集合索引[J];計算機(jī)研究與發(fā)展;2013年01期
5 敖莉;舒繼武;李明強;;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報;2010年05期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鄧亮;胡曉勤;梁剛;;基于重復(fù)數(shù)據(jù)刪除技術(shù)的SQL Server數(shù)據(jù)庫備份系統(tǒng)[J];計算機(jī)安全;2011年07期
2 吳曉勇;李慧娜;;基于文件類型的遠(yuǎn)程文件備份系統(tǒng)[J];計算機(jī)安全;2012年03期
3 吳曉勇;李慧娜;;基于Internet的共享式災(zāi)備中心[J];計算機(jī)安全;2012年05期
4 張清松;梁智強;;基于硬盤的主機(jī)防客體重用性能的檢測方法[J];廣東電力;2012年07期
5 許彬;陳寧江;胡丹丹;;SBC模式下桌面云系統(tǒng)用戶容量優(yōu)化策略研究[J];電信科學(xué);2012年10期
6 李向前;;一種基于重復(fù)數(shù)據(jù)刪除的Oracle數(shù)據(jù)庫備份系統(tǒng)[J];電腦知識與技術(shù);2013年01期
7 羅秋濱;朱宏;李云暉;叢二勇;;標(biāo)簽傳播算法在社會網(wǎng)絡(luò)中的應(yīng)用研究[J];智能計算機(jī)與應(yīng)用;2013年03期
8 謝垂益;鐘紅君;;Rabin指紋算法在重復(fù)數(shù)據(jù)檢測中的應(yīng)用研究[J];電腦知識與技術(shù);2013年21期
9 王燦;秦志光;楊磊;楊皓;;基于改進(jìn)Sparse Indexing的多負(fù)載消冗方法[J];電子科技大學(xué)學(xué)報;2013年05期
10 王文龍;李建中;;一種有效的在不確定圖數(shù)據(jù)庫中挖掘頻繁子圖模式的MUSIC算法[J];智能計算機(jī)與應(yīng)用;2013年05期
相關(guān)會議論文 前6條
1 彭成;王樹鵬;賈志凱;;基于糾刪碼的數(shù)據(jù)消冗存儲系統(tǒng)可靠性增強研究[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年
2 吳朋朋;黃瑋;楊璐皓;;移動終端通訊錄數(shù)據(jù)同步去重算法[A];2013年中國信息通信研究新進(jìn)展論文集[C];2014年
3 胡寧玉;杜秀麗;劉焱;盧剛;王運明;;基于快速消冗方法的增量備份策略研究[A];2014第二屆中國指揮控制大會論文集(上)[C];2014年
4 趙紅;王宗水;王焱;付立軍;;基于Bloom過濾的網(wǎng)絡(luò)消費者分類方法應(yīng)用研究[A];第九屆(2014)中國管理學(xué)年會——市場營銷分會場論文集[C];2014年
5 許磊;張冬梅;;基于事件關(guān)聯(lián)的輿情熱度預(yù)測分析[A];第十八屆全國青年通信學(xué)術(shù)年會論文集(下冊)[C];2013年
6 吳朋朋;黃瑋;楊璐皓;;移動終端通訊錄數(shù)據(jù)同步去重算法[A];2013年中國信息通信研究新進(jìn)展論文集[C];2014年
相關(guān)博士學(xué)位論文 前10條
1 譚玉娟;數(shù)據(jù)備份系統(tǒng)中數(shù)據(jù)去重技術(shù)研究[D];華中科技大學(xué);2012年
2 王燦;基于在線重復(fù)數(shù)據(jù)消除的海量數(shù)據(jù)處理關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2012年
3 魏建生;高性能重復(fù)數(shù)據(jù)檢測與刪除技術(shù)研究[D];華中科技大學(xué);2012年
4 蔣海波;海量數(shù)據(jù)存儲系統(tǒng)的高可靠性關(guān)鍵技術(shù)研究與應(yīng)用[D];電子科技大學(xué);2013年
5 朱素霞;面向多核處理器確定性重演的內(nèi)存競爭記錄機(jī)制研究[D];哈爾濱工業(yè)大學(xué);2013年
6 卿蘇德;網(wǎng)絡(luò)虛擬化映射算法研究[D];北京郵電大學(xué);2013年
7 左震;光纖骨干網(wǎng)實時流測量關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
8 伍江江;面向服務(wù)應(yīng)急響應(yīng)的數(shù)據(jù)保護(hù)關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2012年
9 阿亞德;加密云數(shù)據(jù)的高效檢索研究[D];華中科技大學(xué);2013年
10 Ayad Ibrahim Abdulsada;[D];華中科技大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 丁躍進(jìn);網(wǎng)關(guān)型病毒防火墻的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2011年
2 胡盼盼;在線重復(fù)數(shù)據(jù)刪除技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2011年
3 曾濤;重復(fù)數(shù)據(jù)刪除技術(shù)的研究與實現(xiàn)[D];華中科技大學(xué);2011年
4 張鵬;在線備份系統(tǒng)中存儲服務(wù)器的研究與實現(xiàn)[D];華中科技大學(xué);2011年
5 周國惠;支持重復(fù)數(shù)據(jù)刪除的網(wǎng)絡(luò)備份系統(tǒng)中存儲服務(wù)器的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2011年
6 張航;文件同步服務(wù)中數(shù)據(jù)同步傳輸消重策略研究[D];國防科學(xué)技術(shù)大學(xué);2011年
7 武銓;廣域網(wǎng)數(shù)據(jù)冗余消除TCP透明代理的設(shè)計與實現(xiàn)[D];南京郵電大學(xué);2012年
8 郭永安;網(wǎng)絡(luò)協(xié)議棧下TCP隊列管理研究[D];南京郵電大學(xué);2012年
9 毛允亭;廣域網(wǎng)數(shù)據(jù)壓縮算法的研究與實現(xiàn)[D];南京郵電大學(xué);2012年
10 肖紅鳳;基于數(shù)據(jù)中心的數(shù)據(jù)訪問服務(wù)模型研究[D];東北石油大學(xué);2012年
【二級參考文獻(xiàn)】
相關(guān)期刊論文 前7條
1 胡健;董躍華;楊炳儒;;大型復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)發(fā)現(xiàn)算法[J];計算機(jī)工程;2008年19期
2 金弟;劉杰;楊博;何東曉;劉大有;;局部搜索與遺傳算法結(jié)合的大規(guī)模復(fù)雜網(wǎng)絡(luò)社區(qū)探測[J];自動化學(xué)報;2011年07期
3 ;P3Stor: A parallel, durable flash-based SSD for enterprise-scale storage systems[J];Science China(Information Sciences);2011年06期
4 朱學(xué)芳;;圖博檔信息資源數(shù)字化建設(shè)及服務(wù)融合探討[J];情報資料工作;2011年05期
5 敖莉;舒繼武;李明強;;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報;2010年05期
6 郝建柏;陳賢富;黃雙福;楊俊;;一種基于模糊近鄰標(biāo)簽傳遞的半監(jiān)督分類算法[J];微電子學(xué)與計算機(jī);2010年02期
7 倪煜;趙耀;朱振峰;;結(jié)合標(biāo)簽傳遞的鏡頭邊界檢測與分類[J];中國圖象圖形學(xué)報;2011年06期
相關(guān)碩士學(xué)位論文 前2條
1 任曉娟;基于改進(jìn)標(biāo)注傳播算法的半監(jiān)督資源分類[D];吉林大學(xué);2008年
2 張俊麗;文本分類中的關(guān)鍵技術(shù)研究[D];華中師范大學(xué);2008年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 盧敏;;“零距離”重復(fù)數(shù)據(jù)刪除[J];軟件世界;2008年11期
2 盧敏;;點亮“重復(fù)數(shù)據(jù)刪除”[J];軟件世界;2008年06期
3 徐立洋;;選購重復(fù)數(shù)據(jù)刪除方案 軟硬兼施剔除雞肋數(shù)據(jù)[J];中國計算機(jī)用戶;2009年08期
4 邢延剛;;刪除重復(fù)值我有妙法[J];電腦迷;2009年09期
5 李剛;;重復(fù)數(shù)據(jù)刪除走向“源頭”[J];中國計算機(jī)用戶;2009年16期
6 敖莉;舒繼武;李明強;;重復(fù)數(shù)據(jù)刪除技術(shù)[J];軟件學(xué)報;2010年05期
7 王樹鵬;;重復(fù)數(shù)據(jù)刪除技術(shù)的發(fā)展及應(yīng)用[J];中興通訊技術(shù);2010年05期
8 倪顯利;;重復(fù)數(shù)據(jù)刪除技術(shù)的應(yīng)用與實踐[J];中國金融電腦;2011年05期
9 付印金;肖儂;劉芳;;重復(fù)數(shù)據(jù)刪除關(guān)鍵技術(shù)研究進(jìn)展[J];計算機(jī)研究與發(fā)展;2012年01期
10 拜路;;重復(fù)數(shù)據(jù)刪除技術(shù)分析及其對存儲系統(tǒng)性能的影響[J];電腦編程技巧與維護(hù);2012年06期
相關(guān)會議論文 前3條
1 賈志凱;王樹鵬;陳光達(dá);彭成;;一種并行層次化的重復(fù)數(shù)據(jù)刪除技術(shù)[A];2010年第16屆全國信息存儲技術(shù)大會(IST2010)論文集[C];2010年
2 楊廷梧;;基于重復(fù)數(shù)據(jù)刪除的靶場試驗信息存儲技術(shù)[A];2009年西部光子學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
3 肖鈞;黃亮;;虛擬化搭配去重,雙劍合璧更給力[A];2011年CAD/CAM學(xué)術(shù)交流會議論文集[C];2011年
相關(guān)重要報紙文章 前10條
1 本報記者 郭濤;基于硬件的重復(fù)數(shù)據(jù)刪除效率更高[N];中國計算機(jī)報;2009年
2 朱皎;重復(fù)數(shù)據(jù)刪除技術(shù)漸成主流[N];電腦商報;2009年
3 邢小萍;重復(fù)數(shù)據(jù)刪除技術(shù)漸入佳境[N];網(wǎng)絡(luò)世界;2009年
4 郭濤;重復(fù)數(shù)據(jù)刪除比越大越好嗎?[N];中國計算機(jī)報;2007年
5 中國傳媒大學(xué)計算機(jī)學(xué)院 朱立谷;重復(fù)數(shù)據(jù)刪除:改寫存儲行業(yè)經(jīng)濟(jì)規(guī)則?[N];中國計算機(jī)報;2007年
6 劉學(xué)習(xí);刪除重復(fù)數(shù)據(jù)[N];計算機(jī)世界;2006年
7 張群英;重復(fù)數(shù)據(jù)刪除技術(shù)異軍突起[N];網(wǎng)絡(luò)世界;2006年
8 張峰;重復(fù)數(shù)據(jù)刪除 難走的平衡木[N];網(wǎng)絡(luò)世界;2007年
9 王s,
本文編號:1890732
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/1890732.html