Web大數(shù)據(jù)環(huán)境下的相似重復(fù)數(shù)據(jù)清理
本文選題:Web大數(shù)據(jù) + 重復(fù)數(shù)據(jù)刪除; 參考:《計(jì)算機(jī)工程與設(shè)計(jì)》2017年03期
【摘要】:為對(duì)Web大數(shù)據(jù)環(huán)境下的相似重復(fù)冗余數(shù)據(jù)進(jìn)行清理,降低數(shù)據(jù)存儲(chǔ)與管理的時(shí)間和成本,提出Web大數(shù)據(jù)相似重復(fù)數(shù)據(jù)清理方法。對(duì)Web數(shù)據(jù)進(jìn)行預(yù)處理,提出相似哈希的實(shí)現(xiàn)算法計(jì)算各數(shù)據(jù)信息的相似度,對(duì)于滿足特定閾值的相似數(shù)據(jù)信息,保留其中一個(gè)及其副本,其余數(shù)據(jù)信息保存該數(shù)據(jù)信息的地址。使用該方法在Hadoop平臺(tái)上對(duì)多個(gè)網(wǎng)站的Web數(shù)據(jù)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法具有良好的精確性及數(shù)據(jù)縮減效果。
[Abstract]:In order to clean up the similar redundant data in Web big data environment and reduce the time and cost of data storage and management, a Web big data similar repetitive data cleaning method is proposed. The Web data is preprocessed, and a similar hash algorithm is proposed to calculate the similarity of each data information. For the similar data information satisfying a specific threshold, one of them and its replica are retained, and the other data information keeps the address of the data information. The method is used to test the Web data of many websites on Hadoop platform. The experimental results show that the method has good accuracy and data reduction effect.
【作者單位】: 四川師范大學(xué)計(jì)算機(jī)學(xué)院;中國(guó)科學(xué)院計(jì)算技術(shù)研究所;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61373162) 四川省科技支撐基金項(xiàng)目(2014GZ007) 可視化計(jì)算與虛擬現(xiàn)實(shí)四川省重點(diǎn)實(shí)驗(yàn)室基金項(xiàng)目(KJ201402)
【分類號(hào)】:TP393.09;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 楊輔祥,劉云超,段智華;數(shù)據(jù)清理綜述[J];計(jì)算機(jī)應(yīng)用研究;2002年03期
2 陳海燕,周俊林;數(shù)據(jù)清理的實(shí)現(xiàn)技術(shù)[J];新疆職業(yè)大學(xué)學(xué)報(bào);2004年03期
3 夏驕雄;徐俊;吳耿鋒;;數(shù)據(jù)清理中同體不同源數(shù)據(jù)的數(shù)化算法研究[J];計(jì)算機(jī)工程;2007年01期
4 宋崢嶸;樸春梅;;數(shù)據(jù)質(zhì)量與數(shù)據(jù)清理淺談[J];今日科苑;2009年17期
5 宋崢嶸;樸春梅;王飛;;文獻(xiàn)數(shù)據(jù)庫(kù)的數(shù)據(jù)質(zhì)量控制與數(shù)據(jù)清理[J];江蘇科技信息;2009年09期
6 郭興成;;對(duì)我國(guó)企業(yè)數(shù)據(jù)清理的研究[J];企業(yè)技術(shù)開(kāi)發(fā);2011年20期
7 劇偉偉;;淺談組織機(jī)構(gòu)數(shù)據(jù)清理的可操作性問(wèn)題[J];經(jīng)營(yíng)管理者;2013年24期
8 吳滌單;;基于數(shù)據(jù)清理技術(shù)的稅務(wù)征收管理系統(tǒng)[J];電腦知識(shí)與技術(shù);2013年30期
9 許翔,毛婕;數(shù)據(jù)清理技術(shù)在軟件開(kāi)發(fā)中的應(yīng)用研究[J];計(jì)算機(jī)時(shí)代;2004年08期
10 張志兵,李華e,
本文編號(hào):1946268
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1946268.html