基于動態(tài)可配置規(guī)則的數(shù)據(jù)清洗方法
本文選題:大數(shù)據(jù) + 數(shù)據(jù)質(zhì)量; 參考:《計算機(jī)應(yīng)用》2017年04期
【摘要】:針對傳統(tǒng)數(shù)據(jù)清洗方法通過硬編碼方法來實(shí)現(xiàn)業(yè)務(wù)邏輯而導(dǎo)致系統(tǒng)的可重用性、可擴(kuò)展性與靈活性較差等問題,提出了一種基于動態(tài)可配置規(guī)則的數(shù)據(jù)清洗方法——DRDCM。該方法支持多種類型規(guī)則間的復(fù)雜邏輯運(yùn)算,并支持多種臟數(shù)據(jù)修復(fù)行為,集數(shù)據(jù)檢測、數(shù)據(jù)修復(fù)與數(shù)據(jù)轉(zhuǎn)換于一體,具有跨領(lǐng)域、可重用、可配置、可擴(kuò)展等特點(diǎn)。首先,對DRDCM方法中的數(shù)據(jù)檢測和數(shù)據(jù)修復(fù)的概念、實(shí)現(xiàn)步驟以及實(shí)現(xiàn)算法進(jìn)行描述;其次,闡述了DRDCM方法中支持的多種規(guī)則類型以及規(guī)則配置;最后,對DRDCM方法進(jìn)行實(shí)現(xiàn),并通過實(shí)際項(xiàng)目數(shù)據(jù)集驗(yàn)證了該實(shí)現(xiàn)系統(tǒng)在臟數(shù)據(jù)修復(fù)中,丟棄修復(fù)行為具有很高的準(zhǔn)確率,尤其是對需遵守法定編碼規(guī)則的屬性(例如身份證號碼)處理時其準(zhǔn)確率可達(dá)100%。實(shí)驗(yàn)結(jié)果表明,DRDCM實(shí)現(xiàn)系統(tǒng)可以將動態(tài)可配置規(guī)則無縫集成于多個數(shù)據(jù)源和多種不同應(yīng)用領(lǐng)域且該系統(tǒng)的性能并不會隨著規(guī)則條數(shù)增加而極速降低,這也進(jìn)一步驗(yàn)證了DRDCM方法在真實(shí)環(huán)境中的切實(shí)可行性。
[Abstract]:In view of the problems of reusability, scalability and flexibility, a data cleaning method based on dynamic configuration rules is proposed in the traditional data cleaning method, which leads to the reusability, scalability and flexibility of the system by hard coding to achieve business logic. The DRDCM. method supports complex logic operations among various types of rules and supports a variety of dirty numbers. According to the repair behavior, set data detection, data repair and data conversion in one, it has the characteristics of cross domain, reusable, configurable, and extensible. First, it describes the concept of data detection and data repair in the DRDCM method, the implementation steps and the implementation of the algorithm. Secondly, it expounds the various rules type and rules supported by the DRDCM method. In the end, the DRDCM method is implemented, and the actual project data set verifies that the implementation system has a high accuracy rate of discarding the repair behavior in the dirty data repair, especially for the properties (such as identity card numbers) that need to comply with the legal code rules (such as the ID number). The accuracy of the system can reach the result of the 100%. experiment, and the DRDCM implementation system is shown. The system can integrate dynamically configurable rules seamlessly into multiple data sources and many different applications and the performance of the system will not decrease with the increase in the number of rules. This further validates the feasibility of the DRDCM method in the real environment.
【作者單位】: 中國科學(xué)院新疆理化技術(shù)研究所多語種信息技術(shù)研究室;中國科學(xué)院大學(xué)計算機(jī)與控制學(xué)院;新疆民族語音語言信息處理重點(diǎn)實(shí)驗(yàn)室;
【基金】:新疆維吾爾自治區(qū)高技術(shù)研究發(fā)展計劃項(xiàng)目(201512103) 中國科學(xué)院西部之光人才培養(yǎng)計劃項(xiàng)目(XBBS201313) 新疆維吾爾自治區(qū)青年科技創(chuàng)新人才培養(yǎng)工程計劃項(xiàng)目(2014721033)~~
【分類號】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張武;劉波;;一種基于規(guī)則的交互式數(shù)據(jù)清洗框架的設(shè)計[J];微計算機(jī)應(yīng)用;2009年10期
2 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計算機(jī)科學(xué);2012年S3期
3 田偉;殷淑娥;;淺析數(shù)據(jù)清洗[J];計算機(jī)光盤軟件與應(yīng)用;2013年11期
4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報;2002年11期
5 鄧中國,周奕辛;數(shù)據(jù)清洗技術(shù)研究[J];山東科技大學(xué)學(xué)報(自然科學(xué)版);2004年02期
6 唐懿芳,鐘達(dá)夫,張師超;數(shù)據(jù)清洗前的預(yù)處理方法[J];廣西科學(xué);2005年02期
7 孟堅,董逸生,王永利;一種基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[J];微機(jī)發(fā)展;2005年04期
8 包從劍;李星毅;施化吉;;可擴(kuò)展和可交互的數(shù)據(jù)清洗系統(tǒng)[J];計算機(jī)技術(shù)與發(fā)展;2007年07期
9 王曰芬;章成志;張蓓蓓;吳婷婷;;數(shù)據(jù)清洗研究綜述[J];現(xiàn)代圖書情報技術(shù);2007年12期
10 王詠梅;嵇曉;汪恒杰;馮安平;;面向多數(shù)據(jù)源的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[J];科技資訊;2009年01期
相關(guān)會議論文 前10條
1 俞榮華;郭志懋;田增平;周傲英;;一個可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年
2 崔運(yùn)釧;劉連忠;;一種可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng)的設(shè)計與實(shí)現(xiàn)[A];2006中國控制與決策學(xué)術(shù)年會論文集[C];2006年
3 汪愛民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設(shè)計和應(yīng)用[A];全國冶金自動化信息網(wǎng)2014年會論文集[C];2014年
4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對信息檢索質(zhì)量的影響及清洗方法[A];2011年中國索引學(xué)會年會暨成立二十周年慶典論文集[C];2011年
5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構(gòu)件擴(kuò)展的數(shù)據(jù)清洗框架[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年
6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風(fēng)險貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年
7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預(yù)處理系統(tǒng)PW-ETL的設(shè)計與實(shí)現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年
10 趙之慧;;專利數(shù)據(jù)加工[A];2014年中華全國專利代理人協(xié)會年會第五屆知識產(chǎn)權(quán)論壇論文(第二部分)[C];2014年
相關(guān)重要報紙文章 前1條
1 中國人民財產(chǎn)保險股份有限公司信息技術(shù)部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨(dú)立的數(shù)據(jù)清洗服務(wù)[N];計算機(jī)世界;2009年
相關(guān)博士學(xué)位論文 前1條
1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學(xué);2015年
2 葉晨;基于眾包的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2015年
3 張曉東;基于業(yè)務(wù)模型的數(shù)據(jù)清洗與整合平臺的設(shè)計與實(shí)現(xiàn)[D];電子科技大學(xué);2015年
4 艾超;針對在線產(chǎn)品支撐數(shù)據(jù)的過濾和分析系統(tǒng)的研究與設(shè)計[D];電子科技大學(xué);2015年
5 金翰偉;基于Spark的大數(shù)據(jù)清洗框架設(shè)計與實(shí)現(xiàn)[D];浙江大學(xué);2016年
6 王江;數(shù)據(jù)清洗技術(shù)研究及清洗框架的設(shè)計與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2016年
7 陳飛;基于MapReduce的數(shù)據(jù)清洗算法研究[D];昆明理工大學(xué);2016年
8 李寧寧;大數(shù)據(jù)清洗系統(tǒng)中優(yōu)化技術(shù)的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年
9 盛丹丹;面向農(nóng)業(yè)領(lǐng)域知識庫構(gòu)建的數(shù)據(jù)清洗方法優(yōu)化研究[D];中國農(nóng)業(yè)科學(xué)院;2016年
10 鄭紀(jì)玲;數(shù)據(jù)清洗在構(gòu)建POI數(shù)據(jù)倉庫中的研究與應(yīng)用[D];中國礦業(yè)大學(xué);2016年
,本文編號:2007952
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2007952.html