一種客戶(hù)關(guān)系數(shù)據(jù)庫(kù)相似重復(fù)記錄清洗算法
本文選題:客戶(hù)關(guān)系 + 相似重復(fù)記錄 ; 參考:《衡水學(xué)院學(xué)報(bào)》2014年01期
【摘要】:客戶(hù)關(guān)系數(shù)據(jù)庫(kù)中擁有大量的客戶(hù)記錄,其中許多記錄構(gòu)成相似重復(fù)記錄,檢測(cè)、清洗進(jìn)而合并相似重復(fù)記錄可以提高存儲(chǔ)空間的利用率,還可以加快記錄查詢(xún)的速度.在研究客戶(hù)記錄的基礎(chǔ)上,提出一種客戶(hù)關(guān)系數(shù)據(jù)庫(kù)相似重復(fù)記錄清洗算法,算法首先對(duì)記錄進(jìn)行排序,設(shè)定屬性權(quán)重和記錄相似度閘值,通過(guò)計(jì)算相鄰記錄的相似度判定記錄是否相似重復(fù),最后對(duì)檢測(cè)到的相似重復(fù)記錄進(jìn)行清洗與合并.
[Abstract]:There are a large number of customer records in the customer relationship database, many of which constitute similar duplicate records. Detecting, cleaning and merging the similar duplicate records can improve the utilization of storage space and speed up the query of records. Based on the study of customer records, a similar duplicate record cleaning algorithm for customer relational database is proposed. The algorithm first sorts the records, sets the attribute weight and the similarity gate value of the records. The similarity degree of adjacent records is calculated to determine whether the records are similar or not. Finally, the detected similar duplicate records are cleaned and merged.
【作者單位】: 福建江夏學(xué)院電子信息科學(xué)學(xué)院;
【基金】:福建省教育廳A類(lèi)科技項(xiàng)目(JA12335)
【分類(lèi)號(hào)】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 程昌秀;于濱;;一種基于規(guī)則的模糊中文地址分詞匹配方法[J];地理與地理信息科學(xué);2011年03期
2 張雪英;閭國(guó)年;李伯秋;陳文君;;基于規(guī)則的中文地址要素解析方法[J];地球信息科學(xué)學(xué)報(bào);2010年01期
3 劉哲;夏秀峰;宋曉燕;林桐;;一種中文地址類(lèi)相似重復(fù)信息的檢測(cè)方法[J];小型微型計(jì)算機(jī)系統(tǒng);2008年04期
【共引文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張小平,馬垣;KDD中的數(shù)據(jù)清理技術(shù)研究[J];鞍山科技大學(xué)學(xué)報(bào);2003年02期
2 陳偉,丁秋林;具有數(shù)據(jù)清理功能的交互式數(shù)據(jù)遷移及應(yīng)用[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2004年02期
3 孫鐵民;于杰;尚程;田大新;張麗華;;基于無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)清洗算法[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2008年06期
4 陸娟;蔣平;吳偉;;PGIS支持下的警務(wù)信息地圖位置采集方式探討[J];地理信息世界;2011年06期
5 陸娟;湯國(guó)安;蔣平;吳偉;;公安業(yè)務(wù)地理信息關(guān)聯(lián)采集方式的研究[J];地球信息科學(xué)學(xué)報(bào);2010年05期
6 代昆玉;胡濱;;基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清理技術(shù)概述[J];貴州大學(xué)學(xué)報(bào)(自然科學(xué)版);2007年03期
7 余明朗;明小娜;龍毅;張雪英;;GIS環(huán)境下中文命令的規(guī)則匹配與語(yǔ)義解析[J];地理與地理信息科學(xué);2012年06期
8 湯廖文;;增城警用標(biāo)準(zhǔn)地址庫(kù)建設(shè)及管理[J];城市勘測(cè);2013年03期
9 王曙;吉雷靜;張雪英;趙仁亮;陳曉丹;余浩;;面向網(wǎng)頁(yè)文本的地理要素變化檢測(cè)[J];地球信息科學(xué)學(xué)報(bào);2013年05期
10 莊海東;張鴻恩;;基于規(guī)則的中文地址匹配系統(tǒng)[J];福建電腦;2013年09期
相關(guān)會(huì)議論文 前1條
1 陳X;李心科;;基于可擴(kuò)展數(shù)據(jù)清理框架的元數(shù)據(jù)的研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
相關(guān)博士學(xué)位論文 前10條
1 潘鵬;Deep Web查詢(xún)中的不確定性問(wèn)題研究[D];山東大學(xué);2010年
2 黃莉;基于語(yǔ)義關(guān)聯(lián)的重復(fù)數(shù)據(jù)清理技術(shù)研究[D];華中科技大學(xué);2011年
3 張小剛;關(guān)聯(lián)規(guī)則挖掘及其在復(fù)雜工業(yè)過(guò)程控制中的應(yīng)用研究[D];湖南大學(xué);2002年
4 陳珉;分布式空間數(shù)據(jù)庫(kù)主動(dòng)數(shù)據(jù)更新研究[D];武漢大學(xué);2004年
5 陳偉;數(shù)據(jù)清理關(guān)鍵技術(shù)及其軟件平臺(tái)的研究與應(yīng)用[D];南京航空航天大學(xué);2005年
6 劉亞波;關(guān)聯(lián)規(guī)則挖掘方法的研究及應(yīng)用[D];吉林大學(xué);2005年
7 張瑞軍;基于信息鏈的智能信息處理關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2007年
8 夏驕雄;數(shù)據(jù)資源聚類(lèi)預(yù)處理及其應(yīng)用研究[D];上海大學(xué);2007年
9 賈俊杰;空間數(shù)據(jù)挖掘中若干關(guān)鍵技術(shù)研究[D];長(zhǎng)安大學(xué);2009年
10 戴東波;序列數(shù)據(jù)的相似性查詢(xún)研究[D];復(fù)旦大學(xué);2009年
相關(guān)碩士學(xué)位論文 前10條
1 侯佳奇;社保聯(lián)網(wǎng)審計(jì)中增量數(shù)據(jù)分布式處理的研究[D];哈爾濱工程大學(xué);2010年
2 王爽;GIS與空間數(shù)據(jù)挖掘技術(shù)在環(huán)境污染事故應(yīng)急處理系統(tǒng)中的應(yīng)用研究[D];中國(guó)海洋大學(xué);2010年
3 葉奇旺;數(shù)據(jù)挖掘技術(shù)在手機(jī)行業(yè)客戶(hù)關(guān)系管理中的應(yīng)用研究[D];東華大學(xué);2011年
4 范曉燕;數(shù)據(jù)挖掘技術(shù)在新生兒數(shù)據(jù)分析中的應(yīng)用研究[D];東華大學(xué);2011年
5 魏勤勤;在線(xiàn)交互與學(xué)習(xí)平臺(tái)中個(gè)性化信息挖掘研究[D];西安電子科技大學(xué);2009年
6 王元;基于XML的異構(gòu)數(shù)據(jù)源管理的研究[D];吉林大學(xué);2011年
7 崔文;基于柔性統(tǒng)計(jì)系統(tǒng)的港口企業(yè)多維度統(tǒng)計(jì)模式構(gòu)建[D];北京交通大學(xué);2011年
8 趙飛國(guó);面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];北京交通大學(xué);2011年
9 周興強(qiáng);RFID數(shù)據(jù)流清洗技術(shù)及其系統(tǒng)實(shí)現(xiàn)[D];大連海事大學(xué);2011年
10 王婕;分布式網(wǎng)絡(luò)數(shù)據(jù)采集關(guān)鍵技術(shù)研究[D];中北大學(xué);2011年
【二級(jí)參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 朱建偉,王澤民;地理編碼原理及其本地化解決方案[J];北京測(cè)繪;2004年02期
2 張鶴;孔令彥;陳倬;孫樂(lè)兵;;城市地址編碼發(fā)展歷史及現(xiàn)狀分析[J];測(cè)繪通報(bào);2008年07期
3 張林曼;吳升;;地理編碼系統(tǒng)中地址匹配引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];測(cè)繪信息與工程;2008年06期
4 高昭良;;城市地理空間字典——地理編碼[J];城市勘測(cè);2008年02期
5 胡青;徐建華;王志海;;GIS數(shù)據(jù)庫(kù)中地址自動(dòng)匹配方法研究[J];測(cè)繪與空間地理信息;2008年06期
6 江綿康;;上海市基礎(chǔ)地理要素編碼標(biāo)準(zhǔn)編制研究[J];地理與地理信息科學(xué);2006年02期
7 高巍;;在大城市實(shí)現(xiàn)有線(xiàn)電視用戶(hù)地址標(biāo)準(zhǔn)化的設(shè)想[J];廣播與電視技術(shù);2007年10期
8 蔣景f,
本文編號(hào):1891808
本文鏈接:http://www.sikaile.net/guanlilunwen/kehuguanxiguanli/1891808.html