天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于N-Gram算法的數(shù)據(jù)清洗技術(shù)

發(fā)布時間:2018-04-10 01:02

  本文選題:相似度 切入點:相似重復(fù)記錄 出處:《沈陽工業(yè)大學(xué)學(xué)報》2017年01期


【摘要】:針對數(shù)據(jù)庫中存在的大量相似重復(fù)數(shù)據(jù),對相似重復(fù)記錄的屬性結(jié)構(gòu)以及產(chǎn)生原因進行了分析,采用N-Gram算法對數(shù)據(jù)記錄進行計算,得到代表每條記錄屬性的鍵值,即N-Gram值.依據(jù)該鍵值將數(shù)據(jù)庫中的數(shù)據(jù)記錄進行排序處理,建立有序的數(shù)據(jù)庫,并對其中的數(shù)據(jù)記錄進行相似度計算.運用排列合并的清洗思想對識別出來的相似重復(fù)數(shù)據(jù)記錄進行清洗,實驗結(jié)果表明,N-Gram算法有效提高了相似重復(fù)數(shù)據(jù)記錄的查全率和查準(zhǔn)率.
[Abstract]:In view of the large number of similar duplicate data in the database, this paper analyzes the attribute structure and the reason of the similar duplicate record, and calculates the data record by using N-Gram algorithm, and obtains the key value representing each record attribute, that is, the N-Gram value.According to the key value, the data records in the database are sorted, the ordered database is established, and the similarity of the data records is calculated.The method of sorting and merging is used to clean the identified similar repeated data records. The experimental results show that the N-Gram algorithm can effectively improve the recall and precision rate of the similar repeated data records.
【作者單位】: 沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院;沈陽理工大學(xué)自動化與電氣工程學(xué)院;
【基金】:遼寧省教育廳科學(xué)研究項目(LG201610)
【分類號】:TP311.13

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 張武;劉波;;一種基于規(guī)則的交互式數(shù)據(jù)清洗框架的設(shè)計[J];微計算機應(yīng)用;2009年10期

2 曹建軍;刁興春;陳爽;邵衍振;;數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J];計算機科學(xué);2012年S3期

3 田偉;殷淑娥;;淺析數(shù)據(jù)清洗[J];計算機光盤軟件與應(yīng)用;2013年11期

4 郭志懋,周傲英;數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J];軟件學(xué)報;2002年11期

5 鄧中國,周奕辛;數(shù)據(jù)清洗技術(shù)研究[J];山東科技大學(xué)學(xué)報(自然科學(xué)版);2004年02期

6 唐懿芳,鐘達夫,張師超;數(shù)據(jù)清洗前的預(yù)處理方法[J];廣西科學(xué);2005年02期

7 孟堅,董逸生,王永利;一種基于規(guī)則的交互式數(shù)據(jù)清洗技術(shù)[J];微機發(fā)展;2005年04期

8 包從劍;李星毅;施化吉;;可擴展和可交互的數(shù)據(jù)清洗系統(tǒng)[J];計算機技術(shù)與發(fā)展;2007年07期

9 王曰芬;章成志;張蓓蓓;吳婷婷;;數(shù)據(jù)清洗研究綜述[J];現(xiàn)代圖書情報技術(shù);2007年12期

10 王詠梅;嵇曉;汪恒杰;馮安平;;面向多數(shù)據(jù)源的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[J];科技資訊;2009年01期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 俞榮華;郭志懋;田增平;周傲英;;一個可擴展的數(shù)據(jù)清洗系統(tǒng)[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2001年

2 崔運釧;劉連忠;;一種可擴展的數(shù)據(jù)清洗系統(tǒng)的設(shè)計與實現(xiàn)[A];2006中國控制與決策學(xué)術(shù)年會論文集[C];2006年

3 汪愛民;;寶鋼全流程合同數(shù)據(jù)清洗與組織方案的設(shè)計和應(yīng)用[A];全國冶金自動化信息網(wǎng)2014年會論文集[C];2014年

4 蔣勇青;楊奕虹;楊賀;;論數(shù)據(jù)清洗對信息檢索質(zhì)量的影響及清洗方法[A];2011年中國索引學(xué)會年會暨成立二十周年慶典論文集[C];2011年

5 李智;宋杰;冷芳玲;王大玲;鮑玉斌;于戈;;一種基于構(gòu)件擴展的數(shù)據(jù)清洗框架[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(一)[C];2008年

6 高淑娟;鮑玉斌;江志綱;王大玲;于戈;;一種基于最小風(fēng)險貝葉斯決策的數(shù)據(jù)清洗策略[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2002年

7 王妍;石鑫;宋寶燕;;基于偽事件的RFID數(shù)據(jù)清洗方法[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年

8 李曉靜;谷峪;呂雁飛;王艷秋;于戈;;基于動態(tài)事件概率模型的高效RFID數(shù)據(jù)清洗算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年

9 肖英治;陳紅;;帶數(shù)據(jù)清洗功能的數(shù)據(jù)預(yù)處理系統(tǒng)PW-ETL的設(shè)計與實現(xiàn)[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2004年

10 趙之慧;;專利數(shù)據(jù)加工[A];2014年中華全國專利代理人協(xié)會年會第五屆知識產(chǎn)權(quán)論壇論文(第二部分)[C];2014年

中國重要報紙全文數(shù)據(jù)庫 前1條

1 中國人民財產(chǎn)保險股份有限公司信息技術(shù)部副總經(jīng)理 鹿慧 編譯;在SOA中創(chuàng)建獨立的數(shù)據(jù)清洗服務(wù)[N];計算機世界;2009年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條

1 樊華;面向物聯(lián)網(wǎng)的RFID不確定數(shù)據(jù)清洗與存儲技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 高寶;不確定性RFID數(shù)據(jù)清洗算法研究[D];南京信息工程大學(xué);2015年

2 葉晨;基于眾包的數(shù)據(jù)清洗關(guān)鍵技術(shù)的研究[D];哈爾濱工業(yè)大學(xué);2015年

3 張曉東;基于業(yè)務(wù)模型的數(shù)據(jù)清洗與整合平臺的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2015年

4 艾超;針對在線產(chǎn)品支撐數(shù)據(jù)的過濾和分析系統(tǒng)的研究與設(shè)計[D];電子科技大學(xué);2015年

5 金翰偉;基于Spark的大數(shù)據(jù)清洗框架設(shè)計與實現(xiàn)[D];浙江大學(xué);2016年

6 王江;數(shù)據(jù)清洗技術(shù)研究及清洗框架的設(shè)計與實現(xiàn)[D];內(nèi)蒙古大學(xué);2016年

7 陳飛;基于MapReduce的數(shù)據(jù)清洗算法研究[D];昆明理工大學(xué);2016年

8 李寧寧;大數(shù)據(jù)清洗系統(tǒng)中優(yōu)化技術(shù)的研究與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2016年

9 盛丹丹;面向農(nóng)業(yè)領(lǐng)域知識庫構(gòu)建的數(shù)據(jù)清洗方法優(yōu)化研究[D];中國農(nóng)業(yè)科學(xué)院;2016年

10 鄭紀(jì)玲;數(shù)據(jù)清洗在構(gòu)建POI數(shù)據(jù)倉庫中的研究與應(yīng)用[D];中國礦業(yè)大學(xué);2016年

,

本文編號:1728944

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1728944.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2032c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com