基于聚類算法的數(shù)據(jù)清洗研究
發(fā)布時間:2021-06-27 13:03
隨著信息技術(shù)的快速發(fā)展,數(shù)據(jù)正在爆炸式增長,數(shù)據(jù)挖掘應(yīng)運而生。數(shù)據(jù)挖掘是從數(shù)據(jù)中獲取知識的技術(shù),因此數(shù)據(jù)的質(zhì)量尤為重要。但由于人工的疏漏,網(wǎng)絡(luò)的錯誤等原因?qū)е聰?shù)據(jù)或多或少存在著各種問題,包括屬性值異常、記錄重復(fù)和數(shù)據(jù)值缺失等,而這些臟數(shù)據(jù)將導(dǎo)致挖掘出的信息可信度較低。在數(shù)據(jù)挖掘之前對數(shù)據(jù)進行預(yù)處理尤為重要,而數(shù)據(jù)清洗就是數(shù)據(jù)預(yù)處理的關(guān)鍵技術(shù)。本文主要研究數(shù)據(jù)挖掘中的數(shù)據(jù)清洗技術(shù),重點研究對缺失值數(shù)據(jù)的清洗。傳統(tǒng)的數(shù)據(jù)清洗的種類包括重復(fù)值記錄清洗、異常數(shù)據(jù)的處理和缺失值處理。聚類是數(shù)據(jù)清洗的重要技術(shù),而基于聚類算法的缺失值填充技術(shù)仍然存在填充不穩(wěn)定,填充精確度不夠高等問題。為此,本文對聚類算法進行了改進,并借助于三角不等式性質(zhì),提高填充算法的效率,并給出了離散型缺失值填充的方法。實驗結(jié)果顯示,改進后的算法不僅能夠有效的填充缺失值記錄,還擁有更好的運行效率。本文主要研究內(nèi)容如下。(1)通過研究發(fā)現(xiàn)傳統(tǒng)的DBSCAN缺失值填充算法使用固定的Eps鄰域半徑進行聚類,并且在非均勻密度數(shù)據(jù)集下填充效果不理想。針對這一缺點,本文對DBSCAN算法進行了改進。改進算法的主要思想:使用可變的MinPts...
【文章來源】:江蘇科技大學(xué)江蘇省
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 論文研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
第2章 數(shù)據(jù)清洗研究
2.1 數(shù)據(jù)清洗定義
2.2 數(shù)據(jù)清洗的原理與方法
2.2.1 數(shù)據(jù)清洗的原理
2.2.2 數(shù)據(jù)清洗的方法
2.3 數(shù)據(jù)清洗的基本過程
2.4 數(shù)據(jù)清洗的評價標(biāo)準(zhǔn)
2.4.1 數(shù)據(jù)質(zhì)量
2.4.2 成本效益
2.4.3 數(shù)據(jù)集成
2.5 本章小結(jié)
第3章 缺失值清洗和聚類
3.1 缺失值簡述
3.2 常用的缺失值清洗方法
3.3 聚類簡述
3.3.1 聚類算法的分類
3.3.2 聚類分析的基本步驟
3.4 本章小結(jié)
第4章 基于改進DBSCAN的缺失值填充算法研究
4.1 DBSCAN算法在缺失值填充中的應(yīng)用
4.1.1 DBSCAN算法
4.1.2 填充相似度度量方法
4.1.3 使用DBSCAN填充缺失值過程描述
4.1.4 應(yīng)用評價
4.2 改進的DBSCAN算法
4.2.1 算法主要概念和思想
4.2.2 算法步驟和偽代碼
4.2.3 算法復(fù)雜度分析
4.2.4 實驗結(jié)果與分析
4.3 三角不等式策略
4.4 離散型數(shù)據(jù)填充策略
4.5 改進后的缺失值填充算法
4.6 本章小結(jié)
第5章 實驗與分析
5.1 實驗環(huán)境
5.2 數(shù)據(jù)集的選取
5.3 實驗設(shè)計
5.4 實驗結(jié)果與分析
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 全文總結(jié)
6.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于改進凝聚層次聚類算法的變壓器繞組及鐵心故障診斷研究[J]. 李敏,陳果,沈大千,陳飛洋,羅宇昆,王昕. 高壓電器. 2018(01)
[2]xk-split:基于k-medoids的分裂式聚類算法[J]. 陳逸斐,虞慧群. 華東理工大學(xué)學(xué)報(自然科學(xué)版). 2017(06)
[3]數(shù)據(jù)清洗方法研究綜述[J]. 趙一凡,卞良,叢昕. 軟件導(dǎo)刊. 2017(12)
[4]一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法[J]. 李琳. 科技創(chuàng)新與應(yīng)用. 2017(21)
[5]淺談醫(yī)學(xué)數(shù)據(jù)常見質(zhì)量問題及其清洗方法[J]. 武瑞仙,周紅. 科技資訊. 2016(06)
[6]完全隨機缺失條件下分類隨機變量數(shù)據(jù)缺失插補方法的比較研究[J]. 張彪,韓偉,龐海玉,薛芳,厚磊,王子興,王鈺嫣,姜晶梅. 中國衛(wèi)生統(tǒng)計. 2015(05)
[7]數(shù)據(jù)挖掘過程中數(shù)據(jù)清洗的研究[J]. 孟龍梅. 通化師范學(xué)院學(xué)報. 2015(04)
[8]缺失偏t正態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計推斷[J]. 吳劉倉,張家茂,李玲雪. 應(yīng)用數(shù)學(xué). 2015(01)
[9]缺失數(shù)據(jù)插補方法探討——基于最近鄰插補法和關(guān)聯(lián)規(guī)則法[J]. 于力超,金勇進,王俊. 統(tǒng)計與信息論壇. 2015(01)
[10]有向圖的強連通分量及應(yīng)用[J]. 吳金全. 軟件. 2014(03)
碩士論文
[1]基于多重插補法的因果推斷研究[D]. 張冬陽.長春工業(yè)大學(xué) 2018
[2]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學(xué)梁.中國農(nóng)業(yè)科學(xué)院 2017
[3]改進的模糊聚類算法在電站運行優(yōu)化中的應(yīng)用[D]. 潘文凱.華北電力大學(xué) 2016
[4]數(shù)據(jù)清理關(guān)鍵技術(shù)在醫(yī)療保險管理系統(tǒng)的應(yīng)用研究[D]. 蔡鐘杰.蘭州交通大學(xué) 2014
[5]一種基于k-means算法和關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)填補方法[D]. 王策.哈爾濱工程大學(xué) 2014
[6]數(shù)據(jù)清洗系統(tǒng)中不一致數(shù)據(jù)修復(fù)子系統(tǒng)的設(shè)計與實現(xiàn)[D]. 門雪瑩.哈爾濱工業(yè)大學(xué) 2013
[7]基于統(tǒng)計學(xué)習(xí)的數(shù)據(jù)預(yù)處理缺失值清洗方法研究[D]. 曹林.哈爾濱工程大學(xué) 2012
[8]基于聚類算法的數(shù)據(jù)清洗的研究與實現(xiàn)[D]. 張燕.華北電力大學(xué)(河北) 2008
本文編號:3252902
【文章來源】:江蘇科技大學(xué)江蘇省
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 論文研究背景及意義
1.2 課題研究現(xiàn)狀
1.3 本文主要工作
1.4 論文組織結(jié)構(gòu)
第2章 數(shù)據(jù)清洗研究
2.1 數(shù)據(jù)清洗定義
2.2 數(shù)據(jù)清洗的原理與方法
2.2.1 數(shù)據(jù)清洗的原理
2.2.2 數(shù)據(jù)清洗的方法
2.3 數(shù)據(jù)清洗的基本過程
2.4 數(shù)據(jù)清洗的評價標(biāo)準(zhǔn)
2.4.1 數(shù)據(jù)質(zhì)量
2.4.2 成本效益
2.4.3 數(shù)據(jù)集成
2.5 本章小結(jié)
第3章 缺失值清洗和聚類
3.1 缺失值簡述
3.2 常用的缺失值清洗方法
3.3 聚類簡述
3.3.1 聚類算法的分類
3.3.2 聚類分析的基本步驟
3.4 本章小結(jié)
第4章 基于改進DBSCAN的缺失值填充算法研究
4.1 DBSCAN算法在缺失值填充中的應(yīng)用
4.1.1 DBSCAN算法
4.1.2 填充相似度度量方法
4.1.3 使用DBSCAN填充缺失值過程描述
4.1.4 應(yīng)用評價
4.2 改進的DBSCAN算法
4.2.1 算法主要概念和思想
4.2.2 算法步驟和偽代碼
4.2.3 算法復(fù)雜度分析
4.2.4 實驗結(jié)果與分析
4.3 三角不等式策略
4.4 離散型數(shù)據(jù)填充策略
4.5 改進后的缺失值填充算法
4.6 本章小結(jié)
第5章 實驗與分析
5.1 實驗環(huán)境
5.2 數(shù)據(jù)集的選取
5.3 實驗設(shè)計
5.4 實驗結(jié)果與分析
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 全文總結(jié)
6.2 工作展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于改進凝聚層次聚類算法的變壓器繞組及鐵心故障診斷研究[J]. 李敏,陳果,沈大千,陳飛洋,羅宇昆,王昕. 高壓電器. 2018(01)
[2]xk-split:基于k-medoids的分裂式聚類算法[J]. 陳逸斐,虞慧群. 華東理工大學(xué)學(xué)報(自然科學(xué)版). 2017(06)
[3]數(shù)據(jù)清洗方法研究綜述[J]. 趙一凡,卞良,叢昕. 軟件導(dǎo)刊. 2017(12)
[4]一種基于數(shù)據(jù)質(zhì)量維度的數(shù)據(jù)清洗方法[J]. 李琳. 科技創(chuàng)新與應(yīng)用. 2017(21)
[5]淺談醫(yī)學(xué)數(shù)據(jù)常見質(zhì)量問題及其清洗方法[J]. 武瑞仙,周紅. 科技資訊. 2016(06)
[6]完全隨機缺失條件下分類隨機變量數(shù)據(jù)缺失插補方法的比較研究[J]. 張彪,韓偉,龐海玉,薛芳,厚磊,王子興,王鈺嫣,姜晶梅. 中國衛(wèi)生統(tǒng)計. 2015(05)
[7]數(shù)據(jù)挖掘過程中數(shù)據(jù)清洗的研究[J]. 孟龍梅. 通化師范學(xué)院學(xué)報. 2015(04)
[8]缺失偏t正態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計推斷[J]. 吳劉倉,張家茂,李玲雪. 應(yīng)用數(shù)學(xué). 2015(01)
[9]缺失數(shù)據(jù)插補方法探討——基于最近鄰插補法和關(guān)聯(lián)規(guī)則法[J]. 于力超,金勇進,王俊. 統(tǒng)計與信息論壇. 2015(01)
[10]有向圖的強連通分量及應(yīng)用[J]. 吳金全. 軟件. 2014(03)
碩士論文
[1]基于多重插補法的因果推斷研究[D]. 張冬陽.長春工業(yè)大學(xué) 2018
[2]農(nóng)業(yè)大數(shù)據(jù)清洗方法比較研究[D]. 錢學(xué)梁.中國農(nóng)業(yè)科學(xué)院 2017
[3]改進的模糊聚類算法在電站運行優(yōu)化中的應(yīng)用[D]. 潘文凱.華北電力大學(xué) 2016
[4]數(shù)據(jù)清理關(guān)鍵技術(shù)在醫(yī)療保險管理系統(tǒng)的應(yīng)用研究[D]. 蔡鐘杰.蘭州交通大學(xué) 2014
[5]一種基于k-means算法和關(guān)聯(lián)規(guī)則的缺失數(shù)據(jù)填補方法[D]. 王策.哈爾濱工程大學(xué) 2014
[6]數(shù)據(jù)清洗系統(tǒng)中不一致數(shù)據(jù)修復(fù)子系統(tǒng)的設(shè)計與實現(xiàn)[D]. 門雪瑩.哈爾濱工業(yè)大學(xué) 2013
[7]基于統(tǒng)計學(xué)習(xí)的數(shù)據(jù)預(yù)處理缺失值清洗方法研究[D]. 曹林.哈爾濱工程大學(xué) 2012
[8]基于聚類算法的數(shù)據(jù)清洗的研究與實現(xiàn)[D]. 張燕.華北電力大學(xué)(河北) 2008
本文編號:3252902
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3252902.html
最近更新
教材專著