面向不平衡數(shù)據(jù)的離群點檢測研究
本文關(guān)鍵詞:面向不平衡數(shù)據(jù)的離群點檢測研究 出處:《青島科技大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 離群點 不平衡數(shù)據(jù) K-modes 聚類 SMOTE 過采樣技術(shù) 混合采樣 集成學(xué)習(xí)
【摘要】:隨著信息技術(shù)、網(wǎng)絡(luò)的日益普及,收集和存儲的數(shù)據(jù)越來越多,這些數(shù)據(jù)雜亂無章、毫無規(guī)律。數(shù)據(jù)挖掘技術(shù)就是從這些大量的、雜亂的數(shù)據(jù)中獲得對人們有價值的信息。近年來,離群點檢測已成為數(shù)據(jù)挖掘中一個重要的研究領(lǐng)域。離群點是指與其他對象具有明顯差異的數(shù)據(jù)。離群點檢測可以挖掘出數(shù)據(jù)中一小部分具有異常行為或?qū)傩缘膶ο?這些對象背后可能隱藏著非常有價值的信息或知識。在欺詐檢測、入侵檢測、故障診斷等許多領(lǐng)域中,離群點檢測都有廣泛的應(yīng)用,F(xiàn)有的離群點檢測方法還存在不少問題,例如,沒有考慮數(shù)據(jù)的類別不平衡問題。離群點的數(shù)量要遠少于非離群點,因此,將不平衡數(shù)據(jù)的處理方法引入到離群點檢測之中,可以更加有效地對離群點進行檢測。然而,當(dāng)前的不平衡數(shù)據(jù)處理方法主要針對數(shù)值型數(shù)據(jù)進行分析,不能有效處理類別型數(shù)據(jù)。在現(xiàn)實生活中,我們經(jīng)常會遇到大量的類別型數(shù)據(jù),我們需要從這些類別型數(shù)據(jù)中檢測離群點。由于類別型數(shù)據(jù)不具備數(shù)值型數(shù)據(jù)的幾何特性,因此,不能直接采用現(xiàn)有的方法進行處理,需要針對類別型不平衡數(shù)據(jù)提出專門的處理方法。為了解決上述問題,本文將研究類別型不平衡數(shù)據(jù)中的離群點檢測問題。首先,提出一種基于加權(quán)重疊距離的K-modes聚類算法WODKM;其次,將WODKM算法與SMOTE方法結(jié)合在一起,提出一種針對類別型不平衡數(shù)據(jù)的混合采樣算法HS_WODKM;第三,利用HS_WODKM算法以及集成學(xué)習(xí)來進行離群點檢測,從而可以從類別型不平衡數(shù)據(jù)中有效地檢測出離群點。本文的工作主要包括以下幾個方面:首先,對傳統(tǒng)的K-modes聚類算法進行改進,提出一種基于加權(quán)重疊距離的K-modes聚類算法WODKM。WODKM算法充分考慮了重要性不同的屬性對聚類的影響,不同的屬性在聚類時被賦予不同的權(quán)值,從而提高了聚類質(zhì)量。實驗結(jié)果表明,WODKM算法在聚類精度上比傳統(tǒng)的K-modes算法更加高效。其次,針對類別型不平衡數(shù)據(jù),提出一種混合采樣算法HS_WODKM。HS_WODKM算法通過增加正類樣本個數(shù)并減少負類樣本個數(shù)這種混合采樣策略來解決類別型數(shù)據(jù)的不平衡問題。利用改進的SMOTE方法對正類樣本進行過采樣,并利用WODKM算法對負類樣本進行降采樣。通過上述兩種采樣策略的共同使用,可以有效避免由于樣本類別不平衡而導(dǎo)致的過擬合問題。實驗結(jié)果表明,采用HS_WODKM來處理類別型不平衡數(shù)據(jù)是有效的。第三,提出一種基于混合采樣與集成學(xué)習(xí)的離群點檢測方法,可以從類別型不平衡數(shù)據(jù)中有效地檢測出離群點。該方法首先利用HS_WODKM算法對不平衡數(shù)據(jù)集進行混合采樣,從而得到一個平衡的數(shù)據(jù)集,然后在預(yù)處理之后的數(shù)據(jù)集上利用集成學(xué)習(xí)算法進行離群點檢測。實驗結(jié)果表明,我們所提出的方法具有更好的離群點檢測性能。
【學(xué)位授予單位】:青島科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP311.13
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 柴雯;左美云;許偉;王軼博;;SNS中影響力用戶預(yù)測研究——基于不平衡數(shù)據(jù)的多種數(shù)據(jù)挖掘方法對比[J];系統(tǒng)科學(xué)與數(shù)學(xué);2015年09期
2 辛麗玲;何威;于劍;賈彩燕;;一種基于密度差異的離群點檢測算法[J];山東大學(xué)學(xué)報(工學(xué)版);2015年03期
3 江峰;王莎莎;杜軍威;眭躍飛;;基于近似決策熵的屬性約簡[J];控制與決策;2015年01期
4 薛安榮;何峰;聞丹丹;;基于全息熵的空間離群點挖掘算法研究[J];計算機應(yīng)用研究;2014年02期
5 王敬華;趙新想;張國燕;劉建銀;;NLOF:一種新的基于密度的局部離群點檢測算法[J];計算機科學(xué);2013年08期
6 楊福萍;王洪國;董樹霞;牛家洋;丁艷輝;;基于聚類劃分的兩階段離群點檢測算法[J];計算機應(yīng)用研究;2013年07期
7 江峰;眭躍飛;曹存根;;粗糙集中的距離度量與離群點檢測[J];控制與決策;2013年02期
8 于重重;田蕊;譚勵;涂序彥;;非平衡樣本分類的集成遷移學(xué)習(xí)算法[J];電子學(xué)報;2012年07期
9 李雄飛;李軍;董元方;屈成偉;;一種新的不平衡數(shù)據(jù)學(xué)習(xí)算法PCBoost[J];計算機學(xué)報;2012年02期
10 林舒楊;李翠華;江弋;林琛;鄒權(quán);;不平衡數(shù)據(jù)的降采樣方法研究[J];計算機研究與發(fā)展;2011年S3期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 張友強;基于選擇性集成學(xué)習(xí)的離群點檢測研究[D];青島科技大學(xué);2016年
2 陳斌;SMOTE不平衡數(shù)據(jù)過采樣算法的改進與應(yīng)用[D];廣西大學(xué);2015年
3 張佃倫;基于粗糙集的聚類算法及其在入侵檢測中的應(yīng)用[D];青島科技大學(xué);2015年
4 徐子龍;代價敏感學(xué)習(xí)中屬性約簡與決策樹分類若干關(guān)鍵問題研究[D];閩南師范大學(xué);2014年
5 王莎莎;基于粗糙集和離群點挖掘的網(wǎng)絡(luò)入侵檢測研究[D];青島科技大學(xué);2014年
6 余澤;混合屬性聚類融合及數(shù)據(jù)流聚類算法研究[D];浙江工業(yè)大學(xué);2014年
7 歐陽源怞;基于混合采樣的非平衡數(shù)據(jù)集分類研究[D];重慶大學(xué);2014年
8 胡婷婷;數(shù)據(jù)挖掘中的離群點檢測算法研究[D];廈門大學(xué);2014年
9 陸洪濤;偏最小二乘回歸數(shù)學(xué)模型及其算法研究[D];華北電力大學(xué);2014年
10 宋海燕;基于集成學(xué)習(xí)的不平衡數(shù)據(jù)分類[D];西安電子科技大學(xué);2014年
,本文編號:1308402
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1308402.html