基于過采樣技術(shù)的不平衡數(shù)據(jù)分類研究
發(fā)布時(shí)間:2022-01-25 21:49
隨著計(jì)算機(jī)技術(shù)的快速發(fā)展尤其是計(jì)算機(jī)硬件設(shè)備的進(jìn)步,海量數(shù)據(jù)集存儲(chǔ)和處理技術(shù)已經(jīng)融入各行各業(yè),其中數(shù)據(jù)挖掘是行業(yè)中常用的數(shù)據(jù)處理技術(shù),其通過數(shù)據(jù)處理和模型構(gòu)建為決策者提供更多的決策信息。在使用數(shù)據(jù)挖掘處理數(shù)據(jù)和構(gòu)建模型的過程中,經(jīng)常會(huì)遇到不平衡分類問題,即在分類問題中某些類的樣本數(shù)量多于其它類的樣本數(shù)量。然而傳統(tǒng)的分類算法假設(shè)數(shù)據(jù)分布是大致平衡的,因此在處理不平衡數(shù)據(jù)集時(shí)難以有良好的效果。本文針對(duì)不平衡數(shù)據(jù)的分類問題,對(duì)數(shù)據(jù)層面的改進(jìn)方法做了深入研究。本文的主要工作如下:(1)對(duì)目前經(jīng)典的過采樣算法做了詳細(xì)的介紹和分析。介紹了SMOTE,Boderline-SMOTE和ADASYN這三種經(jīng)典過采樣算法的原理,針對(duì)每個(gè)算法的特點(diǎn)分析了其各自的優(yōu)缺點(diǎn)。通過在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了以上分析。(2)為了增強(qiáng)分類邊界同時(shí)減少噪聲的生成,提出基于Lévy分布的過采樣算法LOTE。該算法將Lévy分布融合到采樣算法中,根據(jù)少數(shù)類樣本所處的位置,利用Lévy分布設(shè)置新樣本的密度分布。處于邊界的樣本對(duì)應(yīng)Lévy分布的最高點(diǎn),使得在邊界合成的新樣本密度最大,有利于增強(qiáng)分類邊界?拷鄶(shù)類的樣本對(duì)應(yīng)L...
【文章來源】:江南大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ROC-AUC示意圖
≥ = = KKT 條件(Karush-Kuhn-Tucker 條件)[62]:{ ≥ ( ) ≥ ( ( ) ) = ( ) = ,當(dāng) 時(shí),一定有 ( ) = ,即 時(shí),樣本 不出現(xiàn)在公式(2-26)中,即不對(duì)決策結(jié)樣本影響最終的決策結(jié)果,這些樣本就成為支持向硬間隔(hard margin)的支持向量機(jī),即要求所有樣本應(yīng)用中,經(jīng)常會(huì)存在一些偏離了的樣本(outliers), 2-2 中由于 outliers 的存在,學(xué)習(xí)到的分割超平面最優(yōu)的分割超平面。為了解決該問題,將硬間隔的VM。通過引入松弛變量 ≥ ,允許某些偏離過大變?yōu)?( ) ≥ =
新樣本個(gè)數(shù)越多。其中學(xué)習(xí)一個(gè)樣本的困難程度用即其 近鄰中的多數(shù)類樣本越多,學(xué)習(xí)該樣本就越每個(gè)少數(shù)類樣本 ,計(jì)算其基于歐氏距離的 = = 近鄰中屬于多數(shù)類的樣本個(gè)數(shù),因此 。對(duì): = ,使得 = , 即為每個(gè)少數(shù)例。此時(shí)假設(shè)需要合成的總樣本數(shù)為 ,那么每個(gè) × 。之后利用公式(3-1)對(duì)每個(gè)樣本進(jìn)行采樣。樣算法考慮了樣本的分布,新樣本的數(shù)量隨著樣本上增強(qiáng)了決策邊界。但樣本學(xué)習(xí)難度越大,表明該圍合成的樣本太多會(huì)放大數(shù)據(jù)集中的噪聲。如圖 3,其周圍 近鄰中的多數(shù)類樣本最多,ADASYN 在本的增多導(dǎo)致分類器性能的降低。
【參考文獻(xiàn)】:
期刊論文
[1]基于Lévy分布的柔軟自適應(yīng)演化采樣算法[J]. 張海鵬,張揚(yáng)帆,孫俊. 計(jì)算機(jī)應(yīng)用研究. 2019(07)
[2]基于代價(jià)敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J]. 楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成. 科學(xué)技術(shù)與工程. 2018(06)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[4]基于改進(jìn)單類支持向量機(jī)的工業(yè)控制網(wǎng)絡(luò)入侵檢測方法[J]. 劉萬軍,秦濟(jì)韜,曲海成. 計(jì)算機(jī)應(yīng)用. 2018(05)
[5]基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[6]基于聚類欠采樣的集成不均衡數(shù)據(jù)分類算法[J]. 武森,劉露,盧丹. 工程科學(xué)學(xué)報(bào). 2017(08)
[7]基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost算法的心臟病分類[J]. 王莉莉,付忠良,陶攀,胡鑫. 計(jì)算機(jī)應(yīng)用. 2017(07)
[8]采用多類代價(jià)指數(shù)損失函數(shù)的代價(jià)敏感AdaBoost算法[J]. 翟夕陽,王曉丹,李睿,賈琪. 西安交通大學(xué)學(xué)報(bào). 2017(08)
[9]基于改進(jìn)核主元分析的故障檢測方法研究[J]. 張珂,宋文麗,石懷濤,周乾. 控制工程. 2017(02)
[10]面向不均衡數(shù)據(jù)集中少數(shù)類細(xì)分的過采樣算法[J]. 古平,楊煬. 計(jì)算機(jī)工程. 2017(02)
本文編號(hào):3609264
【文章來源】:江南大學(xué)江蘇省 211工程院校 教育部直屬院校
【文章頁數(shù)】:63 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
ROC-AUC示意圖
≥ = = KKT 條件(Karush-Kuhn-Tucker 條件)[62]:{ ≥ ( ) ≥ ( ( ) ) = ( ) = ,當(dāng) 時(shí),一定有 ( ) = ,即 時(shí),樣本 不出現(xiàn)在公式(2-26)中,即不對(duì)決策結(jié)樣本影響最終的決策結(jié)果,這些樣本就成為支持向硬間隔(hard margin)的支持向量機(jī),即要求所有樣本應(yīng)用中,經(jīng)常會(huì)存在一些偏離了的樣本(outliers), 2-2 中由于 outliers 的存在,學(xué)習(xí)到的分割超平面最優(yōu)的分割超平面。為了解決該問題,將硬間隔的VM。通過引入松弛變量 ≥ ,允許某些偏離過大變?yōu)?( ) ≥ =
新樣本個(gè)數(shù)越多。其中學(xué)習(xí)一個(gè)樣本的困難程度用即其 近鄰中的多數(shù)類樣本越多,學(xué)習(xí)該樣本就越每個(gè)少數(shù)類樣本 ,計(jì)算其基于歐氏距離的 = = 近鄰中屬于多數(shù)類的樣本個(gè)數(shù),因此 。對(duì): = ,使得 = , 即為每個(gè)少數(shù)例。此時(shí)假設(shè)需要合成的總樣本數(shù)為 ,那么每個(gè) × 。之后利用公式(3-1)對(duì)每個(gè)樣本進(jìn)行采樣。樣算法考慮了樣本的分布,新樣本的數(shù)量隨著樣本上增強(qiáng)了決策邊界。但樣本學(xué)習(xí)難度越大,表明該圍合成的樣本太多會(huì)放大數(shù)據(jù)集中的噪聲。如圖 3,其周圍 近鄰中的多數(shù)類樣本最多,ADASYN 在本的增多導(dǎo)致分類器性能的降低。
【參考文獻(xiàn)】:
期刊論文
[1]基于Lévy分布的柔軟自適應(yīng)演化采樣算法[J]. 張海鵬,張揚(yáng)帆,孫俊. 計(jì)算機(jī)應(yīng)用研究. 2019(07)
[2]基于代價(jià)敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J]. 楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成. 科學(xué)技術(shù)與工程. 2018(06)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀. 電子學(xué)報(bào). 2018(01)
[4]基于改進(jìn)單類支持向量機(jī)的工業(yè)控制網(wǎng)絡(luò)入侵檢測方法[J]. 劉萬軍,秦濟(jì)韜,曲海成. 計(jì)算機(jī)應(yīng)用. 2018(05)
[5]基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟. 控制與決策. 2018(09)
[6]基于聚類欠采樣的集成不均衡數(shù)據(jù)分類算法[J]. 武森,劉露,盧丹. 工程科學(xué)學(xué)報(bào). 2017(08)
[7]基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost算法的心臟病分類[J]. 王莉莉,付忠良,陶攀,胡鑫. 計(jì)算機(jī)應(yīng)用. 2017(07)
[8]采用多類代價(jià)指數(shù)損失函數(shù)的代價(jià)敏感AdaBoost算法[J]. 翟夕陽,王曉丹,李睿,賈琪. 西安交通大學(xué)學(xué)報(bào). 2017(08)
[9]基于改進(jìn)核主元分析的故障檢測方法研究[J]. 張珂,宋文麗,石懷濤,周乾. 控制工程. 2017(02)
[10]面向不均衡數(shù)據(jù)集中少數(shù)類細(xì)分的過采樣算法[J]. 古平,楊煬. 計(jì)算機(jī)工程. 2017(02)
本文編號(hào):3609264
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3609264.html
最近更新
教材專著