天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于過采樣技術(shù)的不平衡數(shù)據(jù)分類研究

發(fā)布時(shí)間:2022-01-25 21:49
  隨著計(jì)算機(jī)技術(shù)的快速發(fā)展尤其是計(jì)算機(jī)硬件設(shè)備的進(jìn)步,海量數(shù)據(jù)集存儲(chǔ)和處理技術(shù)已經(jīng)融入各行各業(yè),其中數(shù)據(jù)挖掘是行業(yè)中常用的數(shù)據(jù)處理技術(shù),其通過數(shù)據(jù)處理和模型構(gòu)建為決策者提供更多的決策信息。在使用數(shù)據(jù)挖掘處理數(shù)據(jù)和構(gòu)建模型的過程中,經(jīng)常會(huì)遇到不平衡分類問題,即在分類問題中某些類的樣本數(shù)量多于其它類的樣本數(shù)量。然而傳統(tǒng)的分類算法假設(shè)數(shù)據(jù)分布是大致平衡的,因此在處理不平衡數(shù)據(jù)集時(shí)難以有良好的效果。本文針對(duì)不平衡數(shù)據(jù)的分類問題,對(duì)數(shù)據(jù)層面的改進(jìn)方法做了深入研究。本文的主要工作如下:(1)對(duì)目前經(jīng)典的過采樣算法做了詳細(xì)的介紹和分析。介紹了SMOTE,Boderline-SMOTE和ADASYN這三種經(jīng)典過采樣算法的原理,針對(duì)每個(gè)算法的特點(diǎn)分析了其各自的優(yōu)缺點(diǎn)。通過在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了以上分析。(2)為了增強(qiáng)分類邊界同時(shí)減少噪聲的生成,提出基于Lévy分布的過采樣算法LOTE。該算法將Lévy分布融合到采樣算法中,根據(jù)少數(shù)類樣本所處的位置,利用Lévy分布設(shè)置新樣本的密度分布。處于邊界的樣本對(duì)應(yīng)Lévy分布的最高點(diǎn),使得在邊界合成的新樣本密度最大,有利于增強(qiáng)分類邊界?拷鄶(shù)類的樣本對(duì)應(yīng)L... 

【文章來源】:江南大學(xué)江蘇省 211工程院校 教育部直屬院校

【文章頁數(shù)】:63 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于過采樣技術(shù)的不平衡數(shù)據(jù)分類研究


ROC-AUC示意圖

示例,樣本,超平面


≥ = = KKT 條件(Karush-Kuhn-Tucker 條件)[62]:{ ≥ ( ) ≥ ( ( ) ) = ( ) = ,當(dāng) 時(shí),一定有 ( ) = ,即 時(shí),樣本 不出現(xiàn)在公式(2-26)中,即不對(duì)決策結(jié)樣本影響最終的決策結(jié)果,這些樣本就成為支持向硬間隔(hard margin)的支持向量機(jī),即要求所有樣本應(yīng)用中,經(jīng)常會(huì)存在一些偏離了的樣本(outliers), 2-2 中由于 outliers 的存在,學(xué)習(xí)到的分割超平面最優(yōu)的分割超平面。為了解決該問題,將硬間隔的VM。通過引入松弛變量 ≥ ,允許某些偏離過大變?yōu)?( ) ≥ =

示意圖,算法,示意圖,樣本


新樣本個(gè)數(shù)越多。其中學(xué)習(xí)一個(gè)樣本的困難程度用即其 近鄰中的多數(shù)類樣本越多,學(xué)習(xí)該樣本就越每個(gè)少數(shù)類樣本 ,計(jì)算其基于歐氏距離的 = = 近鄰中屬于多數(shù)類的樣本個(gè)數(shù),因此 。對(duì): = ,使得 = , 即為每個(gè)少數(shù)例。此時(shí)假設(shè)需要合成的總樣本數(shù)為 ,那么每個(gè) × 。之后利用公式(3-1)對(duì)每個(gè)樣本進(jìn)行采樣。樣算法考慮了樣本的分布,新樣本的數(shù)量隨著樣本上增強(qiáng)了決策邊界。但樣本學(xué)習(xí)難度越大,表明該圍合成的樣本太多會(huì)放大數(shù)據(jù)集中的噪聲。如圖 3,其周圍 近鄰中的多數(shù)類樣本最多,ADASYN 在本的增多導(dǎo)致分類器性能的降低。

【參考文獻(xiàn)】:
期刊論文
[1]基于Lévy分布的柔軟自適應(yīng)演化采樣算法[J]. 張海鵬,張揚(yáng)帆,孫俊.  計(jì)算機(jī)應(yīng)用研究. 2019(07)
[2]基于代價(jià)敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J]. 楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成.  科學(xué)技術(shù)與工程. 2018(06)
[3]基于三支決策的不平衡數(shù)據(jù)過采樣方法[J]. 胡峰,王蕾,周耀.  電子學(xué)報(bào). 2018(01)
[4]基于改進(jìn)單類支持向量機(jī)的工業(yè)控制網(wǎng)絡(luò)入侵檢測方法[J]. 劉萬軍,秦濟(jì)韜,曲海成.  計(jì)算機(jī)應(yīng)用. 2018(05)
[5]基于不平衡數(shù)據(jù)樣本特性的新型過采樣SVM分類算法[J]. 黃海松,魏建安,康佩棟.  控制與決策. 2018(09)
[6]基于聚類欠采樣的集成不均衡數(shù)據(jù)分類算法[J]. 武森,劉露,盧丹.  工程科學(xué)學(xué)報(bào). 2017(08)
[7]基于主動(dòng)學(xué)習(xí)不平衡多分類AdaBoost算法的心臟病分類[J]. 王莉莉,付忠良,陶攀,胡鑫.  計(jì)算機(jī)應(yīng)用. 2017(07)
[8]采用多類代價(jià)指數(shù)損失函數(shù)的代價(jià)敏感AdaBoost算法[J]. 翟夕陽,王曉丹,李睿,賈琪.  西安交通大學(xué)學(xué)報(bào). 2017(08)
[9]基于改進(jìn)核主元分析的故障檢測方法研究[J]. 張珂,宋文麗,石懷濤,周乾.  控制工程. 2017(02)
[10]面向不均衡數(shù)據(jù)集中少數(shù)類細(xì)分的過采樣算法[J]. 古平,楊煬.  計(jì)算機(jī)工程. 2017(02)



本文編號(hào):3609264

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3609264.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1ffe0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com