天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于決策樹的不平衡數(shù)據(jù)集分類問題研究

發(fā)布時(shí)間:2023-04-28 15:03
  分類問題中,當(dāng)數(shù)據(jù)集中某類別所包含的樣本數(shù)目顯著少于其他類別時(shí),很多分類算法的準(zhǔn)確率明顯下降。針對(duì)這一問題,研究者們提出了多種解決方法,其中以決策樹為基分類器的集成學(xué)習(xí)方法是重要的一類。本文研究了決策樹處理不平衡數(shù)據(jù)集的三個(gè)問題。第一,不同于常用的將少數(shù)類與多數(shù)類樣本數(shù)目調(diào)整至相近的采樣方法,本文從決策樹最優(yōu)分裂的角度,提出了在不同分裂指標(biāo)下確定少數(shù)類過采樣比例的算法;第二,對(duì)于調(diào)整樣本類別比例對(duì)二分類決策樹分裂的影響,本文從最優(yōu)分裂特征的選擇出發(fā),給出了類分布變化對(duì)二分類決策樹影響程度的判別方法;第三,本文研究了采樣方法調(diào)整了訓(xùn)練集的類分布后,二分類分類器后驗(yàn)概率估計(jì)出現(xiàn)的偏差,并給出了一種修正后驗(yàn)概率估計(jì)偏差的簡潔方式。結(jié)合第二章的主要結(jié)論,在第三章,對(duì)于過采樣與集成學(xué)習(xí)結(jié)合的處理方法SMOTEBoost,本文將算法每次迭代中固定的過采樣數(shù)目,改進(jìn)為根據(jù)樣本類別數(shù)目做適應(yīng)性調(diào)整;對(duì)于欠抽樣與集成學(xué)習(xí)結(jié)合的處理方法EUSBoost,本文對(duì)其后驗(yàn)概率估計(jì)的偏差進(jìn)行了修正。在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了以上改進(jìn)均提升了分類效果。

【文章頁數(shù)】:43 頁

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
ABSTRACT
主要符號(hào)對(duì)照表
第一章 不平衡數(shù)據(jù)集分類問題
    1.1 不平衡數(shù)據(jù)集分類問題綜述
    1.2 本文的工作
第二章 不平衡集下決策樹的生成
    2.1 決策樹的分裂
    2.2 提出不平衡集多分類問題的采樣算法
    2.3 提出類分布變化對(duì)節(jié)點(diǎn)分裂影響程度的判別算法
    2.4 給出調(diào)整后驗(yàn)概率估計(jì)偏差的簡化方法
    2.5 本章小結(jié)
第三章 采樣與集成
    3.1 集成方法介紹
    3.2 改進(jìn)SMOTEBoost算法
        3.2.1 ASMOTEBoost算法
        3.2.2 實(shí)驗(yàn)結(jié)果
    3.3 改進(jìn)EUSBoost算法
        3.3.1 cEUSBoost算法
        3.3.2 實(shí)驗(yàn)結(jié)果
    3.4 本章小結(jié)
第四章 結(jié)束語
    4.1 主要工作與創(chuàng)新點(diǎn)
    4.2 后續(xù)研究工作
參考文獻(xiàn)
致謝



本文編號(hào):3804032

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3804032.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c6e9e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com