基于SMOTEBoosting和多種分類(lèi)算法的不平衡數(shù)據(jù)分類(lèi)問(wèn)題改進(jìn)情況的對(duì)照分析
發(fā)布時(shí)間:2020-06-29 07:54
【摘要】:伴隨著數(shù)據(jù)收集技術(shù)和互聯(lián)網(wǎng)科技的不斷進(jìn)步,欺詐交易檢測(cè)、網(wǎng)絡(luò)入侵檢測(cè)、web挖掘、直接營(yíng)銷(xiāo)和醫(yī)學(xué)診斷等領(lǐng)域顯現(xiàn)出越來(lái)越多的不平衡數(shù)據(jù)分類(lèi)問(wèn)題亟待解決。在本文中,我們著重關(guān)注不同分類(lèi)算法對(duì)不平衡數(shù)據(jù)分類(lèi)問(wèn)題的改進(jìn)情況。針對(duì)不平衡數(shù)據(jù),在總結(jié)以往給訓(xùn)練樣本分配不同權(quán)重和對(duì)原始數(shù)據(jù)重復(fù)采樣的兩種傳統(tǒng)方法的基礎(chǔ)上,引入2002年Chawla等人提出的模擬少數(shù)樣本過(guò)抽樣算法(SMOTE)及2009年Shengguo Hu等人針對(duì)SMOTE提出的改進(jìn)形式(MSMOTE),以此來(lái)對(duì)數(shù)據(jù)類(lèi)別的平衡性進(jìn)行預(yù)處理;其次選取代表性的分類(lèi)算法引入Boosting循環(huán),通過(guò)增加錯(cuò)分樣本再次被抽取的權(quán)重的方式來(lái)提高少數(shù)類(lèi)樣本分類(lèi)的準(zhǔn)確度,并將SMOTEBoosting模型應(yīng)用于財(cái)務(wù)預(yù)警領(lǐng)域。文中涉及的分類(lèi)算法從經(jīng)典的Logistic回歸、線性判別分析等傳統(tǒng)統(tǒng)計(jì)模型延伸到機(jī)器學(xué)習(xí)領(lǐng)域的決策樹(shù)、K近鄰以及近些年新興的并且備受各界關(guān)注的支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等算法模型。在模型的對(duì)比和評(píng)價(jià)方面,由于不平衡數(shù)據(jù)集中多數(shù)類(lèi)數(shù)據(jù)的數(shù)量明顯高于少數(shù)類(lèi),即使分類(lèi)器把全部樣本都標(biāo)記為多數(shù)類(lèi)也會(huì)實(shí)現(xiàn)很高的精度,因而使用通常的預(yù)測(cè)精度這一評(píng)價(jià)指標(biāo)并不合適。本文引入針對(duì)少數(shù)類(lèi)分類(lèi)的評(píng)價(jià)指標(biāo):精確率、召回率、F得分以及ROC曲線和AUC數(shù)值,對(duì)不同分類(lèi)模型針對(duì)不同數(shù)據(jù)集的分類(lèi)表現(xiàn)情況進(jìn)行多角度的對(duì)照分析。
【學(xué)位授予單位】:廈門(mén)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:O212.1;TP181
【圖文】:
es2:Pinla教據(jù)荃于線性判別分析的翎OTE和公洲OTE實(shí)驗(yàn)結(jié)果
邐基于SMOTEBoosting和多種分類(lèi)算法的不平衡數(shù)據(jù)分類(lèi)問(wèn)題改進(jìn)情況的對(duì)照分析邐逡逑圖4-2-7:邋pima數(shù)據(jù)基于線性判別分析的SMOTEBoosting和MSMOTEBoosting實(shí)驗(yàn)結(jié)果逡逑LDA-SMOTEBoosting邋of邋pima邐LDA-MSMOTEBoosting邋of邋pima逡逑
本文編號(hào):2733622
【學(xué)位授予單位】:廈門(mén)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類(lèi)號(hào)】:O212.1;TP181
【圖文】:
es2:Pinla教據(jù)荃于線性判別分析的翎OTE和公洲OTE實(shí)驗(yàn)結(jié)果
邐基于SMOTEBoosting和多種分類(lèi)算法的不平衡數(shù)據(jù)分類(lèi)問(wèn)題改進(jìn)情況的對(duì)照分析邐逡逑圖4-2-7:邋pima數(shù)據(jù)基于線性判別分析的SMOTEBoosting和MSMOTEBoosting實(shí)驗(yàn)結(jié)果逡逑LDA-SMOTEBoosting邋of邋pima邐LDA-MSMOTEBoosting邋of邋pima逡逑
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 鄭淑娟;劉遵雄;黃志強(qiáng);;最小最大概率分類(lèi)的財(cái)務(wù)預(yù)警模型[J];統(tǒng)計(jì)與決策;2013年06期
2 董樂(lè)紅;耿國(guó)華;高原;;Boosting算法綜述[J];計(jì)算機(jī)應(yīng)用與軟件;2006年08期
本文編號(hào):2733622
本文鏈接:http://www.sikaile.net/kejilunwen/yysx/2733622.html
最近更新
教材專(zhuān)著