基于混合采樣AdaBoost的地中海貧血數(shù)據(jù)診斷研究
發(fā)布時間:2021-02-28 18:52
地中海貧血病是一種嚴(yán)重的血紅蛋白病,目前尚無根治方法,中、重型患者會給家庭和社會帶來沉重負(fù)擔(dān),有效避免其患兒的出生變得尤為重要。目前機器學(xué)習(xí)在地中海貧血預(yù)警領(lǐng)域應(yīng)用不廣,文中提出了一種新的混合采樣AdaBoost算法,對少類樣本進行DSMOTE處理,對多類樣本采用隨機下采樣處理,并將平衡后的數(shù)據(jù)集送入AdaBoost分類器進行分類訓(xùn)練。針對不同的采樣方法和分類器進行仿真驗證,結(jié)果表明所提方法的綜合性能評估具有一定的優(yōu)越性,對地中海貧血臨床預(yù)警有一定指導(dǎo)意義。
【文章來源】:數(shù)據(jù)通信. 2020,(05)
【文章頁數(shù)】:5 頁
【部分圖文】:
隨機森林特征選擇
從表4可以看出以上4種分類模型效果相差不大,但是相對而言LR分類器在FN相差不大的情況下,F(xiàn)P最大,會對受檢者造成嚴(yán)重的經(jīng)濟損失。而KNN和SVM性能相差不大,但依然沒有Ada Boost好。表5是不同分類器下的評價指標(biāo)值,相對而言,所提混合采樣Ada Boost的Acc、Pre、Spe和F值都有明顯優(yōu)勢。圖3展示了4種機器學(xué)習(xí)的5種指標(biāo)柱狀圖,圖中可以清晰的看出所提出的混合采樣下Adaboost算法的各項指標(biāo)相對其他算法而言具有一定的優(yōu)勢。結(jié)合表4和圖3可知混合采樣Adaboost算法性能最優(yōu)。
鑒于不平衡數(shù)據(jù)的特征采用單一采樣方法仍存在的缺點,本文提出一種基于混合采樣Ada Boost算法。該算法主要從少類樣本的生成方式及生成數(shù)目入手,并把平衡后的數(shù)據(jù)集送入Ada Boost算法,在數(shù)據(jù)層對比了SMOTE過采樣和Under下采樣;算法層對比了LR、KNN和SVM分類器。實驗結(jié)果表明,所提方法在評價指標(biāo)上存在一定的優(yōu)越性,可為地中海貧血臨床預(yù)警提供一定的參考價值。
【參考文獻】:
期刊論文
[1]基于隨機森林模型的交界域火災(zāi)風(fēng)險分析[J]. 侯曉靜,明金科,秦榮水,朱霽平. 林業(yè)科學(xué). 2019(08)
[2]不平衡分類的數(shù)據(jù)采樣方法綜述[J]. 劉定祥,喬少杰,張永清,韓楠,魏軍林,張榕珂,黃萍. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2019(07)
[3]基于概率采樣和集成學(xué)習(xí)的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計算機科學(xué). 2019(05)
[4]基于KELM-AdaBoost方法的短期風(fēng)電功率預(yù)測(英文)[J]. 李軍,閆佳佳. 控制工程. 2019(03)
[5]基于混合采樣的非平衡數(shù)據(jù)分類算法[J]. 吳藝凡,梁吉業(yè),王俊紅. 計算機科學(xué)與探索. 2019(02)
[6]基于混淆矩陣的多目標(biāo)優(yōu)化三支決策模型[J]. 徐健鋒,苗奪謙,張遠健. 模式識別與人工智能. 2017(09)
[7]中國南方地區(qū)地中海貧血研究進展[J]. 楊陽,張杰. 中國實驗血液學(xué)雜志. 2017(01)
[8]基于AdaBoost的類不平衡學(xué)習(xí)算法[J]. 秦孟梅,邱建林,陸鵬程,陳璐璐,趙偉康. 計算機應(yīng)用研究. 2017(11)
[9]Constructing ECOC based on confusion matrix for multiclass learning problems[J]. Jindeng ZHOU,Yun YANG,Mingjie ZHANG,Haibo XING. Science China(Information Sciences). 2016(01)
[10]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛. 模式識別與人工智能. 2010(06)
博士論文
[1]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟貿(mào)易大學(xué) 2014
碩士論文
[1]地中海貧血疾病篩查方案的Meta分析[D]. 任俊香.昆明理工大學(xué) 2016
本文編號:3056293
【文章來源】:數(shù)據(jù)通信. 2020,(05)
【文章頁數(shù)】:5 頁
【部分圖文】:
隨機森林特征選擇
從表4可以看出以上4種分類模型效果相差不大,但是相對而言LR分類器在FN相差不大的情況下,F(xiàn)P最大,會對受檢者造成嚴(yán)重的經(jīng)濟損失。而KNN和SVM性能相差不大,但依然沒有Ada Boost好。表5是不同分類器下的評價指標(biāo)值,相對而言,所提混合采樣Ada Boost的Acc、Pre、Spe和F值都有明顯優(yōu)勢。圖3展示了4種機器學(xué)習(xí)的5種指標(biāo)柱狀圖,圖中可以清晰的看出所提出的混合采樣下Adaboost算法的各項指標(biāo)相對其他算法而言具有一定的優(yōu)勢。結(jié)合表4和圖3可知混合采樣Adaboost算法性能最優(yōu)。
鑒于不平衡數(shù)據(jù)的特征采用單一采樣方法仍存在的缺點,本文提出一種基于混合采樣Ada Boost算法。該算法主要從少類樣本的生成方式及生成數(shù)目入手,并把平衡后的數(shù)據(jù)集送入Ada Boost算法,在數(shù)據(jù)層對比了SMOTE過采樣和Under下采樣;算法層對比了LR、KNN和SVM分類器。實驗結(jié)果表明,所提方法在評價指標(biāo)上存在一定的優(yōu)越性,可為地中海貧血臨床預(yù)警提供一定的參考價值。
【參考文獻】:
期刊論文
[1]基于隨機森林模型的交界域火災(zāi)風(fēng)險分析[J]. 侯曉靜,明金科,秦榮水,朱霽平. 林業(yè)科學(xué). 2019(08)
[2]不平衡分類的數(shù)據(jù)采樣方法綜述[J]. 劉定祥,喬少杰,張永清,韓楠,魏軍林,張榕珂,黃萍. 重慶理工大學(xué)學(xué)報(自然科學(xué)). 2019(07)
[3]基于概率采樣和集成學(xué)習(xí)的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計算機科學(xué). 2019(05)
[4]基于KELM-AdaBoost方法的短期風(fēng)電功率預(yù)測(英文)[J]. 李軍,閆佳佳. 控制工程. 2019(03)
[5]基于混合采樣的非平衡數(shù)據(jù)分類算法[J]. 吳藝凡,梁吉業(yè),王俊紅. 計算機科學(xué)與探索. 2019(02)
[6]基于混淆矩陣的多目標(biāo)優(yōu)化三支決策模型[J]. 徐健鋒,苗奪謙,張遠健. 模式識別與人工智能. 2017(09)
[7]中國南方地區(qū)地中海貧血研究進展[J]. 楊陽,張杰. 中國實驗血液學(xué)雜志. 2017(01)
[8]基于AdaBoost的類不平衡學(xué)習(xí)算法[J]. 秦孟梅,邱建林,陸鵬程,陳璐璐,趙偉康. 計算機應(yīng)用研究. 2017(11)
[9]Constructing ECOC based on confusion matrix for multiclass learning problems[J]. Jindeng ZHOU,Yun YANG,Mingjie ZHANG,Haibo XING. Science China(Information Sciences). 2016(01)
[10]基于聚類融合的不平衡數(shù)據(jù)分類方法[J]. 陳思,郭躬德,陳黎飛. 模式識別與人工智能. 2010(06)
博士論文
[1]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟貿(mào)易大學(xué) 2014
碩士論文
[1]地中海貧血疾病篩查方案的Meta分析[D]. 任俊香.昆明理工大學(xué) 2016
本文編號:3056293
本文鏈接:http://www.sikaile.net/yixuelunwen/xxg/3056293.html
最近更新
教材專著