缺失值填補(bǔ)效果:機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)習(xí)的比較
發(fā)布時(shí)間:2021-06-22 05:01
數(shù)據(jù)缺失是眾多影響數(shù)據(jù)質(zhì)量的因素中最常見(jiàn)的一種。如果處理不好缺失數(shù)據(jù),就會(huì)直接影響分析結(jié)果的可靠性,進(jìn)而達(dá)不到分析的目的。文章以醫(yī)療領(lǐng)域的缺失值問(wèn)題為例,通過(guò)靈敏度、準(zhǔn)確率和Kappa值三個(gè)指標(biāo)來(lái)比較分析機(jī)器填補(bǔ)法和統(tǒng)計(jì)填補(bǔ)法在不同缺失率下的填補(bǔ)效果。研究結(jié)果表明,在注重小比例人群的醫(yī)療領(lǐng)域,機(jī)器學(xué)習(xí)方法表現(xiàn)突出,該方法在三個(gè)方面皆優(yōu)于統(tǒng)計(jì)填補(bǔ)法。另外,隨著缺失率的增長(zhǎng),兩種填補(bǔ)方法的效果都有所下降,但值得注意的是,即使缺失率很高時(shí),機(jī)器學(xué)習(xí)方法的填補(bǔ)效果仍然優(yōu)于統(tǒng)計(jì)方法,且具有很高的穩(wěn)定性。
【文章來(lái)源】:統(tǒng)計(jì)與決策. 2020,36(17)北大核心CSSCI
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
不同缺失率下各填補(bǔ)方法的靈敏度變化情況100%100%90%C5.0SVMRFMI熱卡填補(bǔ)眾數(shù)填補(bǔ)90%85%10%30%40%50%0%10%30%40%50%
謔?畈?0.0000.6500.000MI0.6170.6730.308熱卡填補(bǔ)0.6900.7650.5792.3.2不同評(píng)價(jià)方法下各模型的比較考慮不同缺失率下,代表機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法的各填補(bǔ)方法對(duì)填補(bǔ)效果的影響。以準(zhǔn)確率、精確率、一致性為分析對(duì)象,分別如圖1至圖3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖1不同缺失率下各填補(bǔ)方法的靈敏度變化情況100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖2不同缺失率下各填補(bǔ)方法的準(zhǔn)確率變化情況10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖3不同缺失率下各填補(bǔ)方法的Kappa值變化情況圖1靈敏度的評(píng)價(jià)效果表明,支持向量機(jī)隨缺失率的變化呈現(xiàn)先增長(zhǎng)再下降的趨勢(shì),在缺失率為30%時(shí),甚至達(dá)到最大值1.000;隨機(jī)森林隨缺失率的增加呈現(xiàn)穩(wěn)定發(fā)展,基本維持在95%的水平。熱卡填補(bǔ)法隨缺失率的增加不斷下降,最終只有不到0.70;多重填補(bǔ)在缺失率大于30%后呈現(xiàn)一定的下降,之后穩(wěn)定在0.60的水平;眾數(shù)填補(bǔ)的靈敏度始終維持在0的水平。圖2準(zhǔn)確率的評(píng)價(jià)效果表明,隨機(jī)森林填補(bǔ)法在各缺失率下的變化較為穩(wěn)定且保持高水平;支持向量機(jī)的各項(xiàng)指標(biāo)在10%~30%的缺失率下保持增長(zhǎng)趨勢(shì),并在30%處指標(biāo)值達(dá)到最大,此后有所下降;決策樹(shù)在缺失率40%之前呈穩(wěn)定變化,此后卻出現(xiàn)斷崖式下降。熱卡填補(bǔ)隨著缺失率的增加,不斷下降;多重填補(bǔ)法在缺失率不足30%時(shí)維持穩(wěn)定,此后出現(xiàn)明顯下降,當(dāng)缺失率大于40%時(shí),已經(jīng)下降到0.65;眾數(shù)填補(bǔ)不隨缺失率的改變而變化,始終維持在0.65的水平。圖3一致性的評(píng)價(jià)效果表明,支?
填補(bǔ),眾數(shù)填補(bǔ)依然表現(xiàn)最差,除了準(zhǔn)確率維持0.650不變外,靈敏度和Kappa值均為0。表650%缺失率下不同模型的各評(píng)價(jià)指標(biāo)的情況方法模型靈敏度準(zhǔn)確率Kappa值機(jī)器學(xué)習(xí)法C5.00.8920.9500.889RF0.9580.9770.949SVM0.9420.9710.935統(tǒng)計(jì)方法眾數(shù)填補(bǔ)0.0000.6500.000MI0.6170.6730.308熱卡填補(bǔ)0.6900.7650.5792.3.2不同評(píng)價(jià)方法下各模型的比較考慮不同缺失率下,代表機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法的各填補(bǔ)方法對(duì)填補(bǔ)效果的影響。以準(zhǔn)確率、精確率、一致性為分析對(duì)象,分別如圖1至圖3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖1不同缺失率下各填補(bǔ)方法的靈敏度變化情況100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖2不同缺失率下各填補(bǔ)方法的準(zhǔn)確率變化情況10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖3不同缺失率下各填補(bǔ)方法的Kappa值變化情況圖1靈敏度的評(píng)價(jià)效果表明,支持向量機(jī)隨缺失率的變化呈現(xiàn)先增長(zhǎng)再下降的趨勢(shì),在缺失率為30%時(shí),甚至達(dá)到最大值1.000;隨機(jī)森林隨缺失率的增加呈現(xiàn)穩(wěn)定發(fā)展,基本維持在95%的水平。熱卡填補(bǔ)法隨缺失率的增加不斷下降,最終只有不到0.70;多重填補(bǔ)在缺失率大于30%后呈現(xiàn)一定的下降,之后穩(wěn)定在0.60的水平;眾數(shù)填補(bǔ)的靈敏度始終維持在0的水平。圖2準(zhǔn)確率的評(píng)價(jià)效果表明,隨機(jī)森林填補(bǔ)法在各缺失率下的變化較為穩(wěn)定且保持高水平;支持向量機(jī)的各項(xiàng)指標(biāo)在10%~30%的缺失率下保持增長(zhǎng)趨勢(shì),并在30%處指標(biāo)值達(dá)到最大,此后有所下降;決策樹(shù)在缺
【參考文獻(xiàn)】:
期刊論文
[1]基于優(yōu)化決策樹(shù)和EM的缺失數(shù)據(jù)填充算法[J]. 梁秉毅,蔡延光,蔡顥,戚遠(yuǎn)航,黃何列,Ole Hejlesen. 自動(dòng)化與信息工程. 2017(05)
[2]基于聚類(lèi)分析的缺失數(shù)據(jù)最近鄰填補(bǔ)算法[J]. 張赤,豐洪才,金凱,楊婷. 計(jì)算機(jī)應(yīng)用與軟件. 2014(05)
[3]一種基于支持向量機(jī)的缺失值填補(bǔ)算法[J]. 張嬋. 計(jì)算機(jī)應(yīng)用與軟件. 2013(05)
[4]基于支持向量機(jī)的缺失數(shù)據(jù)補(bǔ)齊方法[J]. 趙磊,李國(guó)和,馬現(xiàn)峰. 計(jì)算機(jī)工程與應(yīng)用. 2006(36)
本文編號(hào):3242174
【文章來(lái)源】:統(tǒng)計(jì)與決策. 2020,36(17)北大核心CSSCI
【文章頁(yè)數(shù)】:5 頁(yè)
【部分圖文】:
不同缺失率下各填補(bǔ)方法的靈敏度變化情況100%100%90%C5.0SVMRFMI熱卡填補(bǔ)眾數(shù)填補(bǔ)90%85%10%30%40%50%0%10%30%40%50%
謔?畈?0.0000.6500.000MI0.6170.6730.308熱卡填補(bǔ)0.6900.7650.5792.3.2不同評(píng)價(jià)方法下各模型的比較考慮不同缺失率下,代表機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法的各填補(bǔ)方法對(duì)填補(bǔ)效果的影響。以準(zhǔn)確率、精確率、一致性為分析對(duì)象,分別如圖1至圖3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖1不同缺失率下各填補(bǔ)方法的靈敏度變化情況100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖2不同缺失率下各填補(bǔ)方法的準(zhǔn)確率變化情況10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖3不同缺失率下各填補(bǔ)方法的Kappa值變化情況圖1靈敏度的評(píng)價(jià)效果表明,支持向量機(jī)隨缺失率的變化呈現(xiàn)先增長(zhǎng)再下降的趨勢(shì),在缺失率為30%時(shí),甚至達(dá)到最大值1.000;隨機(jī)森林隨缺失率的增加呈現(xiàn)穩(wěn)定發(fā)展,基本維持在95%的水平。熱卡填補(bǔ)法隨缺失率的增加不斷下降,最終只有不到0.70;多重填補(bǔ)在缺失率大于30%后呈現(xiàn)一定的下降,之后穩(wěn)定在0.60的水平;眾數(shù)填補(bǔ)的靈敏度始終維持在0的水平。圖2準(zhǔn)確率的評(píng)價(jià)效果表明,隨機(jī)森林填補(bǔ)法在各缺失率下的變化較為穩(wěn)定且保持高水平;支持向量機(jī)的各項(xiàng)指標(biāo)在10%~30%的缺失率下保持增長(zhǎng)趨勢(shì),并在30%處指標(biāo)值達(dá)到最大,此后有所下降;決策樹(shù)在缺失率40%之前呈穩(wěn)定變化,此后卻出現(xiàn)斷崖式下降。熱卡填補(bǔ)隨著缺失率的增加,不斷下降;多重填補(bǔ)法在缺失率不足30%時(shí)維持穩(wěn)定,此后出現(xiàn)明顯下降,當(dāng)缺失率大于40%時(shí),已經(jīng)下降到0.65;眾數(shù)填補(bǔ)不隨缺失率的改變而變化,始終維持在0.65的水平。圖3一致性的評(píng)價(jià)效果表明,支?
填補(bǔ),眾數(shù)填補(bǔ)依然表現(xiàn)最差,除了準(zhǔn)確率維持0.650不變外,靈敏度和Kappa值均為0。表650%缺失率下不同模型的各評(píng)價(jià)指標(biāo)的情況方法模型靈敏度準(zhǔn)確率Kappa值機(jī)器學(xué)習(xí)法C5.00.8920.9500.889RF0.9580.9770.949SVM0.9420.9710.935統(tǒng)計(jì)方法眾數(shù)填補(bǔ)0.0000.6500.000MI0.6170.6730.308熱卡填補(bǔ)0.6900.7650.5792.3.2不同評(píng)價(jià)方法下各模型的比較考慮不同缺失率下,代表機(jī)器學(xué)習(xí)和統(tǒng)計(jì)方法的各填補(bǔ)方法對(duì)填補(bǔ)效果的影響。以準(zhǔn)確率、精確率、一致性為分析對(duì)象,分別如圖1至圖3所示。105%100%95%90%85%10%30%40%50%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖1不同缺失率下各填補(bǔ)方法的靈敏度變化情況100%98%95%10%30%40%50%10%30%40%50%100%90%80%70%60%C5.0SVMRFMI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖2不同缺失率下各填補(bǔ)方法的準(zhǔn)確率變化情況10%30%40%50%100%95%90%85%C5.0SVMRF100%50%0%10%30%40%50%MI熱卡填補(bǔ)眾數(shù)填補(bǔ)圖3不同缺失率下各填補(bǔ)方法的Kappa值變化情況圖1靈敏度的評(píng)價(jià)效果表明,支持向量機(jī)隨缺失率的變化呈現(xiàn)先增長(zhǎng)再下降的趨勢(shì),在缺失率為30%時(shí),甚至達(dá)到最大值1.000;隨機(jī)森林隨缺失率的增加呈現(xiàn)穩(wěn)定發(fā)展,基本維持在95%的水平。熱卡填補(bǔ)法隨缺失率的增加不斷下降,最終只有不到0.70;多重填補(bǔ)在缺失率大于30%后呈現(xiàn)一定的下降,之后穩(wěn)定在0.60的水平;眾數(shù)填補(bǔ)的靈敏度始終維持在0的水平。圖2準(zhǔn)確率的評(píng)價(jià)效果表明,隨機(jī)森林填補(bǔ)法在各缺失率下的變化較為穩(wěn)定且保持高水平;支持向量機(jī)的各項(xiàng)指標(biāo)在10%~30%的缺失率下保持增長(zhǎng)趨勢(shì),并在30%處指標(biāo)值達(dá)到最大,此后有所下降;決策樹(shù)在缺
【參考文獻(xiàn)】:
期刊論文
[1]基于優(yōu)化決策樹(shù)和EM的缺失數(shù)據(jù)填充算法[J]. 梁秉毅,蔡延光,蔡顥,戚遠(yuǎn)航,黃何列,Ole Hejlesen. 自動(dòng)化與信息工程. 2017(05)
[2]基于聚類(lèi)分析的缺失數(shù)據(jù)最近鄰填補(bǔ)算法[J]. 張赤,豐洪才,金凱,楊婷. 計(jì)算機(jī)應(yīng)用與軟件. 2014(05)
[3]一種基于支持向量機(jī)的缺失值填補(bǔ)算法[J]. 張嬋. 計(jì)算機(jī)應(yīng)用與軟件. 2013(05)
[4]基于支持向量機(jī)的缺失數(shù)據(jù)補(bǔ)齊方法[J]. 趙磊,李國(guó)和,馬現(xiàn)峰. 計(jì)算機(jī)工程與應(yīng)用. 2006(36)
本文編號(hào):3242174
本文鏈接:http://www.sikaile.net/guanlilunwen/tongjijuecelunwen/3242174.html
最近更新
教材專(zhuān)著