天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不平衡分類的數(shù)據(jù)采樣問題實(shí)證研究

發(fā)布時(shí)間:2021-12-22 10:18
  獲取最為精確的分類效果從來都是機(jī)器學(xué)習(xí)方法所追求的研究目的,大多數(shù)的機(jī)器學(xué)習(xí)分類模型,一般都是根據(jù)平衡數(shù)據(jù)所設(shè)計(jì)的,模型只追求整體的分類性能。在做分類問題的數(shù)據(jù)挖掘領(lǐng)域,不平衡數(shù)據(jù)普遍存在,直接訓(xùn)練不平衡的數(shù)據(jù)集會(huì)導(dǎo)致對(duì)數(shù)據(jù)集少數(shù)類的預(yù)測(cè)準(zhǔn)確性降低,甚至當(dāng)數(shù)據(jù)極度不平衡時(shí),模型會(huì)把大部分的少數(shù)類都劃分為多數(shù)類,而不平衡數(shù)據(jù)中數(shù)據(jù)量較少的那一類往往是需要重點(diǎn)關(guān)注的對(duì)象,對(duì)少數(shù)類的誤分會(huì)造成不可預(yù)估的后果。針對(duì)數(shù)據(jù)的不平衡情況,本文敘述了常用的數(shù)據(jù)采樣方法,細(xì)分了欠采樣、過采樣方法以及混合采樣方法的優(yōu)劣,從數(shù)據(jù)層面進(jìn)行分析。本文采用正負(fù)樣本的比例接近1:11的P2P借貸數(shù)據(jù),利用機(jī)器學(xué)習(xí)分類器進(jìn)行建模。首先對(duì)貸款基本情況、用戶畫像和業(yè)務(wù)等方面進(jìn)行可視化分析,發(fā)現(xiàn)違約相關(guān)性較高的特征屬性,給予投資人有效性的建議,謹(jǐn)慎投資,降低違約風(fēng)險(xiǎn)帶給客戶的損失;再對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,刪掉缺失比例較大、對(duì)整體模型無(wú)實(shí)際意義的特征,對(duì)特征進(jìn)行有效地填充,刪除缺失比例較小的特征相關(guān)的樣本;通過特征的相關(guān)性分析,選擇與目標(biāo)變量相關(guān)性較高的特征,提高模型性能上限。選擇分類模型,對(duì)比不進(jìn)行處理和進(jìn)行數(shù)據(jù)采樣方法之...

【文章來源】: 華中師范大學(xué)湖北省 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:45 頁(yè)

【文章目錄】:
摘要
Abstract
第一章 緒論
    1.1 研究背景與意義
    1.2 國(guó)內(nèi)外研究綜述
    1.3 研究方法
第二章 不平衡采樣方法及評(píng)價(jià)指標(biāo)
    2.1 不平衡數(shù)據(jù)之?dāng)?shù)據(jù)采樣
        2.1.1 欠采樣
        2.1.2 過采樣
        2.1.3 混合采樣
    2.2 不平衡數(shù)據(jù)之評(píng)價(jià)指標(biāo)
        2.2.1 混淆矩陣
        2.2.2 ROC曲線和ROC-AUC
第三章 分類學(xué)習(xí)理論
    3.1 邏輯回歸
    3.2 隨機(jī)森林
第四章 實(shí)證分析
    4.1 數(shù)據(jù)來源
    4.2 數(shù)據(jù)探索(EDA)
        4.2.1 貸款質(zhì)量
        4.2.2 用戶畫像
        4.2.3 業(yè)務(wù)分析
    4.3 數(shù)據(jù)預(yù)處理
        4.3.1 缺失值處理
        4.3.2 異常值處理
    4.4 特征工程
        4.4.1 特征編碼
        4.4.2 特征選擇
    4.5 模型訓(xùn)練及對(duì)比分析
        4.5.1 數(shù)據(jù)采樣對(duì)比分析
        4.5.2 模型對(duì)比分析
    4.6 結(jié)論
第五章 結(jié)論與展望
    5.1 研究總結(jié)
    5.2 展望
參考文獻(xiàn)
致謝


【參考文獻(xiàn)】:
期刊論文
[1]P2P網(wǎng)絡(luò)借貸平臺(tái)信用風(fēng)險(xiǎn)研究 [J]. 丁潔.  價(jià)值工程. 2019(31)
[2]從P2P網(wǎng)絡(luò)借貸平臺(tái)異常財(cái)務(wù)數(shù)據(jù)識(shí)別風(fēng)險(xiǎn)——以T公司為例 [J]. 歐陽(yáng)鋆.  中國(guó)商論. 2019(17)
[3]基于混合采樣策略的改進(jìn)隨機(jī)森林不平衡數(shù)據(jù)分類算法 [J]. 鄭建華,劉雙印,賀超波,符志強(qiáng).  重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)). 2019(07)
[4]改進(jìn)SMOTE的不平衡數(shù)據(jù)集成分類算法 [J]. 王忠震,黃勃,方志軍,高永彬,張娟.  計(jì)算機(jī)應(yīng)用. 2019(09)
[5]一種改進(jìn)型的不平衡數(shù)據(jù)欠采樣算法 [J]. 魏力,張育平.  小型微型計(jì)算機(jī)系統(tǒng). 2019(05)
[6]基于隨機(jī)森林分類模型的P2P網(wǎng)絡(luò)借貸標(biāo)的信用風(fēng)險(xiǎn)因子研究 [J]. 馬春文,趙慧,李琪.  吉林大學(xué)社會(huì)科學(xué)學(xué)報(bào). 2019(03)
[7]基于邏輯回歸的商業(yè)銀行客戶信用評(píng)級(jí)研究 [J]. 郝婷婷,俞俊杰,陳燕.  科技資訊. 2019(03)
[8]面向不平衡數(shù)據(jù)集的一種基于聚類的欠采樣方法 [J]. 李春雪,謝林森,盧誠(chéng)波.  數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2019(01)
[9]一種改進(jìn)過采樣的不平衡數(shù)據(jù)集成分類算法 [J]. 張菲菲,王黎明,柴玉梅.  小型微型計(jì)算機(jī)系統(tǒng). 2018(10)
[10]基于混合采樣的非平衡數(shù)據(jù)分類算法 [J]. 吳藝凡,梁吉業(yè),王俊紅.  計(jì)算機(jī)科學(xué)與探索. 2019(02)

碩士論文
[1]基于隨機(jī)森林的個(gè)人信用評(píng)價(jià)指標(biāo)分析[D]. 王夢(mèng)芹.安徽大學(xué). 2018



本文編號(hào):3546233

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/tongjijuecelunwen/3546233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9dca8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com