天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于重采樣的代價敏感學(xué)習(xí)在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用

發(fā)布時間:2022-02-19 16:50
  網(wǎng)絡(luò)貸款數(shù)據(jù)集具有申請量大而獲批少的特征,是典型的不平衡數(shù)據(jù)集。利用機器學(xué)習(xí)方法,預(yù)先篩選出可能給予貸款的用戶,可大大減少后續(xù)人工審核的工作量,加快貸款用戶的響應(yīng)速度,具有較好的應(yīng)用價值。對不平衡數(shù)據(jù)集的研究集中在數(shù)據(jù)層面和算法層面,本文在數(shù)據(jù)層面對隨機平衡采樣算法進行改進,在算法層面提出改進的代價敏感決策樹算法,最后對算法層面和數(shù)據(jù)層面的改進算法進行融合,提出以最小誤分類總代價為目標(biāo)的新算法,并將提出的方法用于貸款用戶分類研究中,論文的主要工作和貢獻如下:1.不平衡數(shù)據(jù)集的重采樣算法:本文在隨機平衡采樣算法的基礎(chǔ)上,提出改進的隨機平衡采樣算法,該算法先根據(jù)樣本點的位置,將所有樣本點分為三類:安全點、邊界點和噪聲點,之后移除噪聲點和邊界點中的多數(shù)類樣本,這樣不同類樣本間的分類邊界更清晰,并針對不同類型的樣本采用不同的采樣方式;再同時對多數(shù)類樣本進行欠采樣、少數(shù)類樣本進行過采樣,使樣本集中各類別樣本數(shù)目基本一致。在網(wǎng)絡(luò)貸款分類中,與隨機平衡采樣算法相比,該算法提高了少數(shù)類樣本的分類準(zhǔn)確率。2.不平衡數(shù)據(jù)集的代價敏感學(xué)習(xí)算法:本文在代價敏感決策樹敏感函數(shù)的計算中加入類分布,以減弱正負類樣本... 

【文章來源】:華南理工大學(xué)廣東省211工程院校985工程院校教育部直屬院校

【文章頁數(shù)】:74 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
ABSTRACT
第一章 緒論
    1.1 問題的提出
        1.1.1 選題的研究背景
        1.1.2 選題的目的及意義
    1.2 國內(nèi)外研究綜述
        1.2.1 網(wǎng)絡(luò)貸款國外研究綜述
        1.2.2 類別不平衡問題國內(nèi)外研究綜述
    1.3 本文的主要研究內(nèi)容
    1.4 本文的結(jié)構(gòu)安排
第二章 分類算法
    2.1 常用的分類算法
        2.1.1 決策樹
        2.1.2 邏輯回歸
        2.1.3 支持向量機
    2.2 分類器性能評估
        2.2.1 分類器常用的數(shù)值評價指標(biāo)
        2.2.2 分類器常用的可視化評價指標(biāo)
    2.3 類別不平衡分類問題
        2.3.1 類別不平衡分類問題的難點
        2.3.2 類別不平衡分類問題的常用解決辦法
    2.4 代價敏感分類問題
        2.4.1 代價敏感分類問題的定義
        2.4.2 代價敏感問題的常用解決辦法
        2.4.3 代價敏感學(xué)習(xí)的評價指標(biāo)
        2.4.4 典型的代價敏感學(xué)習(xí)算法
    2.5 本章小結(jié)
第三章 樣本重采樣算法
    3.1 改進的隨機平衡采樣算法
        3.1.1 隨機平衡采樣算法
        3.1.2 改進的隨機平衡采樣算法
        3.1.3 改進的隨機平衡采樣Bagging集成算法
    3.2 基于IRBSBagging算法的仿真實驗
        3.2.1 以決策樹作為基分類器
        3.2.2 以LR作為基分類器
        3.2.3 以SVM作為基分類器
        3.2.4 實驗結(jié)果分析
    3.3 基于IRBSBagging算法的貸款用戶分類應(yīng)用
        3.3.1 數(shù)據(jù)預(yù)處理
        3.3.2 實驗結(jié)果及分析
    3.4 本章小結(jié)
第四章 代價敏感學(xué)習(xí)
    4.1 改進的代價敏感決策樹算法
        4.1.1 代價敏感決策樹算法
        4.1.2 加入類分布的代價敏感決策樹算法
        4.1.3 改進的代價敏感決策樹的集成算法
    4.2 基于IID3cs算法的仿真實驗
        4.2.1 Sick數(shù)據(jù)集實驗
        4.2.2 Hepatitis數(shù)據(jù)集實驗
        4.2.3 Ionosphere數(shù)據(jù)集實驗
        4.2.4 BankMarketing數(shù)據(jù)集實驗
        4.2.5 實驗結(jié)果分析
    4.3 基于IID3cs算法在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用
        4.3.1 實驗設(shè)置
        4.3.2 實驗結(jié)果及分析
    4.4 本章小結(jié)
第五章 基于重采樣的代價敏感學(xué)習(xí)
    5.1 基于重采樣的代價敏感學(xué)習(xí)的仿真實驗
        5.1.1 Sick數(shù)據(jù)集
        5.1.2 Hepatitis數(shù)據(jù)集
        5.1.3 Ionosphere數(shù)據(jù)集
        5.1.4 BankMarketing數(shù)據(jù)集
    5.2 基于重采樣的代價敏感學(xué)習(xí)在網(wǎng)絡(luò)貸款用戶分類中的應(yīng)用
    5.3 本章小結(jié)
總結(jié)與展望
參考文獻
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件


【參考文獻】:
期刊論文
[1]不平衡數(shù)據(jù)的隨機平衡采樣bagging算法分類研究[J]. 季夢遙,袁磊.  貴州大學(xué)學(xué)報(自然科學(xué)版). 2017(06)
[2]基于不平衡樣本的互聯(lián)網(wǎng)個人信用評估研究[J]. 李毅,姜天英,劉亞茹.  統(tǒng)計與信息論壇. 2017(02)
[3]代價敏感學(xué)習(xí)中的損失函數(shù)設(shè)計[J]. 李秋潔,趙亞琴,顧洲.  控制理論與應(yīng)用. 2015(05)
[4]不平衡數(shù)據(jù)的集成分類算法綜述[J]. 李勇,劉戰(zhàn)東,張海軍.  計算機應(yīng)用研究. 2014(05)
[5]不平衡多分類問題的連續(xù)AdaBoost算法研究[J]. 付忠良.  計算機研究與發(fā)展. 2011(12)
[6]基于代價敏感決策樹的客戶價值細分(英文)[J]. 鄒鵬,莫佳卉,江亦華,葉強.  管理科學(xué). 2011(02)
[7]不平衡類數(shù)據(jù)挖掘研究綜述[J]. 翟云,楊炳儒,曲武.  計算機科學(xué). 2010(10)
[8]多種個人信用評分模型在中國應(yīng)用的比較研究[J]. 石慶焱,靳云匯.  統(tǒng)計研究. 2004(06)
[9]淺析房地產(chǎn)消費信貸現(xiàn)狀[J]. 仲莉紅.  建筑經(jīng)濟. 2003(10)

碩士論文
[1]基于網(wǎng)絡(luò)信貸數(shù)據(jù)的分類器構(gòu)造[D]. 尹超.中國科學(xué)技術(shù)大學(xué) 2016



本文編號:3633264

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3633264.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7cfec***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com