大數(shù)據(jù)征信算法的可解釋性研究
發(fā)布時間:2021-01-18 14:14
針對征信領域廣泛使用深度學習等黑盒大數(shù)據(jù)信用評估技術所帶來的模型透明度低、可解釋性差等問題,研究提出了一種基于傾向評分的信用評估模型解釋方法,利用該通用框架可以對大數(shù)據(jù)征信的黑盒模型進行解釋性分析,從而滿足金融領域的KYC和KYB要求,增加機器學習、深度學習等技術在征信領域的適用性。
【文章來源】:征信. 2020,38(05)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
算法偽代碼
首先對數(shù)據(jù)集作數(shù)據(jù)預處理、缺失值填充和異常點刪除。為了篩選出對提升模型預測效果較強的屬性,分別對每個屬性進行WOE(Weight Of Evidence)編碼并計算其對應的IV(Information Value)值,計算結(jié)果如圖2所示。一般認為IV值小于0.1時,該屬性預測能力較弱,因此將需要探究的屬性限定在IV值大于0.1的變量:可用額度、年齡、逾期30~59天筆數(shù)、逾期60~89天筆數(shù)、逾期90天筆數(shù)。預處理完成后,進行模型輸入。該實驗選擇對四種模型進行歸因分析:logistic回歸、決策樹、隨機森林、BP神經(jīng)網(wǎng)絡,即預測模型F的選擇限定為以上四種;傾向評分模型R在本實驗中設置為logistic回歸。將數(shù)據(jù)集、屬性集及選定的預測模型F、傾向評分模型R輸入算法,并對數(shù)據(jù)集進行min-max標準化。
對數(shù)據(jù)集利用選定的四種預測模型:logistic回歸、決策樹、隨機森林、BP神經(jīng)網(wǎng)絡進行預測建模,利用模型預測每個用戶可能成為壞用戶的概率,得出的四種模型預測效果對比如圖3所示?梢钥吹娇山忉屝暂^強的兩個模型預測效果較差:logistic回歸AUC=0.8126,預測效果最差;決策樹模型AUC=0.8416,較之有所提升?山忉屝暂^差的黑盒模型預測效果更好:隨機森林模型AUC=0.8587;BP神經(jīng)網(wǎng)絡模型AUC=0.8620,預測效果最佳。隨著模型效果的提升,可解釋性在下降。
【參考文獻】:
期刊論文
[1]信用評分模型比較綜述——基于傳統(tǒng)方法與數(shù)據(jù)挖掘的對比[J]. 何珊,劉振東,馬小林. 征信. 2019(02)
[2]深度學習的可解釋性[J]. 吳飛,廖彬兵,韓亞洪. 航空兵器. 2019(01)
[3]因果推斷的統(tǒng)計方法[J]. 苗旺,劉春辰,耿直. 中國科學:數(shù)學. 2018(12)
[4]基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)金融信用風險預測研究[J]. 王重仁,韓冬梅. 微型機與應用. 2017(24)
[5]大數(shù)據(jù)時代個人信用評分的新趨勢[J]. 張晶. 征信. 2017(12)
[6]基于有序logistic模型的互聯(lián)網(wǎng)金融客戶違約風險研究[J]. 熊正德,劉臻煊,熊一鵬. 系統(tǒng)工程. 2017(08)
[7]基于支持向量機的中小企業(yè)技術信貸違約預測[J]. 張杰,趙峰. 統(tǒng)計與決策. 2013(20)
[8]大數(shù)據(jù)的風險和現(xiàn)存問題[J]. 劉德寰,李雪蓮. 廣告大觀(理論版). 2013(03)
[9]基于BP神經(jīng)網(wǎng)絡的信用卡違約風險預測[J]. 范巍強,劉暾東. 電腦知識與技術. 2011(10)
本文編號:2985091
【文章來源】:征信. 2020,38(05)北大核心
【文章頁數(shù)】:8 頁
【部分圖文】:
算法偽代碼
首先對數(shù)據(jù)集作數(shù)據(jù)預處理、缺失值填充和異常點刪除。為了篩選出對提升模型預測效果較強的屬性,分別對每個屬性進行WOE(Weight Of Evidence)編碼并計算其對應的IV(Information Value)值,計算結(jié)果如圖2所示。一般認為IV值小于0.1時,該屬性預測能力較弱,因此將需要探究的屬性限定在IV值大于0.1的變量:可用額度、年齡、逾期30~59天筆數(shù)、逾期60~89天筆數(shù)、逾期90天筆數(shù)。預處理完成后,進行模型輸入。該實驗選擇對四種模型進行歸因分析:logistic回歸、決策樹、隨機森林、BP神經(jīng)網(wǎng)絡,即預測模型F的選擇限定為以上四種;傾向評分模型R在本實驗中設置為logistic回歸。將數(shù)據(jù)集、屬性集及選定的預測模型F、傾向評分模型R輸入算法,并對數(shù)據(jù)集進行min-max標準化。
對數(shù)據(jù)集利用選定的四種預測模型:logistic回歸、決策樹、隨機森林、BP神經(jīng)網(wǎng)絡進行預測建模,利用模型預測每個用戶可能成為壞用戶的概率,得出的四種模型預測效果對比如圖3所示?梢钥吹娇山忉屝暂^強的兩個模型預測效果較差:logistic回歸AUC=0.8126,預測效果最差;決策樹模型AUC=0.8416,較之有所提升?山忉屝暂^差的黑盒模型預測效果更好:隨機森林模型AUC=0.8587;BP神經(jīng)網(wǎng)絡模型AUC=0.8620,預測效果最佳。隨著模型效果的提升,可解釋性在下降。
【參考文獻】:
期刊論文
[1]信用評分模型比較綜述——基于傳統(tǒng)方法與數(shù)據(jù)挖掘的對比[J]. 何珊,劉振東,馬小林. 征信. 2019(02)
[2]深度學習的可解釋性[J]. 吳飛,廖彬兵,韓亞洪. 航空兵器. 2019(01)
[3]因果推斷的統(tǒng)計方法[J]. 苗旺,劉春辰,耿直. 中國科學:數(shù)學. 2018(12)
[4]基于卷積神經(jīng)網(wǎng)絡的互聯(lián)網(wǎng)金融信用風險預測研究[J]. 王重仁,韓冬梅. 微型機與應用. 2017(24)
[5]大數(shù)據(jù)時代個人信用評分的新趨勢[J]. 張晶. 征信. 2017(12)
[6]基于有序logistic模型的互聯(lián)網(wǎng)金融客戶違約風險研究[J]. 熊正德,劉臻煊,熊一鵬. 系統(tǒng)工程. 2017(08)
[7]基于支持向量機的中小企業(yè)技術信貸違約預測[J]. 張杰,趙峰. 統(tǒng)計與決策. 2013(20)
[8]大數(shù)據(jù)的風險和現(xiàn)存問題[J]. 劉德寰,李雪蓮. 廣告大觀(理論版). 2013(03)
[9]基于BP神經(jīng)網(wǎng)絡的信用卡違約風險預測[J]. 范巍強,劉暾東. 電腦知識與技術. 2011(10)
本文編號:2985091
本文鏈接:http://www.sikaile.net/jingjilunwen/huobiyinxinglunwen/2985091.html
最近更新
教材專著