隨機森林在P2P網(wǎng)貸借款信用風(fēng)險評估中的應(yīng)用
本文關(guān)鍵詞: P2P網(wǎng)絡(luò)借貸 信用評估 隨機森林 特征選擇 出處:《山東大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著互聯(lián)網(wǎng)金融逐步發(fā)展,P2P網(wǎng)絡(luò)借貸作為一種創(chuàng)新的互聯(lián)網(wǎng)金融模式在當(dāng)下變得炙手可熱。近年來,憑借著高收益、便捷等理財優(yōu)勢,各類P2P網(wǎng)絡(luò)借貸平臺得到了爆發(fā)式增長。然而,我國P2P網(wǎng)絡(luò)借貸因其較短的發(fā)展時間、落后的風(fēng)險分析技術(shù)、以及尚不健全的法律法規(guī)體系等使得投資者面臨著嚴(yán)重的資金安全隱患問題。信用風(fēng)險已成為P2P網(wǎng)絡(luò)借貸行業(yè)的首要發(fā)展瓶頸,如何為P2P網(wǎng)絡(luò)借貸者建立一套良好的風(fēng)險評估模型,顯得非常迫切與必要。但是學(xué)術(shù)界對此還缺少深入的研究,風(fēng)險評估依然處于傳統(tǒng)個人借貸風(fēng)險評估方法的簡單模仿階段。本文我們選擇一種組合分類器模型——隨機森林(Random Forest),該算法能夠較好的容忍噪聲,不容易產(chǎn)生過度擬合,且有著較高的穩(wěn)定性,相比于傳統(tǒng)的單分類器模型,能夠更好的處理信貸風(fēng)險評估問題。文中對隨機森林算法的相關(guān)理論進行了詳細(xì)介紹,并在此基礎(chǔ)上通過引入代價敏感學(xué)習(xí)法提出了加權(quán)隨機森林算法(WRF),進而提高錯判代價較高的類別的準(zhǔn)確率,增強模型的實用性。在實證階段,我們首先對數(shù)據(jù)進行了預(yù)處理,主要包括剔除離群值點,補齊缺失值,歸一化以及相關(guān)性檢驗;接著,采用五重交叉數(shù)據(jù)利用RF算法進行特征指標(biāo)的選擇,為實證部分打下了堅實的基礎(chǔ);然后,利用Lending Club開放數(shù)據(jù)集,以及German、Austria公開銀行信貸數(shù)據(jù)集,建立了以隨機森林為基礎(chǔ)的個人信用評估模型,并與Logistic回歸,KNN,SVM,ANN等傳統(tǒng)信用風(fēng)險評估方法進行對比。通過實驗我們知道:不論是P2P信貸數(shù)據(jù)還是傳統(tǒng)銀行信貸數(shù)據(jù)RF模型總體分類效果最佳,這說明RF算法更加適用于構(gòu)建信用評估模型。最后,我們采用SMOTE算法針對P2P不平衡數(shù)據(jù)進行了處理,使得分類結(jié)果更加具有現(xiàn)實參考意義。
[Abstract]:With the gradual development of Internet finance, P2P network lending, as an innovative Internet finance model, has become a hot issue. In recent years, with the advantages of high profit, convenience and other financial advantages, All kinds of P2P network lending platforms have been exploding. However, due to their short development time and backward risk analysis technology, P2P network lending in China, As well as the imperfect system of laws and regulations, investors are faced with a serious problem of capital security risks. Credit risk has become the primary bottleneck in the development of P2P network lending industry. How to establish a good risk assessment model for P2P network borrowers is very urgent and necessary. The risk assessment is still in the simple imitation stage of the traditional personal loan risk assessment method. In this paper, we choose a combined classifier model, Random Forest Random Forestwood, which can tolerate noise well and is not easy to overfit. Compared with the traditional single classifier model, it can deal with the credit risk assessment problem better. In this paper, the related theories of stochastic forest algorithm are introduced in detail. On the basis of this, a weighted stochastic forest algorithm is proposed by introducing the cost sensitive learning method, which can improve the accuracy of the category with high cost and enhance the practicability of the model. In the empirical stage, we preprocess the data firstly. It mainly includes eliminating outliers, compensating missing values, normalizing and correlation testing. Then, we use five cross data to select feature indicators using RF algorithm, which lays a solid foundation for the empirical part. Using the Lending Club open data set and the open bank credit data set of Germani Austria, a personal credit assessment model based on random forest is established. And compared with the traditional credit risk assessment methods such as Logistic regression KNN / SVMANN and so on. Through the experiment, we know that both P2P credit data and traditional bank credit data RF model overall classification effect is the best. This shows that RF algorithm is more suitable for building credit evaluation model. Finally, we use SMOTE algorithm to deal with P2P unbalanced data, which makes the classification results more practical reference significance.
【學(xué)位授予單位】:山東大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:F832.4;F724.6
【相似文獻(xiàn)】
相關(guān)期刊論文 前5條
1 曹正鳳;謝邦昌;紀(jì)宏;;一種隨機森林的混合算法[J];統(tǒng)計與決策;2014年04期
2 孟杰;;隨機森林模型在財務(wù)失敗預(yù)警中的應(yīng)用[J];統(tǒng)計與決策;2014年04期
3 李升;宋舜宏;;網(wǎng)絡(luò)入侵檢測中屬性分組的隨機森林算法[J];計算機安全;2009年11期
4 劉微;羅林開;王華珍;;基于隨機森林的基金重倉股預(yù)測[J];福州大學(xué)學(xué)報(自然科學(xué)版);2008年S1期
5 錢爭鳴;李海波;于艷萍;;個人住房按揭貸款違約風(fēng)險研究[J];經(jīng)濟研究;2010年S1期
相關(guān)會議論文 前7條
1 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測中的應(yīng)用[A];第六屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2010)、第19屆全國多媒體學(xué)術(shù)會議(NCMT2010)、第6屆全國人機交互學(xué)術(shù)會議(CHCI2010)、第5屆全國普適計算學(xué)術(shù)會議(PCC2010)論文集[C];2010年
2 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學(xué)討論會論文集[C];2008年
3 張?zhí)忑?梁龍;王康;李華;;隨機森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國化學(xué)會第29屆學(xué)術(shù)年會摘要集——第19分會:化學(xué)信息學(xué)與化學(xué)計量學(xué)[C];2014年
4 相玉紅;張卓勇;;組蛋白去乙酰化酶抑制劑的構(gòu)效關(guān)系研究[A];第十一屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2011年
5 張濤;李貞子;武曉巖;李康;;隨機森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國衛(wèi)生統(tǒng)計學(xué)年會會議論文集[C];2011年
6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機森林和k-近鄰法在某型坦克變速箱狀態(tài)識別中的應(yīng)用[A];第八屆全國轉(zhuǎn)子動力學(xué)學(xué)術(shù)討論會論文集[C];2008年
7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國計算(機)化學(xué)學(xué)術(shù)會議論文摘要集[C];2009年
相關(guān)博士學(xué)位論文 前6條
1 張乾;基于隨機森林的視覺數(shù)據(jù)分類關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2016年
2 薛小明;基于時頻分析與特征約簡的水電機組故障診斷方法研究[D];華中科技大學(xué);2016年
3 曹正鳳;隨機森林算法優(yōu)化研究[D];首都經(jīng)濟貿(mào)易大學(xué);2014年
4 雷震;隨機森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學(xué);2012年
5 岳明;基于隨機森林和規(guī)則集成法的酒類市場預(yù)測與發(fā)展戰(zhàn)略[D];天津大學(xué);2008年
6 李書艷;單點氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測及其機制研究[D];蘭州大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 錢維;藥品不良反應(yīng)監(jiān)測中隨機森林方法的建立與實現(xiàn)[D];第二軍醫(yī)大學(xué);2012年
2 韓燕龍;基于隨機森林的指數(shù)化投資組合構(gòu)建研究[D];華南理工大學(xué);2015年
3 賀捷;隨機森林在文本分類中的應(yīng)用[D];華南理工大學(xué);2015年
4 張文婷;交通環(huán)境下基于改進霍夫森林的目標(biāo)檢測與跟蹤[D];華南理工大學(xué);2015年
5 李強;基于多視角特征融合與隨機森林的蛋白質(zhì)結(jié)晶預(yù)測[D];南京理工大學(xué);2015年
6 朱玟謙;一種收斂性隨機森林在人臉檢測中的應(yīng)用研究[D];武漢理工大學(xué);2015年
7 肖宇;基于序列圖像的手勢檢測與識別算法研究[D];電子科技大學(xué);2014年
8 李慧;一種改進的隨機森林并行分類方法在運營商大數(shù)據(jù)的應(yīng)用[D];電子科技大學(xué);2015年
9 趙亞紅;面向多類標(biāo)分類的隨機森林算法研究[D];哈爾濱工業(yè)大學(xué);2014年
10 黎成;基于隨機森林和ReliefF的致病SNP識別方法[D];西安電子科技大學(xué);2014年
,本文編號:1540136
本文鏈接:http://www.sikaile.net/jingjilunwen/touziyanjiulunwen/1540136.html