天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于并行隨機森林的在線貸款逾期預(yù)測研究

發(fā)布時間:2017-07-27 04:18

  本文關(guān)鍵詞:基于并行隨機森林的在線貸款逾期預(yù)測研究


  更多相關(guān)文章: 隨機森林 并行 加權(quán) 非平衡 逾期預(yù)測


【摘要】:隨著互聯(lián)網(wǎng)金融在中國的高速發(fā)展,其業(yè)務(wù)之一的在線貸款已經(jīng)開始被大眾接受和使用。由于在線貸款的手續(xù)與傳統(tǒng)銀行貸款手續(xù)不同,因此如何計算貸款者在貸款前的信用及風險是該業(yè)務(wù)開展的核心問題。同時,該核心問題還包括在貸款后實時跟蹤貸款人的經(jīng)濟情況變化,預(yù)測其是否會按時還款等問題。針對在線貸款業(yè)務(wù)數(shù)據(jù)量大,模型更新迭代頻繁的特點,本文基于隨機森林的可并行性和Spark的并行計算平臺設(shè)計并實現(xiàn)了并行隨機森林,從而減少了整個模型訓練和預(yù)測的時間。針對在線貸款還款數(shù)據(jù)的非平衡性(即大多數(shù)的數(shù)據(jù)是正常,而少數(shù)是逾期),本文提出了基于改進綜合采樣的方法重構(gòu)平衡數(shù)據(jù)。此外,本文根據(jù)隨機森林算法的不足,提出了一種加權(quán)隨機森林算法,此算法在構(gòu)造隨機森林的每棵決策樹時利用預(yù)測OOB數(shù)據(jù)的F1值來評估該決策樹的性能,從而給每棵樹相應(yīng)的權(quán)重來對最后投票進行加權(quán)。綜上所述,本文根據(jù)對在線貸款逾期業(yè)務(wù)需求和數(shù)據(jù)的特點提出了一種基于Spark的并行加權(quán)隨機森林算法。通過實驗表明,本文提出的對數(shù)據(jù)進行重構(gòu)平衡的方法以及對算法進行的加權(quán)改進能有效提高預(yù)測的精準度,同時減少平局現(xiàn)象的發(fā)生。此外,該算法在F1值上比常見分類算法如SVM、邏輯回歸、C4.5、傳統(tǒng)隨機森林表現(xiàn)更優(yōu),并具有良好并行效率和不錯的加速比性能。
【關(guān)鍵詞】:隨機森林 并行 加權(quán) 非平衡 逾期預(yù)測
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:F724.6;F832.4;TP338.6
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 第一章 緒論9-17
  • 1.1 選題背景和意義9-10
  • 1.2 國內(nèi)外相關(guān)研究10-16
  • 1.2.1 貸款違約預(yù)測研究現(xiàn)狀10-14
  • 1.2.2 Spark研究現(xiàn)狀14-15
  • 1.2.3 隨機森林研究現(xiàn)狀15-16
  • 1.3 本文的工作和組織結(jié)構(gòu)16-17
  • 第二章 本文相關(guān)理論知識17-26
  • 2.1 數(shù)據(jù)挖掘及常見分類算法簡介17-20
  • 2.1.1 數(shù)據(jù)挖掘概念17
  • 2.1.2 數(shù)據(jù)挖掘過程17-18
  • 2.1.3 分類算法概述18-20
  • 2.2 非平衡數(shù)據(jù)分類20-22
  • 2.2.1 非平衡數(shù)據(jù)分類問題的本質(zhì)21
  • 2.2.2 常見非平衡分類解決方案21-22
  • 2.3 隨機森林的算法原理介紹22-23
  • 2.4 Spark并行計算框架23-26
  • 2.4.1 Spark體系框架24
  • 2.4.2 Spark RDD及程序流程24-26
  • 第三章 加權(quán)并行隨機森林算法的分析與設(shè)計26-38
  • 3.1 加權(quán)隨機森林26-29
  • 3.1.1 傳統(tǒng)隨機森林的不足之處26-27
  • 3.1.2 本文提出的加權(quán)隨機森林的算法介紹27-29
  • 3.2 基于Spark的并行隨機森林的設(shè)計29-38
  • 3.2.1 并行性研究29-30
  • 3.2.2 本文采取的并行優(yōu)化策略30-31
  • 3.2.3 并行隨機森林算法流程及描述31-38
  • 第四章 實驗結(jié)果與分析38-51
  • 4.1 實驗環(huán)境38
  • 4.2 數(shù)據(jù)集說明38-40
  • 4.3 評估方法和評估標準40-41
  • 4.4 實驗結(jié)果與分析41-50
  • 4.4.1 參數(shù)設(shè)置41-42
  • 4.4.2 模型調(diào)優(yōu)42-44
  • 4.4.3 決策樹的權(quán)重44-46
  • 4.4.4 并行優(yōu)化效果比較46
  • 4.4.5 數(shù)據(jù)綜合采樣方法比較46-47
  • 4.4.6 模型比較47-48
  • 4.4.7 算法并行性能測試48-49
  • 4.4.8 模型應(yīng)用效果分析49-50
  • 4.5 小結(jié)50-51
  • 第五章 總結(jié)與展望51-53
  • 5.1 總結(jié)51
  • 5.2 下一步工作展望51-53
  • 參考文獻53-58
  • 致謝58-59
  • 答辯委員簽名的答辯決議書59

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 劉足華;熊惠霖;;基于隨機森林的目標檢測與定位[J];計算機工程;2012年13期

2 董師師;黃哲學;;隨機森林理論淺析[J];集成技術(shù);2013年01期

3 王象剛;;基于K均值隨機森林快速算法及入侵檢測中的應(yīng)用[J];科技通報;2013年08期

4 陳姝;彭小寧;;基于粒子濾波和在線隨機森林分類的目標跟蹤[J];江蘇大學學報(自然科學版);2014年02期

5 羅知林;陳挺;蔡皖東;;一個基于隨機森林的微博轉(zhuǎn)發(fā)預(yù)測算法[J];計算機科學;2014年04期

6 王麗婷;丁曉青;方馳;;基于隨機森林的人臉關(guān)鍵點精確定位方法[J];清華大學學報(自然科學版);2009年04期

7 李建更;高志坤;;隨機森林針對小樣本數(shù)據(jù)類權(quán)重設(shè)置[J];計算機工程與應(yīng)用;2009年26期

8 張建;武東英;劉慧生;;基于隨機森林的流量分類方法[J];信息工程大學學報;2012年05期

9 吳華芹;;基于訓練集劃分的隨機森林算法[J];科技通報;2013年10期

10 張華偉;王明文;甘麗新;;基于隨機森林的文本分類模型研究[J];山東大學學報(理學版);2006年03期

中國重要會議論文全文數(shù)據(jù)庫 前7條

1 謝程利;王金橋;盧漢清;;核森林及其在目標檢測中的應(yīng)用[A];第六屆和諧人機環(huán)境聯(lián)合學術(shù)會議(HHME2010)、第19屆全國多媒體學術(shù)會議(NCMT2010)、第6屆全國人機交互學術(shù)會議(CHCI2010)、第5屆全國普適計算學術(shù)會議(PCC2010)論文集[C];2010年

2 武曉巖;方慶偉;;基因表達數(shù)據(jù)分析的隨機森林方法及算法改進[A];黑龍江省第十次統(tǒng)計科學討論會論文集[C];2008年

3 張?zhí)忑?梁龍;王康;李華;;隨機森林結(jié)合激光誘導擊穿光譜技術(shù)用于的鋼鐵分類[A];中國化學會第29屆學術(shù)年會摘要集——第19分會:化學信息學與化學計量學[C];2014年

4 相玉紅;張卓勇;;組蛋白去乙酰化酶抑制劑的構(gòu)效關(guān)系研究[A];第十一屆全國計算(機)化學學術(shù)會議論文摘要集[C];2011年

5 張濤;李貞子;武曉巖;李康;;隨機森林回歸分析方法及在代謝組學中的應(yīng)用[A];2011年中國衛(wèi)生統(tǒng)計學年會會議論文集[C];2011年

6 馮飛翔;馮輔周;江鵬程;劉菁;劉建敏;;隨機森林和k-近鄰法在某型坦克變速箱狀態(tài)識別中的應(yīng)用[A];第八屆全國轉(zhuǎn)子動力學學術(shù)討論會論文集[C];2008年

7 曹東升;許青松;梁逸曾;陳憲;李洪東;;組合樹的集合體和后向消除策略去分類P-糖蛋白化合物[A];第十屆全國計算(機)化學學術(shù)會議論文摘要集[C];2009年

中國博士學位論文全文數(shù)據(jù)庫 前4條

1 曹正鳳;隨機森林算法優(yōu)化研究[D];首都經(jīng)濟貿(mào)易大學;2014年

2 雷震;隨機森林及其在遙感影像處理中應(yīng)用研究[D];上海交通大學;2012年

3 岳明;基于隨機森林和規(guī)則集成法的酒類市場預(yù)測與發(fā)展戰(zhàn)略[D];天津大學;2008年

4 李書艷;單點氨基酸多態(tài)性與疾病相關(guān)關(guān)系的預(yù)測及其機制研究[D];蘭州大學;2010年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 錢維;藥品不良反應(yīng)監(jiān)測中隨機森林方法的建立與實現(xiàn)[D];第二軍醫(yī)大學;2012年

2 賀捷;隨機森林在文本分類中的應(yīng)用[D];華南理工大學;2015年

3 張文婷;交通環(huán)境下基于改進霍夫森林的目標檢測與跟蹤[D];華南理工大學;2015年

4 楊畢玉;核電站松動件檢測分析研究[D];浙江大學;2016年

5 王宇恒;推薦系統(tǒng)中隨機森林算法的優(yōu)化與應(yīng)用[D];浙江大學;2016年

6 張玉桃;旅客社會網(wǎng)絡(luò)中的家庭出行預(yù)測及其行為特征分析[D];北京交通大學;2016年

7 張興;基于Spark大數(shù)據(jù)平臺的火電廠節(jié)能分析[D];太原理工大學;2016年

8 蔡曉路;基于隨機森林的類風濕關(guān)節(jié)炎證型判別模型研究[D];北京中醫(yī)藥大學;2016年

9 楊麗;音頻場景分析與識別方法研究[D];南京大學;2013年

10 朱琪;基于最大平衡度與最大共識的改進隨機森林算法研究[D];吉林大學;2016年

,

本文編號:579789

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/579789.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶0b1d3***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com