基于Spark框架的用于金融信貸風險控制的加權隨機森林算法
發(fā)布時間:2020-12-26 09:37
為解決互聯(lián)網(wǎng)時代線上貸款業(yè)務量龐大帶來的困擾,優(yōu)化快速迭代的數(shù)據(jù)模型,從線上貸款業(yè)務的特點出發(fā),以Spark分布式計算引擎為核心設計并實現(xiàn)了能夠并行處理非平衡數(shù)據(jù)的加權隨機森林算法.該算法從特征切分點抽樣統(tǒng)計、特征分箱、逐層訓練三個角度對加權隨機森林算法進行并行化優(yōu)化.該算法有效提高了隨機森林算法的分類準確率,同時有效降低了決策過程中出現(xiàn)的平局現(xiàn)象.對非平衡數(shù)據(jù),該文章通過SMOTE算法對數(shù)據(jù)進行重構,較好的保留了原有數(shù)據(jù)集信息.實驗表明,該算法能夠有效提高放貸效率性與及時性,極大的提高了生產(chǎn)力.
【文章來源】:小型微型計算機系統(tǒng). 2020年02期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
隨機森林并行化建模
權重的計算是通過out-of-bag的F1值進行衡量.得到所有k棵樹的out-of-bag的F1值之后,利用公式(2)進行賦權———計算出每棵樹對應的權重weigth(i),把這些決策樹組合起來便是加權隨機森林.圖3為加權過程的流程圖.3.3 加權隨機森林的投票并行化
在單機模式的傳統(tǒng)隨機森林算法中,對于構建好的模型需要用新的樣本進行測試并通過投票獲取最后的類別.但是這個過程是串行運行的,需要隨機森林中的每一棵樹依次進行投票和統(tǒng)計.針對該情況,在面對數(shù)量較多的決策樹時,對整個隨機森林模型的投票過程進行了并行化.圖4是對加權隨機森林并行化投票的流程圖.傳統(tǒng)隨機森林的投票過程由于一些劣質(zhì)樹的干擾導致最后的分類結果不好,所以為優(yōu)化這一現(xiàn)象,本文使用out-ofbag數(shù)據(jù)的正確率作為權重依據(jù)的投票策略來代替單純依賴相同權重的決策樹投票.
【參考文獻】:
期刊論文
[1]基于XGBoost算法的用戶行為預測與風險分析[J]. 邱耀,楊國為. 工業(yè)控制計算機. 2018(09)
[2]基于Spark框架的FP-Growth大數(shù)據(jù)頻繁項集挖掘算法[J]. 邵梁,何星舟,尚俊娜. 計算機應用研究. 2018(10)
[3]基于不平衡樣本的互聯(lián)網(wǎng)個人信用評估研究[J]. 李毅,姜天英,劉亞茹. 統(tǒng)計與信息論壇. 2017(02)
[4]基于Spark的并行SVM算法研究[J]. 劉澤燊,潘志松. 計算機科學. 2016(05)
碩士論文
[1]基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D]. 梁彥.中山大學 2014
本文編號:2939447
【文章來源】:小型微型計算機系統(tǒng). 2020年02期 北大核心
【文章頁數(shù)】:6 頁
【部分圖文】:
隨機森林并行化建模
權重的計算是通過out-of-bag的F1值進行衡量.得到所有k棵樹的out-of-bag的F1值之后,利用公式(2)進行賦權———計算出每棵樹對應的權重weigth(i),把這些決策樹組合起來便是加權隨機森林.圖3為加權過程的流程圖.3.3 加權隨機森林的投票并行化
在單機模式的傳統(tǒng)隨機森林算法中,對于構建好的模型需要用新的樣本進行測試并通過投票獲取最后的類別.但是這個過程是串行運行的,需要隨機森林中的每一棵樹依次進行投票和統(tǒng)計.針對該情況,在面對數(shù)量較多的決策樹時,對整個隨機森林模型的投票過程進行了并行化.圖4是對加權隨機森林并行化投票的流程圖.傳統(tǒng)隨機森林的投票過程由于一些劣質(zhì)樹的干擾導致最后的分類結果不好,所以為優(yōu)化這一現(xiàn)象,本文使用out-ofbag數(shù)據(jù)的正確率作為權重依據(jù)的投票策略來代替單純依賴相同權重的決策樹投票.
【參考文獻】:
期刊論文
[1]基于XGBoost算法的用戶行為預測與風險分析[J]. 邱耀,楊國為. 工業(yè)控制計算機. 2018(09)
[2]基于Spark框架的FP-Growth大數(shù)據(jù)頻繁項集挖掘算法[J]. 邵梁,何星舟,尚俊娜. 計算機應用研究. 2018(10)
[3]基于不平衡樣本的互聯(lián)網(wǎng)個人信用評估研究[J]. 李毅,姜天英,劉亞茹. 統(tǒng)計與信息論壇. 2017(02)
[4]基于Spark的并行SVM算法研究[J]. 劉澤燊,潘志松. 計算機科學. 2016(05)
碩士論文
[1]基于分布式平臺Spark和YARN的數(shù)據(jù)挖掘算法的并行化研究[D]. 梁彥.中山大學 2014
本文編號:2939447
本文鏈接:http://www.sikaile.net/jingjilunwen/touziyanjiulunwen/2939447.html
最近更新
教材專著