基于決策樹集成學(xué)習(xí)的車貸信用數(shù)據(jù)知識(shí)發(fā)現(xiàn)
發(fā)布時(shí)間:2023-11-11 07:53
近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多人接受并開始通過互聯(lián)網(wǎng)平臺(tái)實(shí)現(xiàn)生活中的各方面需求,其中包括學(xué)習(xí)、消費(fèi)、金融、醫(yī)療等。在此環(huán)境下,作為一種金融科技的P2P汽車網(wǎng)貸也迅速崛起。而在P2P汽車網(wǎng)貸平臺(tái)所形成的市場中,如何降低平臺(tái)與資金方的風(fēng)險(xiǎn)成為學(xué)者們研究的熱點(diǎn)。對(duì)于貸款人所提交的大量個(gè)人信息和征信信息,以及貸款產(chǎn)品的諸多信息匯總到一起,經(jīng)人工審核最終形成貸款訂單。這樣巨大的信息量無形中加大了甄別貸款人真實(shí)情況以及做出放貸決策的復(fù)雜程度,但在大數(shù)據(jù)時(shí)代下,貸款訂單所形成的龐大且高維度的數(shù)據(jù)集同時(shí)也成為了通過數(shù)據(jù)挖掘技術(shù)從中發(fā)現(xiàn)規(guī)律并進(jìn)行預(yù)測(cè)的重要工具。為減小網(wǎng)貸平臺(tái)與資金方放貸風(fēng)險(xiǎn),降低網(wǎng)貸平臺(tái)對(duì)高維度的貸款人信息進(jìn)行甄別做出放貸決策的復(fù)雜度與人工成本,什么樣的貸款人最終可獲得平臺(tái)全額批復(fù)貸款或是被拒絕,是本文的研究目的。本文使用美利車金融網(wǎng)貸平臺(tái)2015-2018年部分貸款訂單數(shù)據(jù),引入分類與預(yù)測(cè)模型中決策樹和隨機(jī)森林算法,使用四種算法建模,對(duì)模型進(jìn)行訓(xùn)練與測(cè)試,并在最后比較各模型性能,選擇最優(yōu)的算法發(fā)現(xiàn)并總結(jié)其中規(guī)律,給出科學(xué)的管理建議。研究結(jié)果表明:在算法層面上,CART算法產(chǎn)生...
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 選題背景及意義
1.1.1 選題背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 使用工具及技術(shù)路線
1.4 本文組織結(jié)構(gòu)
2 研究方法概述
2.1 數(shù)據(jù)挖掘與數(shù)據(jù)預(yù)處理
2.1.1 數(shù)據(jù)挖掘理論概述
2.1.2 數(shù)據(jù)離散化
2.2 決策樹算法
2.2.1 CART分類回歸樹
2.2.2 ID3算法
2.2.3 C4.5/C5.0算法
2.3 集成學(xué)習(xí)與隨機(jī)森林
2.3.1 集成學(xué)習(xí)
2.3.2 Boosting與Bagging
2.3.3 隨機(jī)森林
3 研究設(shè)計(jì)與數(shù)據(jù)預(yù)處理
3.1 研究設(shè)計(jì)
3.1.1 研究流程
3.1.2 數(shù)據(jù)來源
3.1.3 目標(biāo)變量選取
3.1.4 自變量選取
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)清理
3.2.2 描述分析
3.2.3 數(shù)據(jù)離散化
3.2.4 數(shù)據(jù)變換
3.3 數(shù)據(jù)預(yù)處理結(jié)果匯總
4 知識(shí)發(fā)現(xiàn)及模型評(píng)估
4.1 模型度量指標(biāo)
4.2 基于決策樹的模型構(gòu)建
4.2.1 使用CART算法建樹
4.2.2 使用ID3算法建樹
4.2.3 使用C5.0算法建樹
4.2.4 使用隨機(jī)森林建模
4.3 各模型性能比較
4.4 基于初次實(shí)驗(yàn)結(jié)果變量調(diào)整
4.4.1 變量調(diào)整
4.4.2 建模及結(jié)果
5 結(jié)論
參考文獻(xiàn)
致謝
附錄A 部分使用數(shù)據(jù)
附錄B 建模算法代碼
個(gè)人簡介
本文編號(hào):3862229
【文章頁數(shù)】:74 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 選題背景及意義
1.1.1 選題背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及技術(shù)路線
1.3.1 研究內(nèi)容
1.3.2 使用工具及技術(shù)路線
1.4 本文組織結(jié)構(gòu)
2 研究方法概述
2.1 數(shù)據(jù)挖掘與數(shù)據(jù)預(yù)處理
2.1.1 數(shù)據(jù)挖掘理論概述
2.1.2 數(shù)據(jù)離散化
2.2 決策樹算法
2.2.1 CART分類回歸樹
2.2.2 ID3算法
2.2.3 C4.5/C5.0算法
2.3 集成學(xué)習(xí)與隨機(jī)森林
2.3.1 集成學(xué)習(xí)
2.3.2 Boosting與Bagging
2.3.3 隨機(jī)森林
3 研究設(shè)計(jì)與數(shù)據(jù)預(yù)處理
3.1 研究設(shè)計(jì)
3.1.1 研究流程
3.1.2 數(shù)據(jù)來源
3.1.3 目標(biāo)變量選取
3.1.4 自變量選取
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)清理
3.2.2 描述分析
3.2.3 數(shù)據(jù)離散化
3.2.4 數(shù)據(jù)變換
3.3 數(shù)據(jù)預(yù)處理結(jié)果匯總
4 知識(shí)發(fā)現(xiàn)及模型評(píng)估
4.1 模型度量指標(biāo)
4.2 基于決策樹的模型構(gòu)建
4.2.1 使用CART算法建樹
4.2.2 使用ID3算法建樹
4.2.3 使用C5.0算法建樹
4.2.4 使用隨機(jī)森林建模
4.3 各模型性能比較
4.4 基于初次實(shí)驗(yàn)結(jié)果變量調(diào)整
4.4.1 變量調(diào)整
4.4.2 建模及結(jié)果
5 結(jié)論
參考文獻(xiàn)
致謝
附錄A 部分使用數(shù)據(jù)
附錄B 建模算法代碼
個(gè)人簡介
本文編號(hào):3862229
本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/3862229.html
最近更新
教材專著