基于移動(dòng)電信數(shù)據(jù)個(gè)人征信模型研究
本文選題:征信模型 + 電信數(shù)據(jù); 參考:《北京郵電大學(xué)》2017年碩士論文
【摘要】:隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,信用評(píng)價(jià)對(duì)個(gè)人獲得更加便捷的服務(wù)和社會(huì)運(yùn)行成本降低都有著積極意義。我國(guó)個(gè)人征信起步晚,目前信用記錄覆蓋率較低,但需求旺盛。電信數(shù)據(jù)包含了個(gè)人身份信息、消費(fèi)記錄、欠費(fèi)違約等和信用評(píng)價(jià)相關(guān)度高的數(shù)據(jù),具有質(zhì)量高、用戶多和維度豐富等特點(diǎn),適合用于個(gè)人信用評(píng)價(jià)。但該方面研究工作較少,因此本文對(duì)利用電信數(shù)據(jù)做信用評(píng)價(jià)進(jìn)行了探索分析。本文首先對(duì)常用征信模型進(jìn)行了分析比較;诮y(tǒng)計(jì)學(xué)的模型有邏輯回歸、支持向量機(jī)和決策樹(shù)等,基于智能方法的有神經(jīng)網(wǎng)絡(luò)等。本文對(duì)上述模型都進(jìn)行了理論分析和推導(dǎo),并給出了在實(shí)際應(yīng)用中常見(jiàn)問(wèn)題比如過(guò)擬合等的解決方案。然后對(duì)電信數(shù)據(jù)進(jìn)行理解分析,參考FICO(Fair IsaacCompany)模型并利用相關(guān)分析等方法選取了建模需要的特征數(shù)據(jù)。隨后對(duì)數(shù)據(jù)進(jìn)行了清洗與預(yù)處理包括,填補(bǔ)空缺值、剔除異常值、數(shù)據(jù)離散化和歸一化。預(yù)處理之后分析數(shù)據(jù)發(fā)現(xiàn)部分特征間存在多重共線性,不符合邏輯回歸模型的假設(shè)前提,所以對(duì)此采用了主成分分析處理,通過(guò)降維解決共線性問(wèn)題。預(yù)處理完畢后,對(duì)電信數(shù)據(jù)進(jìn)行探索分析,更深入的去認(rèn)識(shí)特征的分布規(guī)律和與征信的關(guān)系。單個(gè)模型去做信用評(píng)價(jià)有時(shí)效果有限,本文將機(jī)器學(xué)習(xí)中集成的思想引入,構(gòu)建基于隨機(jī)森林的個(gè)人征信模型。結(jié)合原始電信數(shù)據(jù)有冗余信息和類別不平衡特點(diǎn),在單顆決策樹(shù)的基礎(chǔ)上引入分類別有重復(fù)采樣并隨機(jī)選擇特征子集,訓(xùn)練多個(gè)具有差異的決策樹(shù),然后將其組合起來(lái)預(yù)測(cè)輸出。模型訓(xùn)練后測(cè)試表明其預(yù)測(cè)精度、準(zhǔn)確率、召回率和F1均優(yōu)于常用征信模型。
[Abstract]:With the development of social economy, credit evaluation has a positive significance for individuals to obtain more convenient services and reduce social operating costs. Our country personal credit investigation starts late, the credit record coverage rate is low at present, but the demand is exuberant. Telecommunication data includes personal identity information, consumption record, default of payment and credit evaluation. It has the characteristics of high quality, multiple users and rich dimensions. It is suitable for personal credit evaluation. However, there is little research work in this field, so this paper explores and analyzes the credit evaluation using telecommunication data. In this paper, the common credit model is analyzed and compared. The models based on statistics include logical regression, support vector machine and decision tree, and neural networks based on intelligent methods. In this paper, the above models are theoretically analyzed and deduced, and the solutions of common problems such as over-fitting in practical application are given. Then the telecom data is understood and analyzed, and the characteristic data of modeling is selected by referring to the FICO(Fair Isaac Company model and using correlation analysis and other methods. Then the data is cleaned and preprocessed, including filling the vacancy value, eliminating the outlier value, discretization and normalization of the data. After preprocessing, it is found that there is multiple collinearity among some features, which does not accord with the premise of logical regression model, so principal component analysis (PCA) is used to solve the problem of collinearity through dimension reduction. After preprocessing, the telecom data is explored and analyzed to understand the distribution law of the characteristics and the relationship between the characteristics and credit information. The effect of a single model to do credit evaluation is sometimes limited. This paper introduces the idea of integration in machine learning to construct a personal credit model based on random forest. Combined with the redundant information and class imbalance of the original telecommunication data, this paper introduces subcategory repeated sampling and random selection of feature subsets on the basis of a single decision tree, and trains multiple decision trees with differences. Then combine it to predict the output. The model training test shows that its prediction accuracy, accuracy, recall rate and F1 are better than those of common credit model.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:F626;TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 鐘楚男;對(duì)銀行優(yōu)先建立個(gè)人征信制度的建議[J];中國(guó)信用卡;2001年07期
2 張敏;國(guó)外個(gè)人征信工作經(jīng)驗(yàn)的啟示[J];中國(guó)信用卡;2002年02期
3 盧小龍;朱建強(qiáng);朱杰;林鴻;寧翔;;個(gè)人征信系統(tǒng)總體框架的設(shè)計(jì)[J];金融電子化;2005年03期
4 張杏英;;個(gè)人征信系統(tǒng)試運(yùn)行存在三方面問(wèn)題 完善系統(tǒng)運(yùn)行須多管齊下[J];金融電子化;2005年09期
5 方家平;;手機(jī)欠費(fèi)納入個(gè)人征信應(yīng)該緩行[J];IT時(shí)代周刊;2007年Z1期
6 ;央行:個(gè)人征信不良信息超過(guò)5年應(yīng)當(dāng)刪除[J];金融科技時(shí)代;2013年03期
7 王征宇 ,張俠 ,華新雷 ,馬恩華;關(guān)于發(fā)展我國(guó)個(gè)人征信數(shù)據(jù)系統(tǒng)的一些思考和建議[J];中國(guó)金融電腦;2004年05期
8 胡小明;;信用系統(tǒng)定位研究[J];電子政務(wù);2010年04期
9 ;央行考察個(gè)人征信項(xiàng)目工作[J];金融電子化;2004年01期
10 王雪玉;;新版?zhèn)人征信報(bào)告上線,告別終身不良記錄[J];金融科技時(shí)代;2012年12期
相關(guān)會(huì)議論文 前10條
1 錢(qián)林曉;王一濤;;對(duì)應(yīng)試教育條件下學(xué)生學(xué)習(xí)行為的模型分析[A];2005年中國(guó)教育經(jīng)濟(jì)學(xué)年會(huì)會(huì)議論文集[C];2005年
2 謝程利;王金橋;盧漢清;;核森林及其在目標(biāo)檢測(cè)中的應(yīng)用[A];第六屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2010)、第19屆全國(guó)多媒體學(xué)術(shù)會(huì)議(NCMT2010)、第6屆全國(guó)人機(jī)交互學(xué)術(shù)會(huì)議(CHCI2010)、第5屆全國(guó)普適計(jì)算學(xué)術(shù)會(huì)議(PCC2010)論文集[C];2010年
3 武曉巖;方慶偉;;基因表達(dá)數(shù)據(jù)分析的隨機(jī)森林方法及算法改進(jìn)[A];黑龍江省第十次統(tǒng)計(jì)科學(xué)討論會(huì)論文集[C];2008年
4 張?zhí)忑?梁龍;王康;李華;;隨機(jī)森林結(jié)合激光誘導(dǎo)擊穿光譜技術(shù)用于的鋼鐵分類[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年
5 高林;劉喜梅;;多模型中權(quán)值確定的新方法及其應(yīng)用[A];2009年中國(guó)智能自動(dòng)化會(huì)議論文集(第二分冊(cè))[C];2009年
6 相玉紅;張卓勇;;組蛋白去乙;敢种苿┑臉(gòu)效關(guān)系研究[A];第十一屆全國(guó)計(jì)算(機(jī))化學(xué)學(xué)術(shù)會(huì)議論文摘要集[C];2011年
7 張濤;李貞子;武曉巖;李康;;隨機(jī)森林回歸分析方法及在代謝組學(xué)中的應(yīng)用[A];2011年中國(guó)衛(wèi)生統(tǒng)計(jì)學(xué)年會(huì)會(huì)議論文集[C];2011年
8 朱萍;劉偉澤;萬(wàn)立濱;;基于實(shí)證研究的知識(shí)管理路線、方法和模型分析[A];航空工業(yè)檔案學(xué)會(huì)七屆四次理事會(huì)暨2013年度優(yōu)秀論文交流會(huì)論文集[C];2013年
9 潘潔;周宗放;;全流通下KMV模型中的違約點(diǎn)修正及實(shí)證研究[A];中國(guó)企業(yè)運(yùn)籌學(xué)[C];2009年
10 肖田元;;仿真是基于模型的活動(dòng)[A];新觀點(diǎn)新學(xué)說(shuō)學(xué)術(shù)沙龍文集37:仿真是基于模型的實(shí)驗(yàn)嗎[C];2009年
相關(guān)重要報(bào)紙文章 前10條
1 本報(bào)記者 張夏楠;個(gè)人征信“看上去很美”[N];華夏時(shí)報(bào);2014年
2 巴曙松 陳華良;個(gè)人征信 不僅是個(gè)人的問(wèn)題[N];中國(guó)證券報(bào);2005年
3 孫瑞灼;“手機(jī)欠費(fèi)納入個(gè)人征信”應(yīng)建立申訴制度[N];中國(guó)企業(yè)報(bào);2007年
4 賈磊;個(gè)人征信求全更應(yīng)求真[N];經(jīng)濟(jì)參考報(bào);2006年
5 葉雷;立法未行的個(gè)人征信是變相“霸王條款”[N];人民代表報(bào);2007年
6 孫瑞灼;立法規(guī)范要與個(gè)人征信同行[N];法制日?qǐng)?bào);2010年
7 牛明霞 作者單位 農(nóng)總行信貸管理部;個(gè)人征信信息:居民第二張“身份證”[N];中國(guó)城鄉(xiāng)金融報(bào);2007年
8 實(shí)習(xí)記者 孫書(shū)堯;個(gè)人征信新規(guī)運(yùn)行 消費(fèi)者更安心[N];消費(fèi)日?qǐng)?bào);2012年
9 本報(bào)記者 張世豪;我省明年有望實(shí)現(xiàn)個(gè)人征信互聯(lián)網(wǎng)查詢[N];鄭州日?qǐng)?bào);2013年
10 賈磊;個(gè)人征信亟待提高含金量[N];中國(guó)經(jīng)濟(jì)導(dǎo)報(bào);2006年
相關(guān)博士學(xué)位論文 前10條
1 艾茜;個(gè)人征信法律制度研究[D];中國(guó)政法大學(xué);2006年
2 李瑜;多選題認(rèn)知診斷測(cè)驗(yàn)編制及多策略的多選題認(rèn)知診斷模型的開(kāi)發(fā)[D];江西師范大學(xué);2014年
3 康慧燕;復(fù)雜網(wǎng)絡(luò)上帶有潛伏期的傳染病動(dòng)力學(xué)模型研究[D];上海大學(xué);2015年
4 郭瑋;基于多因素集成的疏散場(chǎng)模型研究[D];北京化工大學(xué);2015年
5 張?zhí)祢?產(chǎn)漂流性卵小型魚(yú)類的生態(tài)位建模及分析[D];中國(guó)農(nóng)業(yè)大學(xué);2016年
6 張會(huì)敏;基于小域估計(jì)的貧困指標(biāo)測(cè)度方法與模型研究[D];天津財(cái)經(jīng)大學(xué);2015年
7 宋澤芳;基于投資者情緒效應(yīng)的均值—方差關(guān)系模型研究[D];廣州大學(xué);2016年
8 徐帆;籠養(yǎng)食蟹猴自發(fā)抑郁模型的創(chuàng)建與驗(yàn)證[D];重慶醫(yī)科大學(xué);2015年
9 畢仁貴;考慮相關(guān)性的不確定凸集模型與非概率可靠性分析方法[D];湖南大學(xué);2015年
10 盧偉;小時(shí)步長(zhǎng)森林碳循環(huán)模型(BEPS)參數(shù)優(yōu)化及應(yīng)用研究[D];東北林業(yè)大學(xué);2016年
相關(guān)碩士學(xué)位論文 前10條
1 唐亞平;基于移動(dòng)電信數(shù)據(jù)個(gè)人征信模型研究[D];北京郵電大學(xué);2017年
2 李衛(wèi);個(gè)人征信與信息主體權(quán)利保護(hù)研究[D];華中師范大學(xué);2017年
3 劉正陽(yáng);個(gè)人征信中個(gè)人信用權(quán)保護(hù)研究[D];華東政法大學(xué);2016年
4 朱才廣;我國(guó)個(gè)人征信發(fā)展模式研究[D];暨南大學(xué);2016年
5 朱莎;我國(guó)個(gè)人征信信息主體權(quán)益保護(hù)研究[D];上海交通大學(xué);2015年
6 張斌;互聯(lián)網(wǎng)條件下個(gè)人征信市場(chǎng)化的法律規(guī)制[D];西南財(cái)經(jīng)大學(xué);2016年
7 侯萌;大數(shù)據(jù)背景下的個(gè)人征信研究[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2016年
8 趙克非;大數(shù)據(jù)下的個(gè)人征信體系研究[D];浙江大學(xué);2017年
9 李思雷;論我國(guó)個(gè)人征信權(quán)利結(jié)構(gòu)[D];西南政法大學(xué);2016年
10 黃艷菲;個(gè)人征信中信用權(quán)保護(hù)研究[D];華僑大學(xué);2017年
,本文編號(hào):1825785
本文鏈接:http://www.sikaile.net/jingjilunwen/xxjj/1825785.html