基于社交網(wǎng)絡(luò)數(shù)據(jù)的信用評(píng)價(jià)數(shù)據(jù)清洗算法及快速實(shí)現(xiàn)
發(fā)布時(shí)間:2022-07-13 17:06
隨著互聯(lián)網(wǎng)金融的快速發(fā)展,其作為傳統(tǒng)金融業(yè)的有益補(bǔ)充,為低收入和中等收入群體提供了相對(duì)有效的金融服務(wù)。但由于缺乏信用評(píng)價(jià)方法,信用風(fēng)險(xiǎn)仍然是互聯(lián)網(wǎng)金融業(yè)的主要風(fēng)險(xiǎn)來(lái)源。對(duì)自然人信用模型的構(gòu)建及信用評(píng)價(jià)是降低信用風(fēng)險(xiǎn)的有效手段。隨著在線(xiàn)社交工具的廣泛使用,越來(lái)越多的人類(lèi)個(gè)體行為被忠實(shí)地記錄下來(lái),形成了龐大的社交網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。這些數(shù)據(jù)記錄的是真實(shí)的人類(lèi)活動(dòng),是對(duì)現(xiàn)實(shí)人群社交的部分映射,使得社交網(wǎng)絡(luò)數(shù)據(jù)用來(lái)衡量用戶(hù)的信用水平變得可能。本文我們主要進(jìn)行了兩方面的研究工作。首先在社交數(shù)據(jù)作為個(gè)人信用評(píng)價(jià)模型的補(bǔ)充數(shù)據(jù)的研究當(dāng)中,網(wǎng)絡(luò)中往往存在著社交足跡不足或無(wú)法代表普通真實(shí)用戶(hù)的異常節(jié)點(diǎn),這些節(jié)點(diǎn)的存在影響著信用評(píng)價(jià)的排序結(jié)果。因此我們根據(jù)用戶(hù)的度分布,活躍度以及用戶(hù)行為時(shí)間間隔來(lái)建立一套用于社交數(shù)據(jù)個(gè)人信用評(píng)價(jià)的數(shù)據(jù)清洗模型,并對(duì)清洗前后的數(shù)據(jù)集進(jìn)行信用評(píng)價(jià)排序,觀察清洗模型對(duì)結(jié)果產(chǎn)生的影響。其次我們對(duì)整個(gè)清洗模型進(jìn)行了用例測(cè)試,找出整個(gè)清洗環(huán)節(jié)中最為耗時(shí)的部分并對(duì)其進(jìn)行并行加速。在本文的第一章中我們對(duì)當(dāng)前社交數(shù)據(jù)用于個(gè)人信用評(píng)價(jià)的研究背景及現(xiàn)狀進(jìn)行了介紹,并引出其中仍存在的問(wèn)題以及我們要展開(kāi)的...
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 研究創(chuàng)新點(diǎn)
2 相關(guān)理論及算法
2.1 社交網(wǎng)絡(luò)的基本概念
2.1.1 描述社交網(wǎng)絡(luò)的基本量
2.1.2 社交網(wǎng)絡(luò)中的冪律特性
2.2 基于社交數(shù)據(jù)的信用評(píng)價(jià)模型
2.2.1 基于神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)價(jià)模型
2.2.2 基于邏輯回歸的個(gè)人信用評(píng)價(jià)模型
2.3 并行加速方法
2.4 基于python的爬蟲(chóng)相關(guān)技術(shù)
2.4.1 Anconada開(kāi)發(fā)環(huán)境及工具包
2.4.2 scrapy分布式爬蟲(chóng)架構(gòu)
2.5 擬合分布的ks檢驗(yàn)
3 社交網(wǎng)絡(luò)數(shù)據(jù)獲取與描述
3.1 數(shù)據(jù)抽樣方法
3.2 數(shù)據(jù)獲取
3.3 數(shù)據(jù)獲取過(guò)程中的難點(diǎn)解決方案
3.4 數(shù)據(jù)收斂性驗(yàn)證
3.5 數(shù)據(jù)描述
3.6 本章小結(jié)
4 用于信用評(píng)價(jià)的社交網(wǎng)絡(luò)數(shù)據(jù)清洗規(guī)則及測(cè)試
4.1 清洗模型的建立
4.1.1 明星用戶(hù)與水軍用戶(hù)的清洗規(guī)則
4.1.2 活躍度異常用戶(hù)清洗規(guī)則
4.1.3 機(jī)械用戶(hù)清洗規(guī)則
4.2 個(gè)人信用評(píng)價(jià)實(shí)驗(yàn)結(jié)果及分析
4.3 本章小結(jié)
5 清洗模型中參數(shù)的快速計(jì)算方法研究
5.1 基于python的加速方法
5.1.1 numba靜態(tài)編譯技術(shù)
5.1.2 multiprocessing進(jìn)程并行模塊
5.2 計(jì)算耗時(shí)分析
5.3 計(jì)算時(shí)耗的并行加速處理
5.3.1 度分布的加速計(jì)算
5.3.2 活躍度的加速計(jì)算
5.3.3 時(shí)間間隔的加速計(jì)算
5.4 本章小結(jié)
6 結(jié)論與展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]在線(xiàn)用戶(hù)追評(píng)行為時(shí)間序列關(guān)聯(lián)特征實(shí)證研究——以京東商城手機(jī)評(píng)論數(shù)據(jù)為例[J]. 張艷豐,彭麗徽,洪闖. 情報(bào)理論與實(shí)踐. 2019(03)
[2]社交網(wǎng)絡(luò)水軍用戶(hù)的動(dòng)態(tài)行為分析及在線(xiàn)檢測(cè)[J]. 李巖,鄧勝春,林劍. 計(jì)算機(jī)工程. 2019(08)
[3]社交網(wǎng)絡(luò)異常用戶(hù)識(shí)別技術(shù)綜述[J]. 仲麗君,楊文忠,袁婷婷,向進(jìn)勇. 計(jì)算機(jī)工程與應(yīng)用. 2018(16)
[4]基于鄰接矩陣的網(wǎng)絡(luò)拓?fù)浔孀R(shí)算法[J]. 郭帥文,燕躍豪,蔣建東,馬夢(mèng)茹,鮑薇. 電力系統(tǒng)保護(hù)與控制. 2018(12)
[5]Logistic回歸算法研究與實(shí)現(xiàn)[J]. 滕文. 信息技術(shù). 2018(05)
[6]冪律特性在新浪微博個(gè)性化推薦中的應(yīng)用研究[J]. 羅斌,陳翔. 計(jì)算機(jī)工程與科學(xué). 2018(04)
[7]社交網(wǎng)絡(luò)中考慮節(jié)點(diǎn)度的演化博弈[J]. 劉亞州,王靜,潘曉中,付偉. 計(jì)算機(jī)應(yīng)用. 2018(04)
[8]大數(shù)據(jù)背景下我國(guó)互聯(lián)網(wǎng)征信問(wèn)題研究——以芝麻信用為例[J]. 余麗霞,鄭潔. 金融發(fā)展研究. 2017(09)
[9]可視圖復(fù)雜網(wǎng)絡(luò)度分布擬合比較研究[J]. 張蓉,鄒勇. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]基于隨機(jī)抽樣法的多群核數(shù)據(jù)不確定性影響分析[J]. 潘昕懌,蘭兵,韓向臻,胡文超,攸國(guó)順,王昆鵬,張春明. 強(qiáng)激光與粒子束. 2017(04)
博士論文
[1]人類(lèi)行為動(dòng)力學(xué)的實(shí)證及生成機(jī)制研究[D]. 鮑媛媛.北京郵電大學(xué) 2012
碩士論文
[1]復(fù)雜網(wǎng)絡(luò)動(dòng)力學(xué)[D]. 紀(jì)鵬.江南大學(xué) 2011
本文編號(hào):3660430
【文章頁(yè)數(shù)】:56 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
1 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 研究?jī)?nèi)容
1.4 研究創(chuàng)新點(diǎn)
2 相關(guān)理論及算法
2.1 社交網(wǎng)絡(luò)的基本概念
2.1.1 描述社交網(wǎng)絡(luò)的基本量
2.1.2 社交網(wǎng)絡(luò)中的冪律特性
2.2 基于社交數(shù)據(jù)的信用評(píng)價(jià)模型
2.2.1 基于神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)價(jià)模型
2.2.2 基于邏輯回歸的個(gè)人信用評(píng)價(jià)模型
2.3 并行加速方法
2.4 基于python的爬蟲(chóng)相關(guān)技術(shù)
2.4.1 Anconada開(kāi)發(fā)環(huán)境及工具包
2.4.2 scrapy分布式爬蟲(chóng)架構(gòu)
2.5 擬合分布的ks檢驗(yàn)
3 社交網(wǎng)絡(luò)數(shù)據(jù)獲取與描述
3.1 數(shù)據(jù)抽樣方法
3.2 數(shù)據(jù)獲取
3.3 數(shù)據(jù)獲取過(guò)程中的難點(diǎn)解決方案
3.4 數(shù)據(jù)收斂性驗(yàn)證
3.5 數(shù)據(jù)描述
3.6 本章小結(jié)
4 用于信用評(píng)價(jià)的社交網(wǎng)絡(luò)數(shù)據(jù)清洗規(guī)則及測(cè)試
4.1 清洗模型的建立
4.1.1 明星用戶(hù)與水軍用戶(hù)的清洗規(guī)則
4.1.2 活躍度異常用戶(hù)清洗規(guī)則
4.1.3 機(jī)械用戶(hù)清洗規(guī)則
4.2 個(gè)人信用評(píng)價(jià)實(shí)驗(yàn)結(jié)果及分析
4.3 本章小結(jié)
5 清洗模型中參數(shù)的快速計(jì)算方法研究
5.1 基于python的加速方法
5.1.1 numba靜態(tài)編譯技術(shù)
5.1.2 multiprocessing進(jìn)程并行模塊
5.2 計(jì)算耗時(shí)分析
5.3 計(jì)算時(shí)耗的并行加速處理
5.3.1 度分布的加速計(jì)算
5.3.2 活躍度的加速計(jì)算
5.3.3 時(shí)間間隔的加速計(jì)算
5.4 本章小結(jié)
6 結(jié)論與展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]在線(xiàn)用戶(hù)追評(píng)行為時(shí)間序列關(guān)聯(lián)特征實(shí)證研究——以京東商城手機(jī)評(píng)論數(shù)據(jù)為例[J]. 張艷豐,彭麗徽,洪闖. 情報(bào)理論與實(shí)踐. 2019(03)
[2]社交網(wǎng)絡(luò)水軍用戶(hù)的動(dòng)態(tài)行為分析及在線(xiàn)檢測(cè)[J]. 李巖,鄧勝春,林劍. 計(jì)算機(jī)工程. 2019(08)
[3]社交網(wǎng)絡(luò)異常用戶(hù)識(shí)別技術(shù)綜述[J]. 仲麗君,楊文忠,袁婷婷,向進(jìn)勇. 計(jì)算機(jī)工程與應(yīng)用. 2018(16)
[4]基于鄰接矩陣的網(wǎng)絡(luò)拓?fù)浔孀R(shí)算法[J]. 郭帥文,燕躍豪,蔣建東,馬夢(mèng)茹,鮑薇. 電力系統(tǒng)保護(hù)與控制. 2018(12)
[5]Logistic回歸算法研究與實(shí)現(xiàn)[J]. 滕文. 信息技術(shù). 2018(05)
[6]冪律特性在新浪微博個(gè)性化推薦中的應(yīng)用研究[J]. 羅斌,陳翔. 計(jì)算機(jī)工程與科學(xué). 2018(04)
[7]社交網(wǎng)絡(luò)中考慮節(jié)點(diǎn)度的演化博弈[J]. 劉亞州,王靜,潘曉中,付偉. 計(jì)算機(jī)應(yīng)用. 2018(04)
[8]大數(shù)據(jù)背景下我國(guó)互聯(lián)網(wǎng)征信問(wèn)題研究——以芝麻信用為例[J]. 余麗霞,鄭潔. 金融發(fā)展研究. 2017(09)
[9]可視圖復(fù)雜網(wǎng)絡(luò)度分布擬合比較研究[J]. 張蓉,鄒勇. 華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2017(02)
[10]基于隨機(jī)抽樣法的多群核數(shù)據(jù)不確定性影響分析[J]. 潘昕懌,蘭兵,韓向臻,胡文超,攸國(guó)順,王昆鵬,張春明. 強(qiáng)激光與粒子束. 2017(04)
博士論文
[1]人類(lèi)行為動(dòng)力學(xué)的實(shí)證及生成機(jī)制研究[D]. 鮑媛媛.北京郵電大學(xué) 2012
碩士論文
[1]復(fù)雜網(wǎng)絡(luò)動(dòng)力學(xué)[D]. 紀(jì)鵬.江南大學(xué) 2011
本文編號(hào):3660430
本文鏈接:http://www.sikaile.net/jingjilunwen/huobiyinxinglunwen/3660430.html
最近更新
教材專(zhuān)著