基于機器學(xué)習(xí)的某商業(yè)銀行客戶畫像模型研究
發(fā)布時間:2021-07-08 20:29
客戶是商業(yè)銀行利益的根本。面對日趨激烈的行業(yè)競爭與飽和的市場環(huán)境,如何有效的利用客戶數(shù)據(jù)分析來針對性的營銷客戶,對提高銀行效益十分重要。機器學(xué)習(xí)是從數(shù)據(jù)中獲取有價值信息的重要手段,用機器學(xué)習(xí)技術(shù)對商業(yè)銀行的客戶數(shù)據(jù)進行畫像建模,可以更加準確地分類客戶。本文以機器學(xué)習(xí)為主對商業(yè)銀行客戶數(shù)據(jù)進行分析,構(gòu)建商業(yè)銀行客戶畫像模型,并將該畫像模型對客戶的分類應(yīng)用于銀行客戶畫像系統(tǒng)中,使得畫像系統(tǒng)能夠更加全面的展示客戶信息。本文的主要工作包括:1.首先對商業(yè)銀行客戶數(shù)據(jù)進行數(shù)據(jù)預(yù)處理。因為生成對抗網(wǎng)絡(luò)(GAN)相比于傳統(tǒng)方法,能更好的模擬原始樣本分布,生成高質(zhì)量樣本,所以將GAN模型應(yīng)用于銀行客戶數(shù)據(jù)處理中,來解決存在的銀行客戶類別不平衡問題。同時將本文提出的GAN模型與常用的RUS、ROS、SMOTE、BSMOTE和ADASYN等類別不平衡處理方法進行了實驗對比。結(jié)果表明,本文提出的生成對抗網(wǎng)絡(luò)模型對于類別不均衡問題在正確率、召回率和F-measure等指標的綜合度量上具有更好的效果。2.根據(jù)處理后的數(shù)據(jù)構(gòu)建客戶畫像模型。本文采用兩種模型結(jié)合的方式構(gòu)建客戶畫像模型,來解決高維銀行數(shù)據(jù)的難以精確分...
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
Smote算法示意圖
3.數(shù)據(jù)預(yù)處理與基于生成對抗網(wǎng)絡(luò)的類別不平衡處理17圖3.1變量churn不平衡比率示意圖3.1.2數(shù)據(jù)清理與轉(zhuǎn)換如上文所述,數(shù)據(jù)預(yù)處理是建立模型之前很重要的一步。本文研究所使用的商業(yè)銀行客戶數(shù)據(jù)存在以下幾個主要問題:(1)客戶數(shù)據(jù)維度很高,即屬于維度災(zāi)難情況,模型訓(xùn)練難度很高與訓(xùn)練開銷極大;(2)變量缺失值過多,需要對值缺失進行填充,如果某一變量存在缺失比例過高現(xiàn)象則將其刪除;(3)字符串型數(shù)據(jù)過多,需要進行數(shù)據(jù)轉(zhuǎn)換;根據(jù)上述問題,首先處理缺失值。對于缺失占比高于50%的特征進行刪除處理,而對于占比較低的,則補全缺失值。本文使用均值法填補缺失值,即用該變量非空值的均值或中位數(shù)進行填充;同時,刪除樣本值超過90%是0的變量,這些變量對于客戶畫像建模沒有意義。如原始數(shù)據(jù)中DEP_SA_DEPCD_COSM_AMT變量的全部為0,說明這個變量為不常用變量,對于建模分析意義不大,因此刪除。對字符串型數(shù)據(jù)進行轉(zhuǎn)換,如CUST_DOLLER_FLAG、FUND_FLAG等字段的數(shù)據(jù)類型為形如“b"N",b"Y"”的字符串,將這些字段的根據(jù)屬性的具體業(yè)務(wù)含義轉(zhuǎn)化為1,0等數(shù)值型數(shù)據(jù),構(gòu)成新的屬性。同時為了解決不同變量計量單位不同導(dǎo)致的數(shù)據(jù)量綱偏差過大的問題,本文采用數(shù)據(jù)標準化的來消除屬性量綱不一致的問題,來避免某個屬性重要度過大或過小,標準化公式如(3-1)所示。=(3-1)
重慶理工大學(xué)碩士學(xué)位論文36述造成偏差。為了能夠給出合適的聚類數(shù)目,本文使用肘部法對聚類個數(shù)進行篩眩分別計算了聚類數(shù)目為2至14作為時每種情況下各樣本到聚類中心的誤差平方和(SSE),如式(4-3)=∑∑||∈=12(4-3)圖4.3SSE值隨簇數(shù)變化圖通過上圖可以發(fā)現(xiàn),SSE值隨聚類簇數(shù)的增加逐漸減小,在客戶細分數(shù)目為6時目標函數(shù)值的SSE值的下降趨勢出現(xiàn)明顯拐點,曲線斜率明顯變緩。根據(jù)肘部法的準則,選擇6作為銀行客戶簇數(shù)。得出最終的客戶聚類情況如下表4.6與圖4.4所示:表4.6聚類均值匯總表聚類因子1因子2因子3因子4因子5因子610.6851-1.0230-0.0428-1.50680.3816-1.66622-0.09370.31361.2774-1.26200.0531-0.59683-0.05100.0774-1.42180.5376-0.5602-0.31394-0.1211-1.3418-1.53641.6454-1.17881.131350.8359-0.2748-0.61750.0218-0.42661.58756-0.9243-1.56660.13080.4651-0.0072-1.2994
【參考文獻】:
期刊論文
[1]LSTM模型集成方法在客戶流失預(yù)測中的應(yīng)用[J]. 周捷,嚴建峰,楊璐,夏鵬,王猛. 計算機應(yīng)用與軟件. 2019(11)
[2]汽車4S店TFM客戶細分模型及其方法研究[J]. 謝鵬壽,張寬,范宏進,貴向泉,張恩展. 小型微型計算機系統(tǒng). 2019(10)
[3]因子分析綜合評價研究綜述[J]. 劉照德,詹秋泉,田國梁. 統(tǒng)計與決策. 2019(19)
[4]SMOTE過采樣及其改進算法研究綜述[J]. 石洪波,陳雨文,陳鑫. 智能系統(tǒng)學(xué)報. 2019(06)
[5]改進的多層感知機在客戶流失預(yù)測中的應(yīng)用[J]. 夏國恩,唐琪,張顯全. 計算機工程與應(yīng)用. 2020(14)
[6]面向不均衡數(shù)據(jù)的動態(tài)抽樣集成學(xué)習(xí)算法[J]. 張燕,杜紅樂. 計算機應(yīng)用與軟件. 2019(06)
[7]基于概率采樣和集成學(xué)習(xí)的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計算機科學(xué). 2019(05)
[8]基于Stacking策略的穩(wěn)定性分類器組合模型研究[J]. 吳擋平,張忠林,曹婷婷. 小型微型計算機系統(tǒng). 2019(05)
[9]基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測模型[J]. 馬文斌,夏國恩. 計算機技術(shù)與發(fā)展. 2019(09)
[10]基于因子分析和聚類分析的商業(yè)銀行二級分行特色分類方法研究[J]. 應(yīng)習(xí)文,袁雅珵. 新金融. 2019(04)
博士論文
[1]大數(shù)據(jù)背景下商業(yè)銀行精準營銷的設(shè)計與應(yīng)用[D]. 鄧典雅.華南理工大學(xué) 2018
碩士論文
[1]高校學(xué)生畫像系統(tǒng)的設(shè)計與實現(xiàn)[D]. 楊浩.北京郵電大學(xué) 2019
[2]銀行個貸流失客戶畫像體系構(gòu)造與預(yù)警建模[D]. 程暉.長春工業(yè)大學(xué) 2019
[3]基于數(shù)據(jù)挖掘的運營商用戶流失預(yù)測研究與應(yīng)用[D]. 林小榕.北京交通大學(xué) 2019
[4]基于Hadoop和Django的電商用戶畫像系統(tǒng)[D]. 賴偉.首都經(jīng)濟貿(mào)易大學(xué) 2018
[5]A銀行信用卡營銷客戶畫像體系設(shè)計[D]. 歐陽芳慧.湖南大學(xué) 2018
[6]基于“新零售”模式的商業(yè)銀行精準營銷分析與應(yīng)用研究[D]. 葉倩琳.華南理工大學(xué) 2018
[7]基于金融大數(shù)據(jù)的客戶風(fēng)險評估及預(yù)測[D]. 袁亞光.北京郵電大學(xué) 2018
[8]K-means聚類算法在銀行CRM系統(tǒng)客戶細分中的應(yīng)用[D]. 李艷君.哈爾濱工業(yè)大學(xué) 2017
本文編號:3272280
【文章來源】:重慶理工大學(xué)重慶市
【文章頁數(shù)】:70 頁
【學(xué)位級別】:碩士
【部分圖文】:
Smote算法示意圖
3.數(shù)據(jù)預(yù)處理與基于生成對抗網(wǎng)絡(luò)的類別不平衡處理17圖3.1變量churn不平衡比率示意圖3.1.2數(shù)據(jù)清理與轉(zhuǎn)換如上文所述,數(shù)據(jù)預(yù)處理是建立模型之前很重要的一步。本文研究所使用的商業(yè)銀行客戶數(shù)據(jù)存在以下幾個主要問題:(1)客戶數(shù)據(jù)維度很高,即屬于維度災(zāi)難情況,模型訓(xùn)練難度很高與訓(xùn)練開銷極大;(2)變量缺失值過多,需要對值缺失進行填充,如果某一變量存在缺失比例過高現(xiàn)象則將其刪除;(3)字符串型數(shù)據(jù)過多,需要進行數(shù)據(jù)轉(zhuǎn)換;根據(jù)上述問題,首先處理缺失值。對于缺失占比高于50%的特征進行刪除處理,而對于占比較低的,則補全缺失值。本文使用均值法填補缺失值,即用該變量非空值的均值或中位數(shù)進行填充;同時,刪除樣本值超過90%是0的變量,這些變量對于客戶畫像建模沒有意義。如原始數(shù)據(jù)中DEP_SA_DEPCD_COSM_AMT變量的全部為0,說明這個變量為不常用變量,對于建模分析意義不大,因此刪除。對字符串型數(shù)據(jù)進行轉(zhuǎn)換,如CUST_DOLLER_FLAG、FUND_FLAG等字段的數(shù)據(jù)類型為形如“b"N",b"Y"”的字符串,將這些字段的根據(jù)屬性的具體業(yè)務(wù)含義轉(zhuǎn)化為1,0等數(shù)值型數(shù)據(jù),構(gòu)成新的屬性。同時為了解決不同變量計量單位不同導(dǎo)致的數(shù)據(jù)量綱偏差過大的問題,本文采用數(shù)據(jù)標準化的來消除屬性量綱不一致的問題,來避免某個屬性重要度過大或過小,標準化公式如(3-1)所示。=(3-1)
重慶理工大學(xué)碩士學(xué)位論文36述造成偏差。為了能夠給出合適的聚類數(shù)目,本文使用肘部法對聚類個數(shù)進行篩眩分別計算了聚類數(shù)目為2至14作為時每種情況下各樣本到聚類中心的誤差平方和(SSE),如式(4-3)=∑∑||∈=12(4-3)圖4.3SSE值隨簇數(shù)變化圖通過上圖可以發(fā)現(xiàn),SSE值隨聚類簇數(shù)的增加逐漸減小,在客戶細分數(shù)目為6時目標函數(shù)值的SSE值的下降趨勢出現(xiàn)明顯拐點,曲線斜率明顯變緩。根據(jù)肘部法的準則,選擇6作為銀行客戶簇數(shù)。得出最終的客戶聚類情況如下表4.6與圖4.4所示:表4.6聚類均值匯總表聚類因子1因子2因子3因子4因子5因子610.6851-1.0230-0.0428-1.50680.3816-1.66622-0.09370.31361.2774-1.26200.0531-0.59683-0.05100.0774-1.42180.5376-0.5602-0.31394-0.1211-1.3418-1.53641.6454-1.17881.131350.8359-0.2748-0.61750.0218-0.42661.58756-0.9243-1.56660.13080.4651-0.0072-1.2994
【參考文獻】:
期刊論文
[1]LSTM模型集成方法在客戶流失預(yù)測中的應(yīng)用[J]. 周捷,嚴建峰,楊璐,夏鵬,王猛. 計算機應(yīng)用與軟件. 2019(11)
[2]汽車4S店TFM客戶細分模型及其方法研究[J]. 謝鵬壽,張寬,范宏進,貴向泉,張恩展. 小型微型計算機系統(tǒng). 2019(10)
[3]因子分析綜合評價研究綜述[J]. 劉照德,詹秋泉,田國梁. 統(tǒng)計與決策. 2019(19)
[4]SMOTE過采樣及其改進算法研究綜述[J]. 石洪波,陳雨文,陳鑫. 智能系統(tǒng)學(xué)報. 2019(06)
[5]改進的多層感知機在客戶流失預(yù)測中的應(yīng)用[J]. 夏國恩,唐琪,張顯全. 計算機工程與應(yīng)用. 2020(14)
[6]面向不均衡數(shù)據(jù)的動態(tài)抽樣集成學(xué)習(xí)算法[J]. 張燕,杜紅樂. 計算機應(yīng)用與軟件. 2019(06)
[7]基于概率采樣和集成學(xué)習(xí)的不平衡數(shù)據(jù)分類算法[J]. 曹雅茜,黃海燕. 計算機科學(xué). 2019(05)
[8]基于Stacking策略的穩(wěn)定性分類器組合模型研究[J]. 吳擋平,張忠林,曹婷婷. 小型微型計算機系統(tǒng). 2019(05)
[9]基于深度神經(jīng)網(wǎng)絡(luò)的客戶流失預(yù)測模型[J]. 馬文斌,夏國恩. 計算機技術(shù)與發(fā)展. 2019(09)
[10]基于因子分析和聚類分析的商業(yè)銀行二級分行特色分類方法研究[J]. 應(yīng)習(xí)文,袁雅珵. 新金融. 2019(04)
博士論文
[1]大數(shù)據(jù)背景下商業(yè)銀行精準營銷的設(shè)計與應(yīng)用[D]. 鄧典雅.華南理工大學(xué) 2018
碩士論文
[1]高校學(xué)生畫像系統(tǒng)的設(shè)計與實現(xiàn)[D]. 楊浩.北京郵電大學(xué) 2019
[2]銀行個貸流失客戶畫像體系構(gòu)造與預(yù)警建模[D]. 程暉.長春工業(yè)大學(xué) 2019
[3]基于數(shù)據(jù)挖掘的運營商用戶流失預(yù)測研究與應(yīng)用[D]. 林小榕.北京交通大學(xué) 2019
[4]基于Hadoop和Django的電商用戶畫像系統(tǒng)[D]. 賴偉.首都經(jīng)濟貿(mào)易大學(xué) 2018
[5]A銀行信用卡營銷客戶畫像體系設(shè)計[D]. 歐陽芳慧.湖南大學(xué) 2018
[6]基于“新零售”模式的商業(yè)銀行精準營銷分析與應(yīng)用研究[D]. 葉倩琳.華南理工大學(xué) 2018
[7]基于金融大數(shù)據(jù)的客戶風(fēng)險評估及預(yù)測[D]. 袁亞光.北京郵電大學(xué) 2018
[8]K-means聚類算法在銀行CRM系統(tǒng)客戶細分中的應(yīng)用[D]. 李艷君.哈爾濱工業(yè)大學(xué) 2017
本文編號:3272280
本文鏈接:http://www.sikaile.net/guanlilunwen/huobilw/3272280.html
最近更新
教材專著