基于數(shù)據(jù)挖掘的運營商用戶流失預測研究與應用
發(fā)布時間:2021-01-31 10:49
用戶是電信運營商利益的核心。面對激烈的業(yè)內競爭、日益飽和的電信市場和互聯(lián)網大潮的不斷沖擊,提前預測用戶流失傾向,有針對性地挽留用戶,對提高運營商收益十分重要。數(shù)據(jù)挖掘是從數(shù)據(jù)中獲取有價值信息的重要手段,用數(shù)據(jù)挖掘技術對運營商存儲的海量數(shù)據(jù)進行用戶流失預測建模,可以準確地預測用戶流失傾向。本文基于數(shù)據(jù)挖掘技術對運營商計費系統(tǒng)中數(shù)據(jù)進行分析,構建運營商用戶流失預測系統(tǒng),預測用戶是否流失及流失的概率,使運營商制定用戶挽留策略更有針對性。論文主要工作包括:1.基于數(shù)據(jù)挖掘過程,對運營商計費系統(tǒng)中數(shù)據(jù)進行預處理、特征構建和選擇,以梯度提升算法LightGBM做為分類器,提出了運營商用戶流失預測模型,并對基于LightGBM的用戶流失預測模型進行了性能測試。結果表明,本文提出模型的正確率、召回率、調和均值(F1)和曲線下面積(AUC)均優(yōu)于常用的邏輯回歸、支持向量機、決策樹和隨機森林模型。在此基礎上,本文搭建了便于實際部署和應用的用戶流失預測系統(tǒng),采用運營商計費系統(tǒng)中提取的用戶真實數(shù)據(jù)進行了系統(tǒng)測試。2.本文從數(shù)據(jù)處理方面對運營商用戶流失預測數(shù)據(jù)不均衡問題進行了研究,提出了基于生成對抗網絡的過采樣...
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:104 頁
【學位級別】:碩士
【部分圖文】:
圖2-1?CRISP-DM數(shù)據(jù)挖掘過程??
的基分類器應該同時具備精準性和多樣性的特點。一般集成分類器具有比單個分??類器更強的泛化能力。從基分類器生成策略考慮,集成學習方法主要可以分為??Bagging策略、Boosting策略和Stacking策略三種,具體結構分別如圖2-2、圖2-3??和圖2-4所示。??(1)?Bagging?策略??Bagging策略是一種并行化訓練基分類器的方法,通過可重復采樣的方式,生??成多個具有一定差異的樣本子集,然后用這些不同的樣本子集分別訓練多個基分??類器,再對這些分類器進行集成得到具有一定多樣性的集成分類器。Bagging策略??結構如圖2-2所示,該策略簡單有效,其中隨機森林就是它的典型代表。由于??Bagging策略采取并行化結合方式,當基分類器相互獨立時,可以顯著降低集成后??分類器的方差。?? ̄H?基分類器1?? ̄ ̄八枉女—I? ̄ ̄入擇士?|訓練?????—基分類器2集成分類器??機?S??采????策??樣.?.略??m個樣本?訓練??H?基分類器7??圖2-2?Bagging策略結構圖??Figure?2-2?the?Structure?of?Bagging?Strategy??(2)?Boosting?策略??與Bagging并行化策略不同,Boosting策略采用串行的方式訓練基分類器,下??14??
?一個分類器的訓練基于前一個分類器訓練結果,分類器之間具有很強的相關性,??因此,Boosting策略降低的是集成分類器的偏差。Boosting策略結構如圖2-3所示,??每一輪基分類器訓練時根據(jù)上一輪分類器的誤差調整訓練樣本的權重,提高誤差??率高的樣本的權重,使得誤差率高的樣本獲得更多的重視。AdaBoost、GBDT等??算法都屬于Boosting策略算法。??基分類丨h??根據(jù)基分類器1誤差更新樣本權重D(2>???——1?訓練?, ̄ ̄??—??f權重D(2_)?J——?——?基分類器2??集成分類器??根據(jù)基分^器2誤差更新樣本權^D(3)?2?????口??????.略
【參考文獻】:
期刊論文
[1]論電子商務通信運營商存量客戶的維系[J]. 李尚琛. 中國市場. 2018(04)
[2]中國電信產業(yè)的外部分析[J]. 于可慧. 中國管理信息化. 2014(02)
博士論文
[1]集成學習中若干關鍵問題的研究[D]. 王清.復旦大學 2011
碩士論文
[1]基于生成對抗網絡的圖像類別不平衡問題數(shù)據(jù)擴充方法[D]. 俞彬.華南理工大學 2018
[2]電信客戶細分研究[D]. 何靈.西南交通大學 2016
[3]數(shù)據(jù)挖掘在電信運營商客戶關系管理中的應用[D]. 張雋.上海交通大學 2015
[4]基于數(shù)據(jù)挖掘的電信反欺詐管理系統(tǒng)的設計與實現(xiàn)[D]. 郭紅宇.電子科技大學 2012
[5]基于數(shù)據(jù)挖掘的個性化營銷算法的設計與實現(xiàn)[D]. 吳曉黎.北京郵電大學 2010
本文編號:3010720
【文章來源】:北京交通大學北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:104 頁
【學位級別】:碩士
【部分圖文】:
圖2-1?CRISP-DM數(shù)據(jù)挖掘過程??
的基分類器應該同時具備精準性和多樣性的特點。一般集成分類器具有比單個分??類器更強的泛化能力。從基分類器生成策略考慮,集成學習方法主要可以分為??Bagging策略、Boosting策略和Stacking策略三種,具體結構分別如圖2-2、圖2-3??和圖2-4所示。??(1)?Bagging?策略??Bagging策略是一種并行化訓練基分類器的方法,通過可重復采樣的方式,生??成多個具有一定差異的樣本子集,然后用這些不同的樣本子集分別訓練多個基分??類器,再對這些分類器進行集成得到具有一定多樣性的集成分類器。Bagging策略??結構如圖2-2所示,該策略簡單有效,其中隨機森林就是它的典型代表。由于??Bagging策略采取并行化結合方式,當基分類器相互獨立時,可以顯著降低集成后??分類器的方差。?? ̄H?基分類器1?? ̄ ̄八枉女—I? ̄ ̄入擇士?|訓練?????—基分類器2集成分類器??機?S??采????策??樣.?.略??m個樣本?訓練??H?基分類器7??圖2-2?Bagging策略結構圖??Figure?2-2?the?Structure?of?Bagging?Strategy??(2)?Boosting?策略??與Bagging并行化策略不同,Boosting策略采用串行的方式訓練基分類器,下??14??
?一個分類器的訓練基于前一個分類器訓練結果,分類器之間具有很強的相關性,??因此,Boosting策略降低的是集成分類器的偏差。Boosting策略結構如圖2-3所示,??每一輪基分類器訓練時根據(jù)上一輪分類器的誤差調整訓練樣本的權重,提高誤差??率高的樣本的權重,使得誤差率高的樣本獲得更多的重視。AdaBoost、GBDT等??算法都屬于Boosting策略算法。??基分類丨h??根據(jù)基分類器1誤差更新樣本權重D(2>???——1?訓練?, ̄ ̄??—??f權重D(2_)?J——?——?基分類器2??集成分類器??根據(jù)基分^器2誤差更新樣本權^D(3)?2?????口??????.略
【參考文獻】:
期刊論文
[1]論電子商務通信運營商存量客戶的維系[J]. 李尚琛. 中國市場. 2018(04)
[2]中國電信產業(yè)的外部分析[J]. 于可慧. 中國管理信息化. 2014(02)
博士論文
[1]集成學習中若干關鍵問題的研究[D]. 王清.復旦大學 2011
碩士論文
[1]基于生成對抗網絡的圖像類別不平衡問題數(shù)據(jù)擴充方法[D]. 俞彬.華南理工大學 2018
[2]電信客戶細分研究[D]. 何靈.西南交通大學 2016
[3]數(shù)據(jù)挖掘在電信運營商客戶關系管理中的應用[D]. 張雋.上海交通大學 2015
[4]基于數(shù)據(jù)挖掘的電信反欺詐管理系統(tǒng)的設計與實現(xiàn)[D]. 郭紅宇.電子科技大學 2012
[5]基于數(shù)據(jù)挖掘的個性化營銷算法的設計與實現(xiàn)[D]. 吳曉黎.北京郵電大學 2010
本文編號:3010720
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3010720.html
最近更新
教材專著