基于XGBoost的Bagging方法的電信客戶流失預(yù)測(cè)應(yīng)用研究
發(fā)布時(shí)間:2023-03-26 17:27
近幾年來(lái),隨著移動(dòng)通訊行業(yè)的不斷發(fā)展,運(yùn)營(yíng)商對(duì)客戶的管理更加重視。根據(jù)相關(guān)研究表明,開發(fā)一個(gè)新用戶的成本是挽留一個(gè)老用戶成本的六倍。因此準(zhǔn)確預(yù)測(cè)流失客戶對(duì)運(yùn)營(yíng)商來(lái)說(shuō)非常關(guān)鍵。目前,運(yùn)營(yíng)商已經(jīng)積累了大量的用戶信息和行為信息,電信大數(shù)據(jù)可以使客戶流失預(yù)測(cè)變得更容易。但是總體來(lái)說(shuō),仍存在一下幾個(gè)問(wèn)題:數(shù)據(jù)體量龐大且來(lái)自異構(gòu)數(shù)據(jù)源帶來(lái)的數(shù)據(jù)完整性一致性方面問(wèn)題;電信用戶數(shù)據(jù)維度過(guò)高;且流失用戶與非流失用戶之間在數(shù)量上占比極不均衡。這給客戶流失預(yù)測(cè)的研究帶來(lái)了困難。在本次電信客戶流失預(yù)測(cè)的研究中,針對(duì)以上問(wèn)題,提出了如下解決方案:通過(guò)Apache Hadoop和Spark的分布式架構(gòu)的大數(shù)據(jù)平臺(tái)整合了來(lái)自異構(gòu)數(shù)據(jù)源的電信運(yùn)營(yíng)數(shù)據(jù);通過(guò)圖論、自然語(yǔ)言、棧式自動(dòng)編碼神經(jīng)網(wǎng)絡(luò)等方法挖掘了電信用戶大數(shù)據(jù)下隱藏的特征信息;對(duì)比了幾種針對(duì)類不平衡數(shù)據(jù)集的采樣方法和多種采樣方式混合的方法;提出基于XGBoost的Bagging方法結(jié)合混合采樣方法的融合模型,充分利用了不平衡數(shù)據(jù)集,構(gòu)建了二分類模型對(duì)電信用戶進(jìn)行流失預(yù)測(cè)。最終在實(shí)驗(yàn)中,通過(guò)常用的模型評(píng)價(jià)指標(biāo)精確率、召回率、AUC等,并結(jié)合流失客戶挽留活動(dòng)的期望...
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 不平衡類的算法研究現(xiàn)狀
1.4 研究?jī)?nèi)容
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)理論介紹與技術(shù)論述
2.1 移動(dòng)通信行業(yè)客戶流失的概述
2.1.1 客戶流失定義
2.1.2 客戶流失預(yù)測(cè)面臨的問(wèn)題和挑戰(zhàn)
2.2 數(shù)據(jù)樣本處理方法
2.2.1 樣本數(shù)據(jù)缺失值處理
2.2.2 樣本特征值標(biāo)準(zhǔn)化處理
2.3 不平衡分類問(wèn)題的研究
2.3.1 基于數(shù)據(jù)層面的類平衡化方法
2.3.2 基于算法層面的類平衡化方法
2.3.3 基于集成算法層面的類平衡化方法
2.4 驗(yàn)證方法
2.5 本章小結(jié)
第三章 客戶流失預(yù)測(cè)模型
3.1 數(shù)據(jù)基礎(chǔ)和平臺(tái)搭建
3.2 數(shù)據(jù)預(yù)處理
3.3 類不平衡樣本處理
3.3.1 隨機(jī)下采樣方法和SMOTE
3.3.2 SMOTE和 Tomek-links方法
3.4 特征工程
3.3.1 基于圖的特征
3.3.2 自然語(yǔ)言相關(guān)特征
3.3.3 特征選擇
3.5 基于xgboost的 bagging模型
3.6 預(yù)流失用戶挽留活動(dòng)
3.7 本章小結(jié)
第四章 實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)結(jié)果分析
4.1 實(shí)驗(yàn)環(huán)境
4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.4 本章小結(jié)
第五章 期望利潤(rùn)評(píng)價(jià)的集成學(xué)習(xí)模型驗(yàn)證
5.1 期望利潤(rùn)最大評(píng)價(jià)指標(biāo)
5.2 仿真實(shí)驗(yàn)與實(shí)驗(yàn)分析
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
本文編號(hào):3771383
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 不平衡類的算法研究現(xiàn)狀
1.4 研究?jī)?nèi)容
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)理論介紹與技術(shù)論述
2.1 移動(dòng)通信行業(yè)客戶流失的概述
2.1.1 客戶流失定義
2.1.2 客戶流失預(yù)測(cè)面臨的問(wèn)題和挑戰(zhàn)
2.2 數(shù)據(jù)樣本處理方法
2.2.1 樣本數(shù)據(jù)缺失值處理
2.2.2 樣本特征值標(biāo)準(zhǔn)化處理
2.3 不平衡分類問(wèn)題的研究
2.3.1 基于數(shù)據(jù)層面的類平衡化方法
2.3.2 基于算法層面的類平衡化方法
2.3.3 基于集成算法層面的類平衡化方法
2.4 驗(yàn)證方法
2.5 本章小結(jié)
第三章 客戶流失預(yù)測(cè)模型
3.1 數(shù)據(jù)基礎(chǔ)和平臺(tái)搭建
3.2 數(shù)據(jù)預(yù)處理
3.3 類不平衡樣本處理
3.3.1 隨機(jī)下采樣方法和SMOTE
3.3.2 SMOTE和 Tomek-links方法
3.4 特征工程
3.3.1 基于圖的特征
3.3.2 自然語(yǔ)言相關(guān)特征
3.3.3 特征選擇
3.5 基于xgboost的 bagging模型
3.6 預(yù)流失用戶挽留活動(dòng)
3.7 本章小結(jié)
第四章 實(shí)驗(yàn)設(shè)計(jì)與實(shí)驗(yàn)結(jié)果分析
4.1 實(shí)驗(yàn)環(huán)境
4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
4.3 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
4.4 本章小結(jié)
第五章 期望利潤(rùn)評(píng)價(jià)的集成學(xué)習(xí)模型驗(yàn)證
5.1 期望利潤(rùn)最大評(píng)價(jià)指標(biāo)
5.2 仿真實(shí)驗(yàn)與實(shí)驗(yàn)分析
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
本文編號(hào):3771383
本文鏈接:http://www.sikaile.net/guanlilunwen/sjfx/3771383.html
最近更新
教材專著