基于深度森林的運(yùn)營商用戶流失預(yù)測應(yīng)用研究
發(fā)布時間:2021-10-12 20:34
現(xiàn)如今,電信運(yùn)營商市場趨于飽和,攜號轉(zhuǎn)網(wǎng)政策的全面實(shí)施無疑加劇了運(yùn)營商之間的競爭,如何保留老用戶成為了運(yùn)營商日常業(yè)務(wù)中最為關(guān)注的問題之一。為此,運(yùn)營商需要對用戶的流失行為進(jìn)行精準(zhǔn)預(yù)測,從而制定相應(yīng)的策略來維系用戶。在此背景下,本文依托數(shù)據(jù)挖掘技術(shù),對運(yùn)營商用戶數(shù)據(jù)進(jìn)行分析處理,基于深度森林算法搭建了用戶流失預(yù)測模型。本文的主要研究工作如下:(1)基于數(shù)據(jù)挖掘技術(shù)對運(yùn)營商后臺系統(tǒng)獲取的真實(shí)用戶數(shù)據(jù)進(jìn)行分析,利用數(shù)據(jù)清洗、數(shù)據(jù)變換以及基于Relief方法的特征選擇來保證數(shù)據(jù)的科學(xué)有效性。根據(jù)最終確定的16個特征變量,本文基于gcForest深度森林算法搭建了用戶流失預(yù)測模型,并同支持向量機(jī)、KNN等常見機(jī)器學(xué)習(xí)算法進(jìn)行了對比,結(jié)果表明,基于gcForest算法的用戶流失預(yù)測模型的表現(xiàn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。(2)改進(jìn)gcForest算法對于類不平衡數(shù)據(jù)的處理方式,基于EasyEnsemble算法的思想,提出了將SMOTE算法和ENN算法融合到gcForest算法框架之中的OSEEN-gcForest算法,并依此搭建了用戶流失預(yù)測模型。(3)在UCI公開數(shù)據(jù)集上對改進(jìn)算法進(jìn)行驗證的基礎(chǔ)上,將改...
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 用戶流失預(yù)測模型
1.2.2 不平衡數(shù)據(jù)分類問題
1.2.3 特征選擇
1.3 研究目的及創(chuàng)新點(diǎn)
1.3.1 研究目的
1.3.2 創(chuàng)新點(diǎn)
1.4 本文主要研究內(nèi)容及組織架構(gòu)
第二章 相關(guān)理論及技術(shù)基礎(chǔ)
2.1 用戶流失預(yù)測問題定義
2.2 數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘概述
2.2.2 數(shù)據(jù)挖掘流程
2.3 不平衡數(shù)據(jù)分類問題的處理方法
2.3.1 數(shù)據(jù)層面--重采樣技術(shù)
2.3.2 算法層面
2.4 常見機(jī)器學(xué)習(xí)方法
2.4.1 邏輯回歸
2.4.2 支持向量機(jī)
2.4.3 決策樹
2.4.4 KNN
2.4.5 隨機(jī)森林
2.5 模型選擇及參數(shù)優(yōu)化
2.6 本章小結(jié)
第三章 實(shí)驗數(shù)據(jù)集及特征工程
3.1 實(shí)驗數(shù)據(jù)集
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)清洗
3.2.2 數(shù)據(jù)變換
3.3 特征工程
3.3.1 特征構(gòu)建
3.3.2 特征提取
3.3.3 特征選擇
3.4 模型評價指標(biāo)
3.4.1 準(zhǔn)確率、召回率、F1-score
3.4.2 ROC曲線及AUC值
3.5 本章小結(jié)
第四章 基于OSEEN-gcForest算法的用戶流失預(yù)測模型
4.1 gcForest算法
4.1.1 多粒度滑動窗口
4.1.2 級聯(lián)森林
4.2 基于EasyEnsemble思想的OSEEN-gcForest算法
4.2.1 EasyEnsemble算法
4.2.2 SMOTE算法
4.2.3 ENN降噪
4.2.4 OSEEN-gcForest算法
4.3 實(shí)驗結(jié)果與分析
4.3.1 基于公開數(shù)據(jù)集
4.3.2 基于運(yùn)營商用戶流失數(shù)據(jù)集
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來研究工作展望
參考文獻(xiàn)
致謝
學(xué)位論文評閱及答辯情況表
【參考文獻(xiàn)】:
期刊論文
[1]基于Logistic回歸的通信業(yè)客戶流失預(yù)測與挽留研究[J]. 付杰,方芳,嚴(yán)克文. 鄂州大學(xué)學(xué)報. 2015(06)
[2]基于貝葉斯網(wǎng)絡(luò)的客戶流失分析研究[J]. 朱志勇,徐長梅,劉志兵,胡晨剛. 計算機(jī)工程與科學(xué). 2013(03)
[3]支持向量機(jī)在電信客戶流失預(yù)測中的應(yīng)用研究[J]. 王觀玉,郭勇. 計算機(jī)仿真. 2011(04)
[4]基于數(shù)據(jù)挖掘技術(shù)的電信客戶保有研究[J]. 王少芬. 計算機(jī)時代. 2007(09)
[5]基于改進(jìn)支持向量機(jī)的客戶流失分析研究[J]. 趙宇,李兵,李秀,劉文煌,任守榘. 計算機(jī)集成制造系統(tǒng). 2007(01)
碩士論文
[1]基于不平衡數(shù)據(jù)集的客戶流失預(yù)測研究[D]. 楊智.西南交通大學(xué) 2011
本文編號:3433252
【文章來源】:山東大學(xué)山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 用戶流失預(yù)測模型
1.2.2 不平衡數(shù)據(jù)分類問題
1.2.3 特征選擇
1.3 研究目的及創(chuàng)新點(diǎn)
1.3.1 研究目的
1.3.2 創(chuàng)新點(diǎn)
1.4 本文主要研究內(nèi)容及組織架構(gòu)
第二章 相關(guān)理論及技術(shù)基礎(chǔ)
2.1 用戶流失預(yù)測問題定義
2.2 數(shù)據(jù)挖掘
2.2.1 數(shù)據(jù)挖掘概述
2.2.2 數(shù)據(jù)挖掘流程
2.3 不平衡數(shù)據(jù)分類問題的處理方法
2.3.1 數(shù)據(jù)層面--重采樣技術(shù)
2.3.2 算法層面
2.4 常見機(jī)器學(xué)習(xí)方法
2.4.1 邏輯回歸
2.4.2 支持向量機(jī)
2.4.3 決策樹
2.4.4 KNN
2.4.5 隨機(jī)森林
2.5 模型選擇及參數(shù)優(yōu)化
2.6 本章小結(jié)
第三章 實(shí)驗數(shù)據(jù)集及特征工程
3.1 實(shí)驗數(shù)據(jù)集
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)清洗
3.2.2 數(shù)據(jù)變換
3.3 特征工程
3.3.1 特征構(gòu)建
3.3.2 特征提取
3.3.3 特征選擇
3.4 模型評價指標(biāo)
3.4.1 準(zhǔn)確率、召回率、F1-score
3.4.2 ROC曲線及AUC值
3.5 本章小結(jié)
第四章 基于OSEEN-gcForest算法的用戶流失預(yù)測模型
4.1 gcForest算法
4.1.1 多粒度滑動窗口
4.1.2 級聯(lián)森林
4.2 基于EasyEnsemble思想的OSEEN-gcForest算法
4.2.1 EasyEnsemble算法
4.2.2 SMOTE算法
4.2.3 ENN降噪
4.2.4 OSEEN-gcForest算法
4.3 實(shí)驗結(jié)果與分析
4.3.1 基于公開數(shù)據(jù)集
4.3.2 基于運(yùn)營商用戶流失數(shù)據(jù)集
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文工作總結(jié)
5.2 未來研究工作展望
參考文獻(xiàn)
致謝
學(xué)位論文評閱及答辯情況表
【參考文獻(xiàn)】:
期刊論文
[1]基于Logistic回歸的通信業(yè)客戶流失預(yù)測與挽留研究[J]. 付杰,方芳,嚴(yán)克文. 鄂州大學(xué)學(xué)報. 2015(06)
[2]基于貝葉斯網(wǎng)絡(luò)的客戶流失分析研究[J]. 朱志勇,徐長梅,劉志兵,胡晨剛. 計算機(jī)工程與科學(xué). 2013(03)
[3]支持向量機(jī)在電信客戶流失預(yù)測中的應(yīng)用研究[J]. 王觀玉,郭勇. 計算機(jī)仿真. 2011(04)
[4]基于數(shù)據(jù)挖掘技術(shù)的電信客戶保有研究[J]. 王少芬. 計算機(jī)時代. 2007(09)
[5]基于改進(jìn)支持向量機(jī)的客戶流失分析研究[J]. 趙宇,李兵,李秀,劉文煌,任守榘. 計算機(jī)集成制造系統(tǒng). 2007(01)
碩士論文
[1]基于不平衡數(shù)據(jù)集的客戶流失預(yù)測研究[D]. 楊智.西南交通大學(xué) 2011
本文編號:3433252
本文鏈接:http://www.sikaile.net/guanlilunwen/sjfx/3433252.html
最近更新
教材專著