基于Lasso和RBF的客戶流失預(yù)測(cè)模型研究
發(fā)布時(shí)間:2021-09-04 12:47
日益趨于飽和的市場(chǎng)導(dǎo)致企業(yè)擴(kuò)大其市場(chǎng)份額變得愈發(fā)困難,企業(yè)客戶的增長(zhǎng)要消耗企業(yè)更多的成本。因此,如何穩(wěn)定存量客戶已然成為企業(yè)的關(guān)注目標(biāo)。存量老客戶的流失,不僅給企業(yè)帶來巨大的經(jīng)濟(jì)損失,還能減弱企業(yè)的社會(huì)影響力。因此,提前對(duì)企業(yè)客戶進(jìn)行流失預(yù)測(cè),提出有針對(duì)性的營(yíng)銷策略,將成為挽留客戶、保持業(yè)務(wù)穩(wěn)定發(fā)展的主要抓手,F(xiàn)如今,大數(shù)據(jù)分析技術(shù)得到了廣泛應(yīng)用,企業(yè)利用其數(shù)據(jù)資產(chǎn)指導(dǎo)經(jīng)營(yíng)決策成為必然。在客戶流失預(yù)測(cè)過程中,通過對(duì)特征維度高、特征動(dòng)態(tài)變化且數(shù)據(jù)不均衡等復(fù)雜大數(shù)據(jù)場(chǎng)景進(jìn)行建模分析,準(zhǔn)確地預(yù)測(cè)客戶流失的傾向,以為企業(yè)營(yíng)銷策略提供有效依據(jù)。論文提出基于Lasso回歸的RBF優(yōu)化模型,結(jié)合客戶生命周期,建立客戶流失預(yù)測(cè)模型,并基于某銀行公開數(shù)據(jù)集和某地州電信企業(yè)的脫敏數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證。論文主要工作包括:1.針對(duì)客戶數(shù)據(jù)信息中流失客戶與非流失客戶數(shù)據(jù)嚴(yán)重不平衡、客戶數(shù)據(jù)特征維度高、特征值動(dòng)態(tài)變化等問題,提出基于Lasso回歸的RBF優(yōu)化模型L-RBF。該模型利用混合采樣方式平衡數(shù)據(jù)集,從而提高目標(biāo)識(shí)別率;為提高模型的靈活性、通用性和預(yù)測(cè)效果,進(jìn)一步構(gòu)建了RBF神經(jīng)網(wǎng)絡(luò)算法參數(shù)模型。通過與Lo...
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
客戶流失預(yù)測(cè)分析完整框架圖
據(jù)的基本結(jié)構(gòu)形式、處理方式都不相同[39]。此外,數(shù)據(jù)通常都是不完整的(可能缺少某些使用者感興趣的數(shù)據(jù)屬性或?qū)傩灾担、不一致的(可能包含代碼或者數(shù)據(jù)源名稱的差異)、極易丟失或者受到噪聲(可能是錯(cuò)誤或異常值)的侵?jǐn)_的。因此,在面對(duì)這種來自多個(gè)異種類型數(shù)據(jù)源的復(fù)雜數(shù)據(jù)集時(shí),如果不對(duì)這些數(shù)據(jù)進(jìn)行高質(zhì)量的預(yù)處理,則這些低質(zhì)量的數(shù)據(jù)將嚴(yán)重地導(dǎo)致低質(zhì)量的數(shù)據(jù)挖掘結(jié)果,甚至可能無法有效地進(jìn)行建模分析。所以在進(jìn)行分析建模前首先需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,這是保證結(jié)果正確性的非常重要的一步。數(shù)據(jù)預(yù)處理步驟如圖2.2所示:圖2.2數(shù)據(jù)與處理過程圖1.數(shù)據(jù)集成:將多張關(guān)聯(lián)數(shù)據(jù)信息表的數(shù)據(jù)合并成一個(gè)一致的數(shù)據(jù)集存儲(chǔ)。2.數(shù)據(jù)清理:將錯(cuò)誤的、冗余的、缺失的、噪音的數(shù)據(jù)信息進(jìn)行清除。3.數(shù)據(jù)規(guī)約:通過數(shù)據(jù)聚集、刪除冗余特征等方式來大幅降低數(shù)據(jù)的規(guī)模。4.數(shù)據(jù)變換:把業(yè)務(wù)的原始數(shù)據(jù)轉(zhuǎn)換成一種適合數(shù)據(jù)分析的形式。本文中對(duì)數(shù)據(jù)互斥的屬性采用二進(jìn)制碼替換。為了消除不同業(yè)務(wù)數(shù)據(jù)值之間因單位不同導(dǎo)致的量綱問題,本文采用z-score[38]對(duì)量綱數(shù)據(jù)進(jìn)行歸一化的處理,如公式(2.1):z= $%$&(2.1)其中x、δ分別為原始數(shù)據(jù)集的均值和方差。2.1.2特征提取特征提取作為數(shù)據(jù)分析技術(shù)應(yīng)用中一個(gè)重要的研究問題。特征提取的主要目的是從原始的數(shù)據(jù)中選取出與表示樣本特性的相關(guān)數(shù)據(jù)信息。由于互聯(lián)網(wǎng)的快速發(fā)展以及產(chǎn)品業(yè)務(wù)的高速擴(kuò)張,每一個(gè)數(shù)據(jù)都可以從任意一個(gè)角度增加新的特征標(biāo)簽。在設(shè)計(jì)和構(gòu)建模型的過程中,過大特征維度的數(shù)據(jù),不僅大大增加了數(shù)據(jù)預(yù)處理的
重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)理論與技術(shù)分析142.2.2DBSCAN密度聚類DBSCAN[51,52]聚類算法是一種較具有代表性的基于樣本密度的非線性聚類算法,采用密度空間索引技術(shù)來快速搜索該假定對(duì)象的鄰域,可快速發(fā)現(xiàn)任意形狀的簇,能夠有效地排除噪聲點(diǎn)和離群點(diǎn)。這類非線性密度聚類算法一般假設(shè)類別可以通過樣本分布的密集程度進(jìn)行決定,同一類別的樣本,他們之間的緊密程度是相連的,也就是說,在該假定類別任意一個(gè)樣本周圍不遠(yuǎn)處一定范圍內(nèi)會(huì)有同類別的樣本存在。DBSCAN算法示意圖如2.3所示。圖2.3DBSCAN算法示意圖DBSCAN算法中的幾個(gè)定義:1.E鄰域:給定樣本點(diǎn)半徑為Eps內(nèi)的區(qū)域稱為該樣本點(diǎn)的E鄰域;2.核心點(diǎn):如果存在給定一個(gè)樣本點(diǎn),并且在E鄰域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPts,則稱該樣本點(diǎn)為核心點(diǎn)(Corepoint);3.邊界對(duì)象:樣本點(diǎn)的E鄰域內(nèi)包含的樣本數(shù)小于MinPts,但它又在其他核心點(diǎn)的鄰域內(nèi),則稱該樣本點(diǎn)為邊界點(diǎn)(Borderpoint);4.噪音點(diǎn):既不是核心點(diǎn)也不是邊界點(diǎn)的樣本點(diǎn);5.k-距離:給定數(shù)據(jù)集Ρ=pi,i=0,1,…,n,n為樣本點(diǎn)數(shù)。對(duì)于任意點(diǎn)pi,按式(2.5)計(jì)算點(diǎn)pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有點(diǎn)之間的歐式距離,距離按照從小到大的順序排序,假設(shè)排序后的距離集合為D=d1,d2,..,dk1,dk,dk+1,…,dn,則dk就被稱為k-距離。di,j= x2y23+x3y33++x`y`3(2.5)
【參考文獻(xiàn)】:
期刊論文
[1]中國(guó)貨幣政策的有效性評(píng)估——基于皮爾森相關(guān)系數(shù)的分析[J]. 陳志方. 中國(guó)商論. 2020(06)
[2]人力資源是企業(yè)的核心競(jìng)爭(zhēng)力[J]. 王怡人. 現(xiàn)代營(yíng)銷(信息版). 2019(07)
[3]基于決策樹模型分類多時(shí)相早稻信息提取研究[J]. 呂紅梅,李栩?yàn)I. 福建地質(zhì). 2019(02)
[4]運(yùn)營(yíng)商自營(yíng)廳的轉(zhuǎn)型之路[J]. 邱慧華,徐文龍. 通信企業(yè)管理. 2019(05)
[5]客戶關(guān)系管理在企業(yè)營(yíng)銷管理中的應(yīng)用[J]. 孟佳鑫. 智富時(shí)代. 2019(03)
[6]改進(jìn)多分類支持向量機(jī)的配電網(wǎng)故障識(shí)別方法[J]. 洪翠,付宇澤,郭謀發(fā),白蔚楠. 電子測(cè)量與儀器學(xué)報(bào). 2019(01)
[7]全媒體時(shí)代現(xiàn)場(chǎng)報(bào)道新形式探索[J]. 陽玉明. 科技傳播. 2018(22)
[8]工信部:國(guó)內(nèi)4G用戶已達(dá)11.5億戶[J]. 電子技術(shù)與軟件工程. 2018(22)
[9]BP和RBF神經(jīng)網(wǎng)絡(luò)在函數(shù)逼近上的對(duì)比與研究[J]. 張志勰,虞旦. 工業(yè)控制計(jì)算機(jī). 2018(05)
[10]客戶流失管理研究現(xiàn)狀及展望[J]. 張珠香,駱念蓓. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(12)
碩士論文
[1]基于數(shù)據(jù)挖掘的運(yùn)營(yíng)商用戶流失預(yù)測(cè)研究與應(yīng)用[D]. 林小榕.北京交通大學(xué) 2019
[2]基于少數(shù)類樣本重組的不平衡數(shù)據(jù)分類研究[D]. 李軒.湖南大學(xué) 2016
[3]基于數(shù)據(jù)倉庫的客戶關(guān)系管理系統(tǒng)研究[D]. 徐璐.南昌大學(xué) 2015
[4]電信客戶生命周期價(jià)值模型及在客戶細(xì)分中的應(yīng)用研究[D]. 鄧潔君.四川大學(xué) 2007
[5]帶彈性網(wǎng)的稀疏主成分分析[D]. 張勇進(jìn).華中科技大學(xué) 2006
本文編號(hào):3383293
【文章來源】:重慶郵電大學(xué)重慶市
【文章頁數(shù)】:85 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
客戶流失預(yù)測(cè)分析完整框架圖
據(jù)的基本結(jié)構(gòu)形式、處理方式都不相同[39]。此外,數(shù)據(jù)通常都是不完整的(可能缺少某些使用者感興趣的數(shù)據(jù)屬性或?qū)傩灾担、不一致的(可能包含代碼或者數(shù)據(jù)源名稱的差異)、極易丟失或者受到噪聲(可能是錯(cuò)誤或異常值)的侵?jǐn)_的。因此,在面對(duì)這種來自多個(gè)異種類型數(shù)據(jù)源的復(fù)雜數(shù)據(jù)集時(shí),如果不對(duì)這些數(shù)據(jù)進(jìn)行高質(zhì)量的預(yù)處理,則這些低質(zhì)量的數(shù)據(jù)將嚴(yán)重地導(dǎo)致低質(zhì)量的數(shù)據(jù)挖掘結(jié)果,甚至可能無法有效地進(jìn)行建模分析。所以在進(jìn)行分析建模前首先需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,這是保證結(jié)果正確性的非常重要的一步。數(shù)據(jù)預(yù)處理步驟如圖2.2所示:圖2.2數(shù)據(jù)與處理過程圖1.數(shù)據(jù)集成:將多張關(guān)聯(lián)數(shù)據(jù)信息表的數(shù)據(jù)合并成一個(gè)一致的數(shù)據(jù)集存儲(chǔ)。2.數(shù)據(jù)清理:將錯(cuò)誤的、冗余的、缺失的、噪音的數(shù)據(jù)信息進(jìn)行清除。3.數(shù)據(jù)規(guī)約:通過數(shù)據(jù)聚集、刪除冗余特征等方式來大幅降低數(shù)據(jù)的規(guī)模。4.數(shù)據(jù)變換:把業(yè)務(wù)的原始數(shù)據(jù)轉(zhuǎn)換成一種適合數(shù)據(jù)分析的形式。本文中對(duì)數(shù)據(jù)互斥的屬性采用二進(jìn)制碼替換。為了消除不同業(yè)務(wù)數(shù)據(jù)值之間因單位不同導(dǎo)致的量綱問題,本文采用z-score[38]對(duì)量綱數(shù)據(jù)進(jìn)行歸一化的處理,如公式(2.1):z= $%$&(2.1)其中x、δ分別為原始數(shù)據(jù)集的均值和方差。2.1.2特征提取特征提取作為數(shù)據(jù)分析技術(shù)應(yīng)用中一個(gè)重要的研究問題。特征提取的主要目的是從原始的數(shù)據(jù)中選取出與表示樣本特性的相關(guān)數(shù)據(jù)信息。由于互聯(lián)網(wǎng)的快速發(fā)展以及產(chǎn)品業(yè)務(wù)的高速擴(kuò)張,每一個(gè)數(shù)據(jù)都可以從任意一個(gè)角度增加新的特征標(biāo)簽。在設(shè)計(jì)和構(gòu)建模型的過程中,過大特征維度的數(shù)據(jù),不僅大大增加了數(shù)據(jù)預(yù)處理的
重慶郵電大學(xué)碩士學(xué)位論文第2章相關(guān)理論與技術(shù)分析142.2.2DBSCAN密度聚類DBSCAN[51,52]聚類算法是一種較具有代表性的基于樣本密度的非線性聚類算法,采用密度空間索引技術(shù)來快速搜索該假定對(duì)象的鄰域,可快速發(fā)現(xiàn)任意形狀的簇,能夠有效地排除噪聲點(diǎn)和離群點(diǎn)。這類非線性密度聚類算法一般假設(shè)類別可以通過樣本分布的密集程度進(jìn)行決定,同一類別的樣本,他們之間的緊密程度是相連的,也就是說,在該假定類別任意一個(gè)樣本周圍不遠(yuǎn)處一定范圍內(nèi)會(huì)有同類別的樣本存在。DBSCAN算法示意圖如2.3所示。圖2.3DBSCAN算法示意圖DBSCAN算法中的幾個(gè)定義:1.E鄰域:給定樣本點(diǎn)半徑為Eps內(nèi)的區(qū)域稱為該樣本點(diǎn)的E鄰域;2.核心點(diǎn):如果存在給定一個(gè)樣本點(diǎn),并且在E鄰域內(nèi)的樣本點(diǎn)數(shù)大于等于MinPts,則稱該樣本點(diǎn)為核心點(diǎn)(Corepoint);3.邊界對(duì)象:樣本點(diǎn)的E鄰域內(nèi)包含的樣本數(shù)小于MinPts,但它又在其他核心點(diǎn)的鄰域內(nèi),則稱該樣本點(diǎn)為邊界點(diǎn)(Borderpoint);4.噪音點(diǎn):既不是核心點(diǎn)也不是邊界點(diǎn)的樣本點(diǎn);5.k-距離:給定數(shù)據(jù)集Ρ=pi,i=0,1,…,n,n為樣本點(diǎn)數(shù)。對(duì)于任意點(diǎn)pi,按式(2.5)計(jì)算點(diǎn)pi到集合D的子集 S=p0,p1,..,pi1,pi+1,…,pn中所有點(diǎn)之間的歐式距離,距離按照從小到大的順序排序,假設(shè)排序后的距離集合為D=d1,d2,..,dk1,dk,dk+1,…,dn,則dk就被稱為k-距離。di,j= x2y23+x3y33++x`y`3(2.5)
【參考文獻(xiàn)】:
期刊論文
[1]中國(guó)貨幣政策的有效性評(píng)估——基于皮爾森相關(guān)系數(shù)的分析[J]. 陳志方. 中國(guó)商論. 2020(06)
[2]人力資源是企業(yè)的核心競(jìng)爭(zhēng)力[J]. 王怡人. 現(xiàn)代營(yíng)銷(信息版). 2019(07)
[3]基于決策樹模型分類多時(shí)相早稻信息提取研究[J]. 呂紅梅,李栩?yàn)I. 福建地質(zhì). 2019(02)
[4]運(yùn)營(yíng)商自營(yíng)廳的轉(zhuǎn)型之路[J]. 邱慧華,徐文龍. 通信企業(yè)管理. 2019(05)
[5]客戶關(guān)系管理在企業(yè)營(yíng)銷管理中的應(yīng)用[J]. 孟佳鑫. 智富時(shí)代. 2019(03)
[6]改進(jìn)多分類支持向量機(jī)的配電網(wǎng)故障識(shí)別方法[J]. 洪翠,付宇澤,郭謀發(fā),白蔚楠. 電子測(cè)量與儀器學(xué)報(bào). 2019(01)
[7]全媒體時(shí)代現(xiàn)場(chǎng)報(bào)道新形式探索[J]. 陽玉明. 科技傳播. 2018(22)
[8]工信部:國(guó)內(nèi)4G用戶已達(dá)11.5億戶[J]. 電子技術(shù)與軟件工程. 2018(22)
[9]BP和RBF神經(jīng)網(wǎng)絡(luò)在函數(shù)逼近上的對(duì)比與研究[J]. 張志勰,虞旦. 工業(yè)控制計(jì)算機(jī). 2018(05)
[10]客戶流失管理研究現(xiàn)狀及展望[J]. 張珠香,駱念蓓. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2017(12)
碩士論文
[1]基于數(shù)據(jù)挖掘的運(yùn)營(yíng)商用戶流失預(yù)測(cè)研究與應(yīng)用[D]. 林小榕.北京交通大學(xué) 2019
[2]基于少數(shù)類樣本重組的不平衡數(shù)據(jù)分類研究[D]. 李軒.湖南大學(xué) 2016
[3]基于數(shù)據(jù)倉庫的客戶關(guān)系管理系統(tǒng)研究[D]. 徐璐.南昌大學(xué) 2015
[4]電信客戶生命周期價(jià)值模型及在客戶細(xì)分中的應(yīng)用研究[D]. 鄧潔君.四川大學(xué) 2007
[5]帶彈性網(wǎng)的稀疏主成分分析[D]. 張勇進(jìn).華中科技大學(xué) 2006
本文編號(hào):3383293
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3383293.html
最近更新
教材專著