基于多算法融合的電子商務(wù)客戶(hù)流失預(yù)測(cè)算法研究
發(fā)布時(shí)間:2021-03-09 18:22
針對(duì)電子商務(wù)客戶(hù)流失預(yù)測(cè)中存在的客戶(hù)特征多樣性、流失客戶(hù)比例失衡、采用單一算法易出現(xiàn)“過(guò)擬合”等一系列現(xiàn)象會(huì)影響預(yù)測(cè)效果問(wèn)題,本文構(gòu)建了基于多算法融合的電子商務(wù)客戶(hù)流失預(yù)測(cè)算法模型。首先,為了解決客戶(hù)樣本在特征空間分布上的差異性,本文針對(duì)傳統(tǒng)K-means聚類(lèi)中存在的初始中心點(diǎn)不穩(wěn)定、易陷入局部最優(yōu)和難以選取最佳聚類(lèi)數(shù)等一系列問(wèn)題,提出了一種基于K-means聚類(lèi)的改進(jìn)算法。該算法首先利用K-means++從數(shù)據(jù)中選擇K+m個(gè)距離盡可能遠(yuǎn)的對(duì)象作為初始聚類(lèi)中心,然后利用K-mediods選擇數(shù)據(jù)樣本的中位數(shù)更新聚類(lèi)中心,為了進(jìn)一步調(diào)整聚類(lèi)的穩(wěn)定性,最后使用兩步聚類(lèi)將聚類(lèi)中心聚類(lèi)為K個(gè)。通過(guò)對(duì)四個(gè)常用UCI標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),發(fā)現(xiàn)對(duì)比K-means傳統(tǒng)聚類(lèi)算法,該算法的預(yù)測(cè)準(zhǔn)確率分別提高了6.88%、1.34%、0.57%和5.18%。結(jié)果表明該算法對(duì)于改善特征空間分布上的差異性是有效的。其次,為了改善數(shù)據(jù)不平衡會(huì)影響樣本分類(lèi)準(zhǔn)確率的問(wèn)題,本文基于過(guò)采樣法和欠采樣法,提出了一種EasyEnsemble—Smote算法。該算法首先通過(guò)Smote算法,在分析少數(shù)類(lèi)樣本特征的基礎(chǔ)上合成新樣...
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘處理過(guò)程圖
第二章部分相關(guān)理論13(4)建立模型:將已處理好的數(shù)據(jù)應(yīng)用于數(shù)據(jù)挖掘中的各類(lèi)算法中,選擇相應(yīng)的參數(shù)后并生成模型。(5)模型評(píng)估和解釋?zhuān)菏褂脭?shù)學(xué)方法,對(duì)模型的結(jié)果進(jìn)行評(píng)估與比較,并選出結(jié)果相對(duì)較優(yōu)的模型。2.4.用于預(yù)測(cè)的數(shù)據(jù)挖掘算法預(yù)測(cè)是指計(jì)算機(jī)從歷史數(shù)據(jù)獲取知識(shí)并使用這些知識(shí)對(duì)未來(lái)數(shù)據(jù)進(jìn)行合理預(yù)測(cè)的過(guò)程。隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)不斷的發(fā)展,各種預(yù)測(cè)算法也在不斷的出現(xiàn),本章主要介紹以下四種預(yù)測(cè)算法:2.4.1.決策樹(shù)算法決策樹(shù)(DecisionTree)[43-44]是機(jī)器學(xué)習(xí)中較為經(jīng)典的一種分類(lèi)與預(yù)測(cè)的方法。本節(jié)會(huì)系統(tǒng)講述決策樹(shù)算法中用到的各種概念,并詳細(xì)介紹決策樹(shù)構(gòu)建過(guò)程的幾個(gè)步驟。(1)決策樹(shù)的基本概念決策樹(shù)的結(jié)構(gòu)圖如下圖2.2所示,它由結(jié)點(diǎn)和邊組成。結(jié)點(diǎn)根據(jù)象征意義又可以劃分為內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)。前者表示數(shù)據(jù)中樣本特征,后者表示數(shù)據(jù)中樣本的類(lèi)別。決策樹(shù)對(duì)樣本進(jìn)行分類(lèi)的過(guò)程可進(jìn)行如下描述:從決策樹(shù)的根結(jié)點(diǎn)開(kāi)始,根據(jù)樣本的特征進(jìn)行決策樹(shù)分支的選擇,然后使用該方式逐漸向下迭代遞歸,若算法運(yùn)行到?jīng)Q策樹(shù)的葉結(jié)點(diǎn)則遞歸結(jié)束,此時(shí)葉結(jié)點(diǎn)的標(biāo)簽就是樣本的類(lèi)別。圖2.2決策樹(shù)結(jié)構(gòu)圖
決策樹(shù)算法流程圖
【參考文獻(xiàn)】:
期刊論文
[1]一種影響空間下的快速K-means聚類(lèi)算法[J]. 趙文沖,蔡江輝,趙旭俊,張繼福. 小型微型計(jì)算機(jī)系統(tǒng). 2016(09)
[2]基于K-均值和K-中心點(diǎn)算法的大數(shù)據(jù)集分析[J]. 郭晨晨,朱紅康. 太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版). 2016(02)
[3]Integrating OWA and Data Mining for Analyzing Customers Churn in E-Commerce[J]. CAO Jie,YU Xiaobing,ZHANG Zhifei. Journal of Systems Science & Complexity. 2015(02)
[4]影響電子商務(wù)客戶(hù)流失因素分析[J]. 于小兵,王旭明. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2014(21)
[5]多類(lèi)類(lèi)別不平衡學(xué)習(xí)算法:EasyEnsemble.M[J]. 李倩倩,劉胥影. 模式識(shí)別與人工智能. 2014(02)
[6]影響B(tài)2C電子商務(wù)企業(yè)客戶(hù)流失因素的實(shí)證分析[J]. 李婷婷. 對(duì)外經(jīng)貿(mào). 2014(01)
[7]消費(fèi)者對(duì)B2C網(wǎng)站忠誠(chéng)度研究——基于Ordered Logit模型[J]. 舒曼. 經(jīng)濟(jì)論壇. 2013(09)
[8]灰色關(guān)聯(lián)分析模型研究進(jìn)展[J]. 劉思峰,蔡華,楊英杰,曹穎. 系統(tǒng)工程理論與實(shí)踐. 2013(08)
[9]融入個(gè)體活躍度的電子商務(wù)客戶(hù)流失預(yù)測(cè)模型[J]. 琚春華,盧琦蓓,郭飛鵬. 系統(tǒng)工程理論與實(shí)踐. 2013(01)
[10]B2C電子商務(wù)客戶(hù)流失原因評(píng)估研究[J]. 于小兵,曹杰,張夢(mèng)男. 模糊系統(tǒng)與數(shù)學(xué). 2012(06)
碩士論文
[1]BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)研究及應(yīng)用[D]. 劉天舒.東北農(nóng)業(yè)大學(xué) 2011
[2]BP神經(jīng)網(wǎng)絡(luò)算法改進(jìn)及應(yīng)用研究[D]. 黃麗.重慶師范大學(xué) 2008
本文編號(hào):3073269
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:83 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
數(shù)據(jù)挖掘處理過(guò)程圖
第二章部分相關(guān)理論13(4)建立模型:將已處理好的數(shù)據(jù)應(yīng)用于數(shù)據(jù)挖掘中的各類(lèi)算法中,選擇相應(yīng)的參數(shù)后并生成模型。(5)模型評(píng)估和解釋?zhuān)菏褂脭?shù)學(xué)方法,對(duì)模型的結(jié)果進(jìn)行評(píng)估與比較,并選出結(jié)果相對(duì)較優(yōu)的模型。2.4.用于預(yù)測(cè)的數(shù)據(jù)挖掘算法預(yù)測(cè)是指計(jì)算機(jī)從歷史數(shù)據(jù)獲取知識(shí)并使用這些知識(shí)對(duì)未來(lái)數(shù)據(jù)進(jìn)行合理預(yù)測(cè)的過(guò)程。隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)不斷的發(fā)展,各種預(yù)測(cè)算法也在不斷的出現(xiàn),本章主要介紹以下四種預(yù)測(cè)算法:2.4.1.決策樹(shù)算法決策樹(shù)(DecisionTree)[43-44]是機(jī)器學(xué)習(xí)中較為經(jīng)典的一種分類(lèi)與預(yù)測(cè)的方法。本節(jié)會(huì)系統(tǒng)講述決策樹(shù)算法中用到的各種概念,并詳細(xì)介紹決策樹(shù)構(gòu)建過(guò)程的幾個(gè)步驟。(1)決策樹(shù)的基本概念決策樹(shù)的結(jié)構(gòu)圖如下圖2.2所示,它由結(jié)點(diǎn)和邊組成。結(jié)點(diǎn)根據(jù)象征意義又可以劃分為內(nèi)部結(jié)點(diǎn)和葉結(jié)點(diǎn)。前者表示數(shù)據(jù)中樣本特征,后者表示數(shù)據(jù)中樣本的類(lèi)別。決策樹(shù)對(duì)樣本進(jìn)行分類(lèi)的過(guò)程可進(jìn)行如下描述:從決策樹(shù)的根結(jié)點(diǎn)開(kāi)始,根據(jù)樣本的特征進(jìn)行決策樹(shù)分支的選擇,然后使用該方式逐漸向下迭代遞歸,若算法運(yùn)行到?jīng)Q策樹(shù)的葉結(jié)點(diǎn)則遞歸結(jié)束,此時(shí)葉結(jié)點(diǎn)的標(biāo)簽就是樣本的類(lèi)別。圖2.2決策樹(shù)結(jié)構(gòu)圖
決策樹(shù)算法流程圖
【參考文獻(xiàn)】:
期刊論文
[1]一種影響空間下的快速K-means聚類(lèi)算法[J]. 趙文沖,蔡江輝,趙旭俊,張繼福. 小型微型計(jì)算機(jī)系統(tǒng). 2016(09)
[2]基于K-均值和K-中心點(diǎn)算法的大數(shù)據(jù)集分析[J]. 郭晨晨,朱紅康. 太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版). 2016(02)
[3]Integrating OWA and Data Mining for Analyzing Customers Churn in E-Commerce[J]. CAO Jie,YU Xiaobing,ZHANG Zhifei. Journal of Systems Science & Complexity. 2015(02)
[4]影響電子商務(wù)客戶(hù)流失因素分析[J]. 于小兵,王旭明. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí). 2014(21)
[5]多類(lèi)類(lèi)別不平衡學(xué)習(xí)算法:EasyEnsemble.M[J]. 李倩倩,劉胥影. 模式識(shí)別與人工智能. 2014(02)
[6]影響B(tài)2C電子商務(wù)企業(yè)客戶(hù)流失因素的實(shí)證分析[J]. 李婷婷. 對(duì)外經(jīng)貿(mào). 2014(01)
[7]消費(fèi)者對(duì)B2C網(wǎng)站忠誠(chéng)度研究——基于Ordered Logit模型[J]. 舒曼. 經(jīng)濟(jì)論壇. 2013(09)
[8]灰色關(guān)聯(lián)分析模型研究進(jìn)展[J]. 劉思峰,蔡華,楊英杰,曹穎. 系統(tǒng)工程理論與實(shí)踐. 2013(08)
[9]融入個(gè)體活躍度的電子商務(wù)客戶(hù)流失預(yù)測(cè)模型[J]. 琚春華,盧琦蓓,郭飛鵬. 系統(tǒng)工程理論與實(shí)踐. 2013(01)
[10]B2C電子商務(wù)客戶(hù)流失原因評(píng)估研究[J]. 于小兵,曹杰,張夢(mèng)男. 模糊系統(tǒng)與數(shù)學(xué). 2012(06)
碩士論文
[1]BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)研究及應(yīng)用[D]. 劉天舒.東北農(nóng)業(yè)大學(xué) 2011
[2]BP神經(jīng)網(wǎng)絡(luò)算法改進(jìn)及應(yīng)用研究[D]. 黃麗.重慶師范大學(xué) 2008
本文編號(hào):3073269
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3073269.html
最近更新
教材專(zhuān)著