基于數(shù)據(jù)挖掘的電子商務產(chǎn)品質(zhì)量風險評估技術(shù)研究
本文關(guān)鍵詞:基于數(shù)據(jù)挖掘的電子商務產(chǎn)品質(zhì)量風險評估技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡技術(shù)和信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)不可阻擋地進入了人們的生活,并且改變了人們的生活方式。但由于電子商務的虛擬性、跨地域性,消費者所購買的產(chǎn)品可能會存在質(zhì)量風險。針對該問題,本文在前人的研究基礎(chǔ)上,提出了基于電子商務平臺的用戶評論數(shù)據(jù)的風險評估模型,該模型可以準確地識別風險,評估風險等級,發(fā)布相應的預警信息,使得監(jiān)管人員對風險做出快速的應對措施。如何客觀的評估產(chǎn)品質(zhì)量的風險,使得監(jiān)管機構(gòu)對其做出快速的反應是本文的研究重點。本文主要研究了以下幾個方面:本文對電商產(chǎn)品數(shù)據(jù)通過R語言的數(shù)據(jù)處理技術(shù)對數(shù)據(jù)進行空值和異常值處理以及使用基于Spark并行化ansj的jar包對數(shù)據(jù)集進行中文的文本分詞和去停用詞處理,從而得到預處理后的訓練數(shù)據(jù)。然后在隨機森林的袋外數(shù)據(jù)的特征屬性中加入噪聲,并將計算所得到誤差進行重要性排序,以此來進行電子商務產(chǎn)品質(zhì)量風險評估的特征選擇,并在Spark計算框架上實現(xiàn)。在電子商務產(chǎn)品質(zhì)量的風險評估中,提出了一種基于Spark并行化的改進樸素貝葉斯算法來建立風險模型。樸素貝葉斯算法是假設特征之間相互獨立,然而在實際中,它們之間是息息相關(guān)的,所以利用MinHash來計算特征屬性與決策標簽之間關(guān)聯(lián)程度,對貝葉斯算法中的條件概率進行加權(quán)運算,并在Spark實現(xiàn)算法的并行化。本文通過構(gòu)建基于Spark大規(guī)模集群進行了仿真實驗。在UCI數(shù)據(jù)集上,驗證了基于Spark并行化的改進貝葉斯算法相比于樸素貝葉斯算法及其串行算法在準確率、召回率以及時間上有更好的效果。當實驗數(shù)據(jù)增加時,串行算法的執(zhí)行效率低下,然而在Spark分布式環(huán)境中,其效率明顯提高。所以基于Spark的并行化算法在大數(shù)據(jù)下具有更好的可擴展性和優(yōu)越性。實驗表明將模型應用在電子商務平臺的用戶評論數(shù)據(jù)時,模型能夠準確地識別電子商務產(chǎn)品質(zhì)量風險,然后做出風險預警。從而提出了一種新型的風險監(jiān)管模式。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 樸素貝葉斯 隨機森林 MinHash Spark
【學位授予單位】:浙江理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13;F713.36
【目錄】:
- 摘要4-5
- Abstract5-9
- 第1章 緒論9-15
- 1.1 研究背景及意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-13
- 1.3 研究內(nèi)容13
- 1.4 論文組織結(jié)構(gòu)13-15
- 第2章 相關(guān)技術(shù)15-27
- 2.1 數(shù)據(jù)挖掘概述15-20
- 2.2 Spark分布式架構(gòu)20-24
- 2.2.1 Spark分布式架構(gòu)概述20-21
- 2.2.2 RDD概述21-23
- 2.2.3 Spark生態(tài)系統(tǒng)23-24
- 2.3 電子商務產(chǎn)品質(zhì)量風險24-26
- 2.4 本章小結(jié)26-27
- 第3章 貝葉斯算法研究27-39
- 3.1 貝葉斯分類概述27-29
- 3.1.1 貝葉斯公式27
- 3.1.2 貝葉斯分類的一般原理27-28
- 3.1.3 貝葉斯分類過程28-29
- 3.2 樸素貝葉斯算法29-32
- 3.2.1 樸素貝葉斯算法概述29-30
- 3.2.2 樸素貝葉斯分類原理30-32
- 3.3 貝葉斯信念網(wǎng)絡32-33
- 3.3.1 貝葉斯信念網(wǎng)絡概述32
- 3.3.2 貝葉斯信念網(wǎng)絡原理32-33
- 3.4 并行化的樸素貝葉斯算法33-35
- 3.5 基于MinHash相關(guān)性加權(quán)的樸素貝葉斯算法35-38
- 3.5.1 MinHash原理35-36
- 3.5.2 基于MinHash相關(guān)性的加權(quán)樸素貝葉斯36-37
- 3.5.3 基于Spark的改進貝葉斯37-38
- 3.6 本章小結(jié)38-39
- 第4章 基于改進貝葉斯算法的電子商務產(chǎn)品質(zhì)量風險評估39-54
- 4.1 基于改進貝葉斯算法的風險評估分析39-40
- 4.2 質(zhì)量風險數(shù)據(jù)的預處理40-42
- 4.2.1 用戶評論數(shù)據(jù)分詞40-41
- 4.2.2 數(shù)據(jù)清洗41-42
- 4.3 電子商務產(chǎn)品質(zhì)量風險評估模型構(gòu)建42-46
- 4.3.1 電子商務產(chǎn)品質(zhì)量風險等級分類42
- 4.3.2 特征屬性的離散化42-43
- 4.3.3 基于隨機森林的風險特征選擇43-45
- 4.3.4 建立質(zhì)量風險評估模型45-46
- 4.4 實驗仿真及結(jié)果分析46-52
- 4.4.1 測試平臺-Spark集群環(huán)境46-48
- 4.4.2 實驗數(shù)據(jù)介紹48-49
- 4.4.3 實驗結(jié)果分析49-52
- 4.5 本章小結(jié)52-54
- 第5章 總結(jié)與展望54-56
- 5.1 總結(jié)54-55
- 5.2 展望55-56
- 參考文獻56-59
- 致謝59-60
- 攻讀學位期間的研究成果60
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 香麗蕓;淺談數(shù)據(jù)挖掘及其應用[J];昌吉師專學報;2001年02期
2 鄭雪燕,張杰明,岳洋;數(shù)據(jù)挖掘語言[J];計算機時代;2001年11期
3 劉明晶;數(shù)據(jù)挖掘[J];華南金融電腦;2001年04期
4 張偉;劉勇國;彭軍;廖曉峰;吳中福;;數(shù)據(jù)挖掘發(fā)展研究[J];計算機科學;2001年07期
5 鐘曉;馬少平;張鈸;俞瑞釗;;數(shù)據(jù)挖掘綜述[J];模式識別與人工智能;2001年01期
6 朱建平,張潤楚;數(shù)據(jù)挖掘的發(fā)展及其特點[J];統(tǒng)計與決策;2002年07期
7 傅嵐;在數(shù)據(jù)海洋中打撈信息數(shù)據(jù)挖掘[J];科技廣場;2002年11期
8 李峻;數(shù)據(jù)挖掘,企業(yè)洞察先機的“慧眼”[J];中國計算機用戶;2002年48期
9 羅可,蔡碧野,卜勝賢,謝中科;數(shù)據(jù)挖掘及其發(fā)展研究[J];計算機工程與應用;2002年14期
10 ;2002數(shù)據(jù)挖掘研討班[J];計算機工程;2002年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 史東輝;蔡慶生;張春陽;;一種新的數(shù)據(jù)挖掘多策略方法研究[A];第十七屆全國數(shù)據(jù)庫學術(shù)會議論文集(研究報告篇)[C];2000年
2 張弦;;數(shù)據(jù)挖掘在農(nóng)業(yè)中的應用[A];紀念中國農(nóng)業(yè)工程學會成立30周年暨中國農(nóng)業(yè)工程學會2009年學術(shù)年會(CSAE 2009)論文集[C];2009年
3 魏順平;;教育數(shù)據(jù)挖掘:現(xiàn)狀與趨勢[A];信息化、工業(yè)化融合與服務創(chuàng)新——第十三屆計算機模擬與信息技術(shù)學術(shù)會議論文集[C];2011年
4 關(guān)清平;沉培輝;;概率網(wǎng)絡在數(shù)據(jù)挖掘上的應用[A];科技、工程與經(jīng)濟社會協(xié)調(diào)發(fā)展——中國科協(xié)第五屆青年學術(shù)年會論文集[C];2004年
5 丁瑾;;基于Web數(shù)據(jù)挖掘的綜述[A];山西省科學技術(shù)情報學會學術(shù)年會論文集[C];2004年
6 聶茹;田森平;;Web數(shù)據(jù)挖掘及其在電子商務中的應用[A];中南六。▍^(qū))自動化學會第24屆學術(shù)年會會議論文集[C];2006年
7 李菊;王軍;;數(shù)據(jù)挖掘在客戶關(guān)系管理的應用[A];計算機技術(shù)與應用進展·2007——全國第18屆計算機技術(shù)與應用(CACIS)學術(shù)會議論文集[C];2007年
8 肖陽;李啟賢;;數(shù)據(jù)挖掘在中國鋼鐵行業(yè)中的應用[A];中國計量協(xié)會冶金分會2012年會暨能源計量與節(jié)能降耗經(jīng)驗交流會論文集[C];2012年
9 楊磊;王貴成;汪勇;張占勝;;SQL Server 2005在數(shù)據(jù)挖掘中的應用[A];2009年中國智能自動化會議論文集(第二分冊)[C];2009年
10 謝中;邱玉輝;;面向商務網(wǎng)站有效性的數(shù)據(jù)挖掘方法[A];第十八屆全國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2001年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者褚寧;數(shù)據(jù)挖掘如“挖金”[N];解放日報;2002年
2 周蓉蓉;數(shù)據(jù)挖掘需要點想像力[N];計算機世界;2004年
3 □中國電信股份有限公司北京研究院 張舒博 □北京郵電大學計算機科學與技術(shù)學院 牛琨;走出數(shù)據(jù)挖掘的誤區(qū)[N];人民郵電;2006年
4 《網(wǎng)絡世界》記者 王瑩;數(shù)據(jù)挖掘保險業(yè)的新藍海[N];網(wǎng)絡世界;2012年
5 劉俊麗;基于地理化的網(wǎng)絡數(shù)據(jù)挖掘與分析提升投資有效性[N];人民郵電;2014年
6 本報記者 連曉東;數(shù)據(jù)挖掘:金融信息化新熱點[N];中國電子報;2002年
7 本報記者 鳳小華 朱仁康;“數(shù)字挖掘軟件”引領(lǐng)中國信息化新浪潮[N];中國電子報;2003年
8 本報記者 史延廷;“成功企業(yè)數(shù)據(jù)挖掘暨數(shù)量化管理論壇”在京舉辦[N];中國旅游報;2002年
9 朱小寧;數(shù)據(jù)挖掘:信息化戰(zhàn)爭的基礎(chǔ)工程[N];解放軍報;2005年
10 本報記者 王小平;從“大集中”走向數(shù)據(jù)挖掘[N];金融時報;2002年
中國博士學位論文全文數(shù)據(jù)庫 前10條
1 于自強;海量流數(shù)據(jù)挖掘相關(guān)問題研究[D];山東大學;2015年
2 張馨;全基因組SNP芯片應用于CNV和L0H分析的軟件比對與數(shù)據(jù)挖掘[D];復旦大學;2011年
3 彭計紅;基于數(shù)據(jù)挖掘的癡呆中醫(yī)證的研究[D];南京中醫(yī)藥大學;2015年
4 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術(shù)研究[D];復旦大學;2013年
5 鄔文帥;基于多目標決策的數(shù)據(jù)挖掘方法評估與應用[D];電子科技大學;2015年
6 謝邦彥;整合數(shù)據(jù)挖掘與TRIZ理論的質(zhì)量管理方法研究[D];首都經(jīng)濟貿(mào)易大學;2010年
7 李榮;生物信息數(shù)據(jù)挖掘若干關(guān)鍵問題研究與應用[D];復旦大學;2004年
8 李玉華;面向服務的數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究[D];華中科技大學;2006年
9 吳少智;時間序列數(shù)據(jù)挖掘在生物醫(yī)學中的應用研究[D];電子科技大學;2010年
10 王珊珊;知識指導下的數(shù)據(jù)挖掘在新聞和金融工具之間因果關(guān)系上的應用[D];中國科學技術(shù)大學;2009年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 林仁紅;基于數(shù)據(jù)挖掘的機遇識別與評價研究[D];首都經(jīng)濟貿(mào)易大學;2007年
2 張彥俊;游戲運營中的數(shù)據(jù)挖掘[D];復旦大學;2011年
3 焦亞召;基于多核函數(shù)FCM算法在數(shù)據(jù)挖掘聚類中的應用研究[D];昆明理工大學;2015年
4 王杰鋒;物聯(lián)網(wǎng)能耗數(shù)據(jù)智能分析及其應用平臺設計[D];江南大學;2015年
5 劉學建;數(shù)據(jù)挖掘在電子商務推薦系統(tǒng)中的應用研究[D];昆明理工大學;2015年
6 戴陽陽;基于數(shù)據(jù)挖掘的金融時間序列預測研究與應用[D];江南大學;2015年
7 石思優(yōu);基于主題模型的醫(yī)療數(shù)據(jù)挖掘研究[D];廣東技術(shù)師范學院;2015年
8 陳丹;移動互聯(lián)網(wǎng)信令挖掘?qū)崿F(xiàn)智慧營銷的設計與實現(xiàn)應用研究[D];華南理工大學;2015年
9 陳思;基于數(shù)據(jù)挖掘的大學生客戶識別模型的研究[D];昆明理工大學;2015年
10 位長帥;基于客戶數(shù)據(jù)挖掘的電信客戶關(guān)系管理研究[D];西南交通大學;2015年
本文關(guān)鍵詞:基于數(shù)據(jù)挖掘的電子商務產(chǎn)品質(zhì)量風險評估技術(shù)研究,由筆耕文化傳播整理發(fā)布。
本文編號:286594
本文鏈接:http://www.sikaile.net/jingjilunwen/guojimaoyilunwen/286594.html