天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于云計算的文本分類研究與應(yīng)用

發(fā)布時間:2017-09-26 19:33

  本文關(guān)鍵詞:基于云計算的文本分類研究與應(yīng)用


  更多相關(guān)文章: 云計算 文本分類 樸素貝葉斯 Hadoop Spark


【摘要】:當(dāng)代互聯(lián)網(wǎng)的高速發(fā)展產(chǎn)生了大量富有價值的互聯(lián)網(wǎng)信息,其中文本數(shù)據(jù)占據(jù)著重要的位置,如何從海量的文本數(shù)據(jù)中挖掘出有用的信息是具有重大意義的課題。文本分類是文本挖掘中一項重要的研究方向,分類算法的實現(xiàn)是文本分類的重要部分,影響著文本分類效果和分類性能;趥鹘y(tǒng)計算機的分類算法實現(xiàn)過程需要消耗大量的時間,不能滿足日益增長的數(shù)據(jù)處理需求,云計算平臺的研究和發(fā)展就是在這一背景下興起,滿足了日益增長的海量數(shù)據(jù)處理需求。鑒于目前文本分類的研究現(xiàn)狀和云計算平臺應(yīng)用的發(fā)展趨勢,本文將基于云計算平臺對文本分類相關(guān)技術(shù)進行研究,主要工作有以下三個方面:(1)深入分析了樸素貝葉斯文本分類算法相關(guān)理論,對條件屬性獨立性假設(shè)進行深入研究,重點討論了樸素貝葉斯屬性加權(quán)對獨立性假設(shè)的影響。然后針對屬性加權(quán),本文提出了基于余弦相似度的加權(quán)樸素貝葉斯分類算法,采用余弦相似度優(yōu)化屬性權(quán)值,對分類算法進行改進。(2)研究樸素貝葉斯算法在云計算平臺中的并行化實現(xiàn);谠朴嬎闫脚_Hadoop,根據(jù)MapReduce編程模型對貝葉斯算法并行化進行設(shè)計和實現(xiàn);基于云計算平臺Spark,根據(jù)基于內(nèi)存的運算模式來分析和設(shè)計貝葉斯算法的并行化。然后實驗對比算法在兩個平臺上性能提升的效果。(3)針對電子商務(wù)商品類目分類領(lǐng)域,在Spark平臺和文本分類相關(guān)技術(shù)的研究基礎(chǔ)上,對基于Spark平臺文本分類并行化實現(xiàn)過程進行分析和設(shè)計,分析任務(wù)提交后各節(jié)點的作用和任務(wù)分配情況。然后研究改進的樸素貝葉斯算法在Spark上的并行化實現(xiàn),給出了詳細(xì)的并行化實現(xiàn)過程。實驗結(jié)果表明,改進算法對比傳統(tǒng)算法有一定的優(yōu)勢,基于內(nèi)存計算的Spark在算法執(zhí)行上要優(yōu)于基于MapReduce模型的Hadoop。改進的算法能有效的移植到Spark上,在Spark上實現(xiàn)商品類目分類能有效的提高分類性能。
【關(guān)鍵詞】:云計算 文本分類 樸素貝葉斯 Hadoop Spark
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 摘要4-5
  • ABSTRACT5-9
  • 第一章 緒論9-15
  • 1.1 論文選題背景及意義9-10
  • 1.2 國內(nèi)外的研究現(xiàn)狀10-13
  • 1.2.1 文本分類研究現(xiàn)狀10-12
  • 1.2.2 云計算平臺研究現(xiàn)狀12-13
  • 1.3 主要工作13
  • 1.4 組織結(jié)構(gòu)13-15
  • 第二章 相關(guān)技術(shù)15-31
  • 2.1 文本分類關(guān)鍵技術(shù)研究15-23
  • 2.1.1 文本預(yù)處理16
  • 2.1.2 特征選擇16-19
  • 2.1.3 文本表示19-21
  • 2.1.4 分類算法21-22
  • 2.1.5 分類評價22-23
  • 2.2 云計算平臺Hadoop23-26
  • 2.2.1 HDFS23-24
  • 2.2.2 MapReduce24-26
  • 2.3 云計算平臺Spark26-31
  • 2.3.1 Spark RDD27-29
  • 2.3.2 Spark架構(gòu)29-31
  • 第三章 樸素貝葉斯分類算法的改進和并行化研究31-48
  • 3.1 引言31
  • 3.2 傳統(tǒng)的樸素貝葉斯分類算法31-36
  • 3.2.1 概率論基礎(chǔ)31-32
  • 3.2.2 樸素貝葉斯分類算法32-35
  • 3.2.3 樸素貝葉斯分類算法的優(yōu)缺點35-36
  • 3.3 改進的樸素貝葉斯分類算法36-39
  • 3.3.1 加權(quán)樸素貝葉斯分類算法36-37
  • 3.3.2 基于余弦相似度的加權(quán)樸素貝葉斯算法37-39
  • 3.4 基于云計算平臺的樸素貝葉斯分類算法39-42
  • 3.4.1 基于Hadoop的樸素貝葉斯分類算法39-40
  • 3.4.2 基于Spark的樸素貝葉斯分類算法40-42
  • 3.5 實驗及結(jié)果分析42-47
  • 3.5.1 實驗環(huán)境與實驗數(shù)據(jù)集42-43
  • 3.5.2 評測指標(biāo)43
  • 3.5.3 實驗過程與結(jié)果分析43-47
  • 3.6 本章小結(jié)47-48
  • 第四章 基于Spark的電子商務(wù)商品類目分類研究48-62
  • 4.1 引言48
  • 4.2 電子商務(wù)商品文本數(shù)據(jù)獲取48-49
  • 4.3 基于Spark平臺的商品類目分類與預(yù)測49-57
  • 4.3.1 基于Spark平臺的商品類目分類整體設(shè)計49-51
  • 4.3.2 預(yù)處理模塊51-52
  • 4.3.3 特征選擇模塊52-53
  • 4.3.4 特征權(quán)重模塊53-54
  • 4.3.5 改進的貝葉斯分類模塊54-57
  • 4.4 實驗及結(jié)果分析57-61
  • 4.4.1 實驗環(huán)境與實驗數(shù)據(jù)集57
  • 4.4.2 實驗評價指標(biāo)57-58
  • 4.4.3 實驗過程與結(jié)果分析58-61
  • 4.5 本章小結(jié)61-62
  • 第五章 總結(jié)與展望62-64
  • 5.1 全文工作總結(jié)62-63
  • 5.2 展望63-64
  • 參考文獻64-68
  • 致謝68-69
  • 攻讀學(xué)位期間研究成果69

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 賴英旭;楊震;;改進貝葉斯算法在未知惡意軟件識別中的研究[J];北京工業(yè)大學(xué)學(xué)報;2011年05期

2 陳凱星;陳建英;;一種改進的基于樸素貝葉斯算法的垃圾短信過濾技術(shù)[J];福建電腦;2014年03期

3 李欣;;一種對貝葉斯算法的改進算法分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報;2011年05期

4 皮靖;邵雄凱;肖雅夫;;基于樸素貝葉斯算法的主題爬蟲的研究[J];計算機與數(shù)字工程;2012年06期

5 楊忠強;秦亮曦;;一種基于維規(guī)約的屬性加權(quán)樸素貝葉斯算法[J];信息技術(shù);2013年12期

6 丁岳偉;潘濤;;利用貝葉斯算法過濾報文內(nèi)容分析系統(tǒng)中的垃圾信息[J];上海理工大學(xué)學(xué)報;2008年01期

7 李森;趙潔;;基于樸素貝葉斯算法的語言特征描述研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2012年05期

8 陳福志,史杏榮;基于改進貝葉斯算法的信息安全模型[J];計算機工程;2003年20期

9 汪明;張征;;SQL Server 2008 R2貝葉斯算法研究[J];河北軟件職業(yè)技術(shù)學(xué)院學(xué)報;2011年03期

10 文橋;王衛(wèi)平;;基于改進貝葉斯算法的入侵檢測方法[J];計算機工程;2006年12期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 顧蕊;;利用貝葉斯算法的目標(biāo)探測前跟蹤方法[A];第七屆全國信息獲取與處理學(xué)術(shù)會議論文集[C];2009年

2 許小林;唐文忠;;基于貝葉斯算法的垃圾郵件檢測中數(shù)據(jù)預(yù)處理技術(shù)的研究[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年

3 彭小明;辛陽;;基于增量貝葉斯算法的主題爬蟲的設(shè)計與實現(xiàn)[A];第九屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2012年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 劉大雷;基于不確定貝葉斯算法在滑坡危險性預(yù)測的應(yīng)用研究[D];江西理工大學(xué);2015年

2 王海鵬;基于HBase的人口收入水平的預(yù)測研究[D];大連海事大學(xué);2015年

3 嚴(yán)嘉銘;基于云計算的文本分類研究與應(yīng)用[D];浙江理工大學(xué);2016年

4 楊忠強;基于屬性加權(quán)和歸約的樸素貝葉斯算法研究[D];廣西大學(xué);2013年

5 Emmanuel Kayitaba 阿瑪尼;[D];中南大學(xué);2010年

6 孫源澤;樸素貝葉斯算法及其在電信客戶流失分析中的應(yīng)用研究[D];湖南大學(xué);2008年

7 朱強;貝葉斯算法在智能終端信息過濾中的應(yīng)用研究[D];中南大學(xué);2013年

8 王剛剛;貝葉斯算法在人體生理狀態(tài)識別中的應(yīng)用[D];大連理工大學(xué);2008年

9 曾志中;基于貝葉斯算法的垃圾郵件過濾系統(tǒng)的分析與實現(xiàn)[D];北京郵電大學(xué);2009年

10 林士杰;ID3算法、樸素貝葉斯算法和BP神經(jīng)網(wǎng)絡(luò)算法的比較和分析研究[D];內(nèi)蒙古大學(xué);2013年

,

本文編號:925336

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/925336.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7510a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com