基于云計算的文本分類研究與應(yīng)用
本文關(guān)鍵詞:基于云計算的文本分類研究與應(yīng)用
更多相關(guān)文章: 云計算 文本分類 樸素貝葉斯 Hadoop Spark
【摘要】:當(dāng)代互聯(lián)網(wǎng)的高速發(fā)展產(chǎn)生了大量富有價值的互聯(lián)網(wǎng)信息,其中文本數(shù)據(jù)占據(jù)著重要的位置,如何從海量的文本數(shù)據(jù)中挖掘出有用的信息是具有重大意義的課題。文本分類是文本挖掘中一項重要的研究方向,分類算法的實現(xiàn)是文本分類的重要部分,影響著文本分類效果和分類性能;趥鹘y(tǒng)計算機的分類算法實現(xiàn)過程需要消耗大量的時間,不能滿足日益增長的數(shù)據(jù)處理需求,云計算平臺的研究和發(fā)展就是在這一背景下興起,滿足了日益增長的海量數(shù)據(jù)處理需求。鑒于目前文本分類的研究現(xiàn)狀和云計算平臺應(yīng)用的發(fā)展趨勢,本文將基于云計算平臺對文本分類相關(guān)技術(shù)進行研究,主要工作有以下三個方面:(1)深入分析了樸素貝葉斯文本分類算法相關(guān)理論,對條件屬性獨立性假設(shè)進行深入研究,重點討論了樸素貝葉斯屬性加權(quán)對獨立性假設(shè)的影響。然后針對屬性加權(quán),本文提出了基于余弦相似度的加權(quán)樸素貝葉斯分類算法,采用余弦相似度優(yōu)化屬性權(quán)值,對分類算法進行改進。(2)研究樸素貝葉斯算法在云計算平臺中的并行化實現(xiàn);谠朴嬎闫脚_Hadoop,根據(jù)MapReduce編程模型對貝葉斯算法并行化進行設(shè)計和實現(xiàn);基于云計算平臺Spark,根據(jù)基于內(nèi)存的運算模式來分析和設(shè)計貝葉斯算法的并行化。然后實驗對比算法在兩個平臺上性能提升的效果。(3)針對電子商務(wù)商品類目分類領(lǐng)域,在Spark平臺和文本分類相關(guān)技術(shù)的研究基礎(chǔ)上,對基于Spark平臺文本分類并行化實現(xiàn)過程進行分析和設(shè)計,分析任務(wù)提交后各節(jié)點的作用和任務(wù)分配情況。然后研究改進的樸素貝葉斯算法在Spark上的并行化實現(xiàn),給出了詳細(xì)的并行化實現(xiàn)過程。實驗結(jié)果表明,改進算法對比傳統(tǒng)算法有一定的優(yōu)勢,基于內(nèi)存計算的Spark在算法執(zhí)行上要優(yōu)于基于MapReduce模型的Hadoop。改進的算法能有效的移植到Spark上,在Spark上實現(xiàn)商品類目分類能有效的提高分類性能。
【關(guān)鍵詞】:云計算 文本分類 樸素貝葉斯 Hadoop Spark
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 論文選題背景及意義9-10
- 1.2 國內(nèi)外的研究現(xiàn)狀10-13
- 1.2.1 文本分類研究現(xiàn)狀10-12
- 1.2.2 云計算平臺研究現(xiàn)狀12-13
- 1.3 主要工作13
- 1.4 組織結(jié)構(gòu)13-15
- 第二章 相關(guān)技術(shù)15-31
- 2.1 文本分類關(guān)鍵技術(shù)研究15-23
- 2.1.1 文本預(yù)處理16
- 2.1.2 特征選擇16-19
- 2.1.3 文本表示19-21
- 2.1.4 分類算法21-22
- 2.1.5 分類評價22-23
- 2.2 云計算平臺Hadoop23-26
- 2.2.1 HDFS23-24
- 2.2.2 MapReduce24-26
- 2.3 云計算平臺Spark26-31
- 2.3.1 Spark RDD27-29
- 2.3.2 Spark架構(gòu)29-31
- 第三章 樸素貝葉斯分類算法的改進和并行化研究31-48
- 3.1 引言31
- 3.2 傳統(tǒng)的樸素貝葉斯分類算法31-36
- 3.2.1 概率論基礎(chǔ)31-32
- 3.2.2 樸素貝葉斯分類算法32-35
- 3.2.3 樸素貝葉斯分類算法的優(yōu)缺點35-36
- 3.3 改進的樸素貝葉斯分類算法36-39
- 3.3.1 加權(quán)樸素貝葉斯分類算法36-37
- 3.3.2 基于余弦相似度的加權(quán)樸素貝葉斯算法37-39
- 3.4 基于云計算平臺的樸素貝葉斯分類算法39-42
- 3.4.1 基于Hadoop的樸素貝葉斯分類算法39-40
- 3.4.2 基于Spark的樸素貝葉斯分類算法40-42
- 3.5 實驗及結(jié)果分析42-47
- 3.5.1 實驗環(huán)境與實驗數(shù)據(jù)集42-43
- 3.5.2 評測指標(biāo)43
- 3.5.3 實驗過程與結(jié)果分析43-47
- 3.6 本章小結(jié)47-48
- 第四章 基于Spark的電子商務(wù)商品類目分類研究48-62
- 4.1 引言48
- 4.2 電子商務(wù)商品文本數(shù)據(jù)獲取48-49
- 4.3 基于Spark平臺的商品類目分類與預(yù)測49-57
- 4.3.1 基于Spark平臺的商品類目分類整體設(shè)計49-51
- 4.3.2 預(yù)處理模塊51-52
- 4.3.3 特征選擇模塊52-53
- 4.3.4 特征權(quán)重模塊53-54
- 4.3.5 改進的貝葉斯分類模塊54-57
- 4.4 實驗及結(jié)果分析57-61
- 4.4.1 實驗環(huán)境與實驗數(shù)據(jù)集57
- 4.4.2 實驗評價指標(biāo)57-58
- 4.4.3 實驗過程與結(jié)果分析58-61
- 4.5 本章小結(jié)61-62
- 第五章 總結(jié)與展望62-64
- 5.1 全文工作總結(jié)62-63
- 5.2 展望63-64
- 參考文獻64-68
- 致謝68-69
- 攻讀學(xué)位期間研究成果69
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 賴英旭;楊震;;改進貝葉斯算法在未知惡意軟件識別中的研究[J];北京工業(yè)大學(xué)學(xué)報;2011年05期
2 陳凱星;陳建英;;一種改進的基于樸素貝葉斯算法的垃圾短信過濾技術(shù)[J];福建電腦;2014年03期
3 李欣;;一種對貝葉斯算法的改進算法分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報;2011年05期
4 皮靖;邵雄凱;肖雅夫;;基于樸素貝葉斯算法的主題爬蟲的研究[J];計算機與數(shù)字工程;2012年06期
5 楊忠強;秦亮曦;;一種基于維規(guī)約的屬性加權(quán)樸素貝葉斯算法[J];信息技術(shù);2013年12期
6 丁岳偉;潘濤;;利用貝葉斯算法過濾報文內(nèi)容分析系統(tǒng)中的垃圾信息[J];上海理工大學(xué)學(xué)報;2008年01期
7 李森;趙潔;;基于樸素貝葉斯算法的語言特征描述研究[J];農(nóng)業(yè)網(wǎng)絡(luò)信息;2012年05期
8 陳福志,史杏榮;基于改進貝葉斯算法的信息安全模型[J];計算機工程;2003年20期
9 汪明;張征;;SQL Server 2008 R2貝葉斯算法研究[J];河北軟件職業(yè)技術(shù)學(xué)院學(xué)報;2011年03期
10 文橋;王衛(wèi)平;;基于改進貝葉斯算法的入侵檢測方法[J];計算機工程;2006年12期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 顧蕊;;利用貝葉斯算法的目標(biāo)探測前跟蹤方法[A];第七屆全國信息獲取與處理學(xué)術(shù)會議論文集[C];2009年
2 許小林;唐文忠;;基于貝葉斯算法的垃圾郵件檢測中數(shù)據(jù)預(yù)處理技術(shù)的研究[A];計算機技術(shù)與應(yīng)用進展——全國第17屆計算機科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會議論文集(上冊)[C];2006年
3 彭小明;辛陽;;基于增量貝葉斯算法的主題爬蟲的設(shè)計與實現(xiàn)[A];第九屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2012年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 劉大雷;基于不確定貝葉斯算法在滑坡危險性預(yù)測的應(yīng)用研究[D];江西理工大學(xué);2015年
2 王海鵬;基于HBase的人口收入水平的預(yù)測研究[D];大連海事大學(xué);2015年
3 嚴(yán)嘉銘;基于云計算的文本分類研究與應(yīng)用[D];浙江理工大學(xué);2016年
4 楊忠強;基于屬性加權(quán)和歸約的樸素貝葉斯算法研究[D];廣西大學(xué);2013年
5 Emmanuel Kayitaba 阿瑪尼;[D];中南大學(xué);2010年
6 孫源澤;樸素貝葉斯算法及其在電信客戶流失分析中的應(yīng)用研究[D];湖南大學(xué);2008年
7 朱強;貝葉斯算法在智能終端信息過濾中的應(yīng)用研究[D];中南大學(xué);2013年
8 王剛剛;貝葉斯算法在人體生理狀態(tài)識別中的應(yīng)用[D];大連理工大學(xué);2008年
9 曾志中;基于貝葉斯算法的垃圾郵件過濾系統(tǒng)的分析與實現(xiàn)[D];北京郵電大學(xué);2009年
10 林士杰;ID3算法、樸素貝葉斯算法和BP神經(jīng)網(wǎng)絡(luò)算法的比較和分析研究[D];內(nèi)蒙古大學(xué);2013年
,本文編號:925336
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/925336.html