基于Hadoop的文本挖掘研究與應用
本文關鍵詞:基于Hadoop的文本挖掘研究與應用
更多相關文章: 分布式 云計算 Hadoop 文本挖掘 文本聚類
【摘要】:當前伴隨互聯(lián)網技術的快速發(fā)展,網絡信息成為人們獲取信息的主要來源。人們通過Internet可以輕易獲取海量信息,但是信息的爆炸式增長也帶來一些不便。用戶面對海量數據,快速而有效的篩選出有價值信息顯得越來越困難。面對海量數據,傳統(tǒng)的單節(jié)點串行計算模式已經滿足不了處理海量信息的要求,分布式技術為此帶來了新的解決方案,通過分布式的并行處理模式,能夠快速有效的完成對海量數據的計算。當前基于分布式發(fā)展而來的云計算,對處理海量數據和高并發(fā)問題優(yōu)勢明顯。Hadoop平臺是近幾年應用比較熱門的云平臺,其硬件成本較低通過普通PC集群即可構成,同時能夠存儲及處理海量數據。文本挖掘是數據挖掘的一個熱門分支,被廣泛應用于搜索、分類、推薦等領域。傳統(tǒng)的串行計算模式應用于當前的文本挖掘領域,面對海量的文本數據,其運算能力難以滿足要求;诖吮疚倪x擇將Hadoop平臺與文本挖掘技術結合。本文著重研究了Hadoop下的文本預處理,及CURE聚類算法。本文主要工作如下:(1)簡單介紹了研究背景及意義、分布式技術、云平臺和文本挖掘等相關技術。(2)研究了文本挖掘的文本預處理過程,提出了一種新的構造停用詞表的方法。簡要介紹了Hadoop平臺的搭建過程。將文本預處理過程MapReduce化,通過Hadoop平臺并行計算完成文本預處理。并對比和分析了單機串行處理和Hadoop平臺并行處理的效率(3)簡要介紹了CURE聚類算法。提出了一種優(yōu)化TFIDF公式,并將其應用于CURE算法MapReduce化的過程。分析對比了優(yōu)化前,以及優(yōu)化后的TFIDF公式的優(yōu)劣,并證明了優(yōu)化后的TFIDF公式比傳統(tǒng)的TFIDF公式有效性更高。(4)測試和分析了CURE算法在Hadoop平臺下,不同集群的運行效率。通過統(tǒng)計分析相關計算結果,進一步證明了Hadoop平臺并行處理的優(yōu)勢。通過實驗分析本文提出的新的停用詞表構造方法,以及對TFIDF的優(yōu)化,證明了本文研究具有一定的價值。同時證明了云計算技術應用文本挖掘領域的有效性,為今后研究文本挖掘提供了新的思路。
【關鍵詞】:分布式 云計算 Hadoop 文本挖掘 文本聚類
【學位授予單位】:廣東工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- ABSTRACT5-13
- 第一章 緒論13-18
- 1.1 研究背景及意義13
- 1.2 國內外研究現(xiàn)狀13-16
- 1.2.1 云計算領域13-14
- 1.2.2 文本挖掘領域14-15
- 1.2.3 文本預處理15
- 1.2.4 停用詞表構造15-16
- 1.3 本文主要研究內容16
- 1.4 論文結構16-17
- 1.5 本章小結17-18
- 第二章 云計算和文本挖掘相關理論18-32
- 2.1 云計算相關理論18-27
- 2.1.1 Google云計算18-25
- 2.1.2 Hadoop平臺25-27
- 2.2 文本挖掘理論27-31
- 2.2.1 文本預處理27-28
- 2.2.2 文本表示28-29
- 2.2.3 文本分類29-30
- 2.2.4 文本聚類30-31
- 2.3 本章小結31-32
- 第三章 基于HADOOP的文本預處理研究32-46
- 3.1 Hadoop平臺搭建32-37
- 3.2 文本預處理37-42
- 3.2.1 文本集37-38
- 3.2.2 分詞38
- 3.2.3 去停用詞38-41
- 3.2.4 降為處理41
- 3.2.5 文本表示41-42
- 3.3 MapReduce42-43
- 3.4 測試分析43-45
- 3.5 本章小結45-46
- 第四章 聚類算法研究46-63
- 4.1 TFIDF優(yōu)化46-52
- 4.2 聚類算法52-56
- 4.3 基于Hadoop的CURE56-62
- 4.3.1 相關參數57-59
- 4.3.2 TFIDF值59-60
- 4.3.3 相似度距離計算60-61
- 4.3.4 CURE的MapReduce化61-62
- 4.4 本章小結62-63
- 第五章 基于HADOOP的CURE分析63-71
- 5.1 實驗分析65-70
- 5.1.1 TFIDF結果分析66-67
- 5.1.2 余弦距離計算分析67-69
- 5.1.3 CURE算法分析69-70
- 5.1.4 實驗結果分析70
- 5.2 本章小結70-71
- 總結與展望71-73
- 參考文獻73-79
- 攻讀學位期間發(fā)表的學術論文79-80
- 攻讀學位期間參加的科研項目80-82
- 致謝82
【參考文獻】
中國期刊全文數據庫 前10條
1 羅燕;趙書良;李曉超;韓玉輝;丁亞飛;;基于詞頻統(tǒng)計的文本關鍵詞提取方法[J];計算機應用;2016年03期
2 尹倩;;基于語義擴展度的中文分詞交叉歧義處理方法[J];南昌工程學院學報;2016年01期
3 常建秋;沈煒;;基于字符串匹配的中文分詞算法的研究[J];工業(yè)控制計算機;2016年02期
4 張振景;李新福;田學東;王凱;;基于SVM的離合詞詞義消歧[J];計算機科學;2016年02期
5 劉穎瑩;劉培玉;王智昊;李情情;朱振方;;一種基于密度峰值發(fā)現(xiàn)的文本聚類算法[J];山東大學學報(理學版);2016年01期
6 陳之彥;李曉杰;朱淑華;付丹龍;邢詒海;;基于Hash結構詞典的雙向最大匹配分詞法[J];計算機科學;2015年S2期
7 艾明;;Hadoop對小文件的處理性能的研究[J];信息技術;2015年10期
8 王小林;肖慧;邰偉鵬;;基于Hadoop平臺的文本相似度檢測系統(tǒng)的研究[J];計算機技術與發(fā)展;2015年08期
9 黃美慶;潘慧;;東莞中國科學院云計算產業(yè)技術創(chuàng)新與育成中心:搶占大數據領域制高點[J];廣東科技;2015年11期
10 趙震;;三方聯(lián)合 開創(chuàng)全媒體云平臺新時代——就“OnAir全媒體云平臺”專訪新奧特云視總經理高云浩、阿里巴巴集團云計算業(yè)務部高級業(yè)務拓展專家孫黎明、華通云數據董事長兼總裁鄭曉林[J];現(xiàn)代電視技術;2014年05期
中國博士學位論文全文數據庫 前2條
1 劉兆軍;XML文檔數據集聚類問題研究[D];吉林大學;2015年
2 周勇;基于并行計算的數據流處理方法研究[D];大連理工大學;2013年
中國碩士學位論文全文數據庫 前10條
1 徐靜婷;基于文本挖掘技術的創(chuàng)業(yè)板股票招股說明書風險分析[D];上海師范大學;2015年
2 白鋮;一種分布式文件系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2015年
3 閆文亮;云計算環(huán)境下分布式的虛擬機資源分配模式研究應用[D];北京郵電大學;2015年
4 許行;基于決策樹的單調分類算法研究[D];山西大學;2014年
5 李亮亮;基于二維特征集合的文本計算方法[D];濟南大學;2014年
6 黃琳;基于CURE聚類的KNN文本分類研究與實現(xiàn)[D];昆明理工大學;2014年
7 龔瑞琴;文本分類中特征選擇和分類算法的研究[D];寧夏大學;2014年
8 胡捷程;智能工單云計算平臺的安全隔離研究與實現(xiàn)[D];復旦大學;2013年
9 張平;基于直接優(yōu)化信息檢索評價方法的排序學習算法研究[D];大連理工大學;2013年
10 仰孝富;基于BIRCH改進算法的文本聚類研究[D];北京林業(yè)大學;2013年
,本文編號:1039257
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1039257.html