基于云計算的數(shù)據(jù)挖掘技術(shù)研究
發(fā)布時間:2017-10-06 02:02
本文關(guān)鍵詞:基于云計算的數(shù)據(jù)挖掘技術(shù)研究
更多相關(guān)文章: 云計算 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 并行計算
【摘要】:云計算是一種商業(yè)計算模型,它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,能為用戶提供按需分配的計算能力、存儲能力及應(yīng)用服務(wù)能力;云計算為存儲和分析海量數(shù)據(jù)提供了廉價高效的解決方案。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中提取隱藏在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,對科學(xué)研究與商業(yè)決策等多個領(lǐng)域起到了指導(dǎo)作用,,具有深遠的社會和經(jīng)濟意義。數(shù)據(jù)挖掘由于所需要用到的運算存儲量均是巨大的,所以將云計算與數(shù)據(jù)挖掘相結(jié)合可以有效的控制計算成本,提升數(shù)據(jù)挖掘的效率,突破傳統(tǒng)數(shù)據(jù)挖掘的瓶頸限制。云計算環(huán)境下的并行數(shù)據(jù)挖掘策略的研究具有重要的理論意義和應(yīng)用價值。 Hadoop框架作為目前業(yè)界最為有名的開源分布式計算框架,通過采用MapReduce并行化模型,有效的整合現(xiàn)有運算存儲能力,提供強大的分布式計算能力,MapReduce也被證實為高效的計算工具。本文主要完成以下工作: 1.總結(jié)云計算和數(shù)據(jù)挖掘的相關(guān)概念和技術(shù),分析了經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法Apriori算法及其改進算法的優(yōu)缺點、Hadoop平臺和MapReduce編程模型。 2.基于以上基礎(chǔ)將Apriori算法轉(zhuǎn)化為MapReduce模型,實現(xiàn)Apriori并行化改造,同時采用一些優(yōu)化方法,提高Apriori算法在Hadoop框架下的表現(xiàn),最終實現(xiàn)具有高擴展性適合于云計算環(huán)境的MapReduce-Apriori算法。 3.將算法應(yīng)用于對某保險公司保單數(shù)據(jù)集的分析,結(jié)果表明,它對海量數(shù)據(jù)的處理效率明顯比傳統(tǒng)算法高,且表現(xiàn)出了很好的加速比。
【關(guān)鍵詞】:云計算 數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則 并行計算
【學(xué)位授予單位】:石家莊經(jīng)濟學(xué)院
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第一章 緒論8-11
- 1.1 研究意義和目的8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-10
- 1.3 研究內(nèi)容10
- 1.4 論文的組織結(jié)構(gòu)10-11
- 第二章 數(shù)據(jù)挖掘與關(guān)聯(lián)規(guī)則11-19
- 2.1 數(shù)據(jù)挖掘的概念及作用11-13
- 2.1.1 數(shù)據(jù)挖掘的概念11-12
- 2.1.2 數(shù)據(jù)挖掘的作用與挑戰(zhàn)12-13
- 2.2 關(guān)聯(lián)規(guī)則算法13-18
- 2.2.1 關(guān)聯(lián)規(guī)則基本概念14
- 2.2.2 APRIORI 算法及其改進算法14-17
- 2.2.3 并行關(guān)聯(lián)規(guī)則算法17-18
- 2.3 本章小結(jié)18-19
- 第三章 云計算與 MAPREDUCE 編程模型19-31
- 3.1 云計算的相關(guān)概念、特點及分類19-24
- 3.1.1 云計算的概念與優(yōu)勢19-20
- 3.1.2 云計算發(fā)展現(xiàn)狀20-23
- 3.1.3 云計算的分類23-24
- 3.2 云計算的核心技術(shù)24-30
- 3.2.1 簡單的并行編程模式25
- 3.2.2 虛擬化技術(shù)25-26
- 3.2.3 MAPREDUCE 編程模型26-30
- 3.3 本章小結(jié)30-31
- 第四章 MRD_APRIORI 關(guān)聯(lián)規(guī)則算法的實現(xiàn)31-41
- 4.1 MRD_APRIORI 算法的分析31-34
- 4.2 MRD_APRIORI 算法的初始化34-36
- 4.3 MRD_APRIORI 算法的迭代實現(xiàn)36-40
- 4.3.1 頻繁 K 項集生成過程36-38
- 4.3.2 候選(K+1)項集生成過程38-40
- 4.4 本章小結(jié)40-41
- 第五章 云平臺環(huán)境搭建及實驗結(jié)果分析41-48
- 5.1 數(shù)據(jù)集來源及數(shù)據(jù)預(yù)處理41-42
- 5.2 環(huán)境搭建42-45
- 5.3 結(jié)果分析45-47
- 5.4 本章小結(jié)47-48
- 第六章 總結(jié)與展望48-49
- 6.1 結(jié)論48
- 6.2 展望48-49
- 參考文獻49-52
- 致謝52-53
- 作者簡介53-54
- 攻讀碩士學(xué)位期間發(fā)表的論文和科研成果54
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 蔡興旺;段夢博;;云計算及其在數(shù)據(jù)挖掘上的應(yīng)用研究[J];電腦知識與技術(shù);2010年22期
2 劉華元;袁琴琴;王保保;;并行數(shù)據(jù)挖掘算法綜述[J];電子科技;2006年01期
3 王鄂;李銘;;云計算下的海量數(shù)據(jù)挖掘研究[J];現(xiàn)代計算機(專業(yè)版);2009年11期
4 王柏;徐六通;;云計算[J];中興通訊技術(shù);2010年01期
本文編號:980075
本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/980075.html
最近更新
教材專著