天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于Hadoop的數(shù)據(jù)挖掘算法并行化研究

發(fā)布時間:2017-05-18 04:00

  本文關(guān)鍵詞:基于Hadoop的數(shù)據(jù)挖掘算法并行化研究,,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著社會互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的蓬勃發(fā)展,大量的數(shù)據(jù)信息被保留下來,各種各樣的信息呈現(xiàn)出了爆炸式的增長。面對這樣海量的數(shù)據(jù),如何高效可行的進(jìn)行數(shù)據(jù)挖掘是當(dāng)下社會面對的一個棘手的問題。傳統(tǒng)可靠準(zhǔn)確的串行數(shù)據(jù)挖掘算法可以處理小規(guī)模數(shù)據(jù),但不一定適合處理大規(guī)模數(shù)據(jù)。在這樣的要求下,并行數(shù)據(jù)挖掘算法應(yīng)運(yùn)而生,作為并行計(jì)算的一個重要技術(shù)工具Hadoop并行框架越來越引起商業(yè)界和學(xué)術(shù)界的重視,利用Hadoop并行框架研究數(shù)據(jù)挖掘算法也是學(xué)術(shù)界的一個熱點(diǎn)問題。Apriori算法做為最典型的關(guān)聯(lián)規(guī)則挖掘算法,在大規(guī)模數(shù)據(jù)下挖掘時主要面臨的技術(shù)瓶頸是龐大的數(shù)據(jù)量多次遍歷導(dǎo)致I/O瓶頸,進(jìn)而導(dǎo)致計(jì)算時間大量增加。而針對Aprior算法的優(yōu)化算法目前已有很多,主要的并行算法包括CD(count distribution)、 DD(data distribution), CaD(candidate distribution)算法等。PageRank算法作為商業(yè)搜索引擎的核心算法,在面臨數(shù)量飛漲的網(wǎng)頁數(shù)據(jù)時,也難以避免處理多輪迭代和遍歷網(wǎng)頁的耗時開銷。就PageRank算法處理大規(guī)模數(shù)據(jù)時的問題,學(xué)者已有的成果也很多,例如將PageRank算法直接移植到Hadoop平臺之上,但是MapReduce自有其分布式計(jì)算的特點(diǎn),單純套用可以實(shí)現(xiàn)并行,但是不一定達(dá)到效果最佳。本文重點(diǎn)在于對Apriori算法和PageRank算法在Hadoop平臺下的移植和優(yōu)化做了深入的研究:Apriori算法結(jié)合Hadoop平臺MapReduce框架實(shí)現(xiàn)分布式計(jì)算,在每一輪迭代時,利用DataJoin并行連接和剪枝運(yùn)算實(shí)現(xiàn)下一輪候選集的產(chǎn)生。使得Apriori算法產(chǎn)生頻繁項(xiàng)集的整個過程并行化,并行化粒度得到提高。本文將PageRank算法的輸入做了處理,從之前單個網(wǎng)頁輸入變?yōu)橐粋網(wǎng)站輸入,處理過程引入了三個層次的數(shù)據(jù)壓縮方法,從而減小數(shù)據(jù)通信量和存儲量。針對以上提出的優(yōu)化算法,本文還利用不同的數(shù)據(jù)集和不同的分布式集群試驗(yàn)了算法的性能,并將之前的算法與本文提出的算法做了比較。實(shí)驗(yàn)表明,本文提出的算法在數(shù)據(jù)適應(yīng)性和算法效率上都有提高,縮減了算法執(zhí)行時間,有一定的實(shí)際意義。
【關(guān)鍵詞】:Hadoop MapReduee 數(shù)據(jù)挖掘 Apriori算法 PageRank算法
【學(xué)位授予單位】:廣東工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP311.13
【目錄】:
  • 摘要4-5
  • ABSTRACT5-7
  • 目錄7-9
  • CONTENTS9-11
  • 第一章 緒論11-16
  • 1.1 課題背景及意義11-12
  • 1.2 國內(nèi)外研究現(xiàn)狀12-14
  • 1.3 本文主要工作14
  • 1.4 本文組織結(jié)構(gòu)14-16
  • 第二章 Hadoop并行框架研究16-25
  • 2.1 Hadoop技術(shù)構(gòu)架16-18
  • 2.2 HDFS分布式文件系統(tǒng)18-21
  • 2.2.1 HDFS基礎(chǔ)概念18-19
  • 2.2.2 文件系統(tǒng)命名空間映像文件19-20
  • 2.2.3 HDFS體系架構(gòu)20-21
  • 2.3 MapReduce并行編程模型21-25
  • 2.3.1 MapReduce編程模型原理21-23
  • 2.3.2 MapReduce執(zhí)行過程23-25
  • 第三章 Apriori算法以及并行化25-40
  • 3.1 關(guān)聯(lián)規(guī)則25-28
  • 3.1.1 關(guān)聯(lián)規(guī)則的定義25-26
  • 3.1.2 關(guān)聯(lián)規(guī)則的分類26-27
  • 3.1.3 關(guān)聯(lián)規(guī)則的過程27-28
  • 3.2 Apriori算法概述28-31
  • 3.3 Apriori算法的并行化31-36
  • 3.3.1 基于劃分的Apriori并行算法31-32
  • 3.3.2 傳統(tǒng)基于MapReduce的Apriori算法32-33
  • 3.3.3 基于Hadoop生態(tài)系統(tǒng)的Apriori算法——Hapriori的設(shè)計(jì)33-35
  • 3.3.4 基于Hadoop生態(tài)系統(tǒng)的Apriori算法——Hapriori的實(shí)現(xiàn)35-36
  • 3.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析36-39
  • 3.5 本章小結(jié)39-40
  • 第四章 PageRank算法以及并行化40-53
  • 4.1 PageRank概述40-41
  • 4.2 PageRank算法原理41-42
  • 4.3 PageRank算法計(jì)算公式42-43
  • 4.3.1 PageRank算法基本公式42
  • 4.3.2 PageRank公式的修正42-43
  • 4.4 并行化的PageRank LCPR43-49
  • 4.4.1 并行PageRank算法的背景43-45
  • 4.4.2 LCPR并行算法的設(shè)計(jì)45-49
  • 4.4.3 三層數(shù)據(jù)壓縮49
  • 4.5 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析49-52
  • 4.6 本章小結(jié)52-53
  • 總結(jié)53-55
  • 本文總結(jié)53-54
  • 后繼工作54-55
  • 參考文獻(xiàn)55-60
  • 攻讀學(xué)位期間發(fā)表的論文60-63
  • 致謝#@@

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 文俊浩,胡顯芝,何光輝,徐玲;小波在數(shù)據(jù)挖掘算法中的運(yùn)用[J];重慶大學(xué)學(xué)報(自然科學(xué)版);2004年12期

2 鄒志文,朱金偉;數(shù)據(jù)挖掘算法研究與綜述[J];計(jì)算機(jī)工程與設(shè)計(jì);2005年09期

3 趙澤茂,何坤金,胡友進(jìn);基于距離的異常數(shù)據(jù)挖掘算法及其應(yīng)用[J];計(jì)算機(jī)應(yīng)用與軟件;2005年09期

4 胡作霆;董蘭芳;王洵;;圖的數(shù)據(jù)挖掘算法研究[J];計(jì)算機(jī)工程;2006年03期

5 宋中山;吳立鋒;;增量數(shù)據(jù)挖掘算法在區(qū)域交通管理中的應(yīng)用[J];武漢理工大學(xué)學(xué)報(交通科學(xué)與工程版);2006年03期

6 哈金才;;數(shù)據(jù)挖掘算法的評價標(biāo)準(zhǔn)與方法[J];微電子學(xué)與計(jì)算機(jī);2006年12期

7 修雅慧;鄧文新;;數(shù)據(jù)挖掘算法評分函數(shù)研究[J];計(jì)算機(jī)與現(xiàn)代化;2008年09期

8 張美虎;;神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘算法的研究與應(yīng)用[J];揚(yáng)州職業(yè)大學(xué)學(xué)報;2009年02期

9 李春生;單繼輝;楊冬黎;;基于規(guī)則的數(shù)據(jù)挖掘算法選擇機(jī)制研究[J];長江大學(xué)學(xué)報(自然科學(xué)版)理工卷;2009年03期

10 喻云峰;;數(shù)據(jù)挖掘算法的分析與研究[J];科技廣場;2010年09期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 賀煒;邢春曉;潘泉;;因果不完備條件下的數(shù)據(jù)挖掘算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2005年

2 劉玲;張興會;;基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法研究[A];全國第二屆信號處理與應(yīng)用學(xué)術(shù)會議?痆C];2008年

3 陳曦;曾凡鋒;;數(shù)據(jù)挖掘算法在風(fēng)險評估中的應(yīng)用[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年

4 郭新宇;梁循;;大型數(shù)據(jù)庫中數(shù)據(jù)挖掘算法SLIQ的研究及仿真[A];2004年中國管理科學(xué)學(xué)術(shù)會議論文集[C];2004年

5 張沫;欒媛媛;秦培玉;羅丹;;基于聚類算法的多維客戶行為細(xì)分模型研究與實(shí)現(xiàn)[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年

6 潘國林;楊帆;;數(shù)據(jù)挖掘算法在保險客戶分析中的應(yīng)用[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集(上冊)[C];2009年

7 張乃岳;張力;張學(xué)燕;;基于字段匹配的CRM數(shù)據(jù)挖掘算法與應(yīng)用[A];邏輯學(xué)及其應(yīng)用研究——第四屆全國邏輯系統(tǒng)、智能科學(xué)與信息科學(xué)學(xué)術(shù)會議論文集[C];2008年

8 祖巧紅;陳定方;胡吉全;;客戶分析中的數(shù)據(jù)挖掘算法比較研究[A];12省區(qū)市機(jī)械工程學(xué)會2006年學(xué)術(shù)年會湖北省論文集[C];2006年

9 李怡凌;馬亨冰;;一種基于本體的關(guān)聯(lián)規(guī)則挖掘算法[A];全國第19屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會議論文集(下冊)[C];2008年

10 盛立;劉希玉;高明;;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[A];山東省計(jì)算機(jī)學(xué)會2005年信息技術(shù)與信息化研討會論文集(二)[C];2005年

中國重要報紙全文數(shù)據(jù)庫 前1條

1 ;選擇合適的數(shù)據(jù)挖掘算法[N];計(jì)算機(jī)世界;2007年

中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條

1 陳云開;基于粗糙集和聚類的數(shù)據(jù)挖掘算法及其在反洗錢中的應(yīng)用研究[D];華中科技大學(xué);2007年

2 張靜;基于粗糙集理論的數(shù)據(jù)挖掘算法研究[D];西北工業(yè)大學(xué);2006年

3 沙朝鋒;基于信息論的數(shù)據(jù)挖掘算法[D];復(fù)旦大學(xué);2008年

4 梁瑾;模糊粗糙單調(diào)數(shù)據(jù)挖掘算法及在污水處理中應(yīng)用研究[D];華南理工大學(xué);2011年

中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條

1 孫孝萍;基于聚類分析的數(shù)據(jù)挖掘算法研究[D];西南石油學(xué)院;2002年

2 亢建波;數(shù)據(jù)挖掘算法在電力生產(chǎn)決策中的研究與應(yīng)用[D];華北電力大學(xué)(河北);2005年

3 阿斯力別克(Kutlumuratov Assylbek);流數(shù)據(jù)挖掘算法在金融領(lǐng)域的應(yīng)用研究[D];華南理工大學(xué);2012年

4 國琳;基于云數(shù)據(jù)庫的幾種數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn)[D];吉林大學(xué);2013年

5 程建星;數(shù)據(jù)挖掘算法的改進(jìn)及其在入侵檢測中的應(yīng)用[D];暨南大學(xué);2008年

6 黎敏;數(shù)據(jù)挖掘算法研究與應(yīng)用[D];大連理工大學(xué);2004年

7 曹聰;云計(jì)算支持下的數(shù)據(jù)挖掘算法及其應(yīng)用[D];廣州大學(xué);2012年

8 曹潔;基于案例推理的數(shù)據(jù)挖掘算法搜索策略的研究[D];太原理工大學(xué);2007年

9 顏巍;基于云平臺的數(shù)據(jù)挖掘算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年

10 秦海翔;云計(jì)算環(huán)境下的數(shù)據(jù)挖掘算法研究[D];陜西師范大學(xué);2014年


  本文關(guān)鍵詞:基于Hadoop的數(shù)據(jù)挖掘算法并行化研究,由筆耕文化傳播整理發(fā)布。



本文編號:375040

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/375040.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8bf34***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com