天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

基于Hadoop的并行數(shù)據(jù)挖掘的研究

發(fā)布時間:2018-03-31 23:14

  本文選題:Hadoop 切入點:數(shù)據(jù)挖掘 出處:《南京郵電大學》2017年碩士論文


【摘要】:隨著“互聯(lián)網+”時代的到來,產生的數(shù)據(jù)量呈指數(shù)性爆發(fā),涵蓋了各種非結構化數(shù)據(jù)。如何從多變的、復雜的海量數(shù)據(jù)中找到有意義的模式和規(guī)則,來解決科學、醫(yī)療、能源、商業(yè)、政府管理、城市建設等領域的問題成為重點。數(shù)據(jù)挖掘是統(tǒng)計學、數(shù)據(jù)庫、機器學習、人工智能等多領域的融合,但是傳統(tǒng)的數(shù)據(jù)挖掘處理及改進的方式大多串行連接在單機上,由于單機處理能力有限且內存不足,處理效率低下,并不適合大規(guī)模數(shù)據(jù)的挖掘工作。在這種情況下,基于Hadoop的并行數(shù)據(jù)挖掘成為新的研究熱點。Apriori算法是關聯(lián)規(guī)則挖掘最為經典的算法,Apriori算法通過逐層迭代方式,采用串行自連接和剪枝操作來挖掘頻繁項集。Apriori算法的缺點是重復掃描數(shù)據(jù)庫,產生大量的候選集,算法效率較低。基于MapReduce的并行Apriori算法解決了傳統(tǒng)Apriori算法多次掃描數(shù)據(jù)庫的問題,但是其候選集仍然由頻繁項集經過串行自連接產生,并產生大量的候選集中間數(shù)據(jù)。本文重點討論了如何提高基于MapReduce的Apriori算法挖掘頻繁項集的效率,對連接步進行并行化改進,提出大數(shù)據(jù)環(huán)境下挖掘頻繁項目集的一種改進算法—C_Apriori算法。該算法通過Map、Reduce過程從頻繁k-項集中并行得到k+1項候選集Ck+1,使得Apriori算法產生頻繁項集的整個過程并行化,減少了迭代過程中候選集數(shù)目數(shù)量,節(jié)約了存儲空間和時間開銷。通過時間復雜度進行分析比較,C_Apriori算法在處理大規(guī)模數(shù)據(jù)時會大大減少連接步的時間消耗。本文最后,使用HBase數(shù)據(jù)庫,設計基于Hadoop的并行數(shù)據(jù)挖掘系統(tǒng),并將C_Apriori算法在Hadoop并行數(shù)據(jù)挖掘系統(tǒng)進行了測試,結果表明改進算法在大數(shù)據(jù)和較小支持度環(huán)境下都具有更高的效率,且能取得優(yōu)異的加速功能。該方案在某科技公司的智慧社區(qū)系統(tǒng)中得到成功應用。
[Abstract]:This paper discusses how to improve the efficiency of mining frequent itemsets from multi - variable and complex mass data .

【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13

【參考文獻】

相關期刊論文 前10條

1 吳信東;何進;陸汝鈐;鄭南寧;;從大數(shù)據(jù)到大知識:HACE+BigKE[J];自動化學報;2016年07期

2 王興偉;李婕;譚振華;馬連博;李福亮;黃敏;;面向“互聯(lián)網+”的網絡技術發(fā)展現(xiàn)狀與未來趨勢[J];計算機研究與發(fā)展;2016年04期

3 崔妍;包志強;;關聯(lián)規(guī)則挖掘綜述[J];計算機應用研究;2016年02期

4 張東;亓開元;吳楠;辛國茂;劉正偉;顏秉珩;郭鋒;;云海大數(shù)據(jù)一體機體系結構和關鍵技術[J];計算機研究與發(fā)展;2016年02期

5 魏玲;魏永江;高長元;;基于Bigtable與MapReduce的Apriori算法改進[J];計算機科學;2015年10期

6 宋寶燕;王俊陸;王妍;;基于范德蒙碼的HDFS優(yōu)化存儲策略研究[J];計算機學報;2015年09期

7 董新華;李瑞軒;周灣灣;王聰;薛正元;廖東杰;;Hadoop系統(tǒng)性能優(yōu)化與功能增強綜述[J];計算機研究與發(fā)展;2013年S2期

8 羅丹;李陶深;;一種基于壓縮矩陣的Apriori算法改進研究[J];計算機科學;2013年12期

9 遲學斌;顧蓓蓓;武虹;王龍;朱鵬;;高性能計算機系統(tǒng)及平臺發(fā)展狀況分析[J];計算機工程與科學;2013年11期

10 吳琪;;基于云計算的Apriori挖掘算法[J];計算機測量與控制;2012年06期

相關博士學位論文 前1條

1 李秋虹;基于MapReduce的大規(guī)模數(shù)據(jù)挖掘技術研究[D];復旦大學;2013年

相關碩士學位論文 前3條

1 李銀周;移動互聯(lián)網中手機終端與流量特征分析[D];北京郵電大學;2014年

2 朱安柱;基于Hadoop的Apriori算法改進與移植的研究[D];華中科技大學;2012年

3 曹風兵;基于Hadoop的云計算模型研究與應用[D];重慶大學;2011年



本文編號:1692899

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1692899.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶78547***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com