基于hadoop與加權(quán)模型的FP-growth算法的優(yōu)化研究
【文章頁數(shù)】:69 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-1頻繁模式樹FP-tree第三步,從FP-tree的底端自下而上進(jìn)行挖掘,為項(xiàng)頭表中每個(gè)節(jié)點(diǎn)生成條
第二章相關(guān)理論及技術(shù)研究11第一步,對事務(wù)數(shù)據(jù)庫D進(jìn)行掃描,計(jì)算各項(xiàng)的支持度,將小于最小支持度的項(xiàng)剔除,剩余項(xiàng)按支持度降序排列,若支持度相同時(shí)按字母順序排列,得到頻繁1項(xiàng)集L={A:8,E:7,C:5,G:4,B:2,D:2,F:2}。有序事務(wù)集如表2-4第3列所示。第二步,創(chuàng)建....
圖2-2Hadoop結(jié)構(gòu)框架圖
天津工業(yè)大學(xué)碩士學(xué)位論文14同的機(jī)器,然后Reduce函數(shù)將拆分并處理后的數(shù)據(jù)進(jìn)行整合統(tǒng)計(jì),輸出最終結(jié)果。(3)Yarn。Yarn是Hadoop2.x中被引入的核心部件,它是Hadoop的資源管理系統(tǒng)。它可以理解為是一個(gè)“管理平臺”,使Hadoop不僅可以支持MapReduce計(jì)....
圖2-3MapReduce執(zhí)行流程圖
第二章相關(guān)理論及技術(shù)研究152.3.2并行計(jì)算框架MapReduceMapReduce是我們在進(jìn)行大數(shù)據(jù)處理的時(shí)候經(jīng)常要使用的計(jì)算模型,通過MapReduce很容易在Hadoop平臺上進(jìn)行分布式的計(jì)算編程。MapReduce由兩個(gè)關(guān)鍵性操作構(gòu)成,即Map(映射)與Reduce(歸....
圖2-4WordCount案例MapReduce流程
天津工業(yè)大學(xué)碩士學(xué)位論文16(4)ShuffleShuffle是介于Map和Reduce過程中間的操作,它需要從所有Map任務(wù)輸出的結(jié)果中篩選鍵值對,將具有相同key的<key,value>對組合在一起發(fā)送到同一個(gè)Reduce任務(wù)中作為輸入。(5)化簡ReduceReduce負(fù)責(zé)....
本文編號:3913929
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3913929.html