天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于hadoop與加權(quán)模型的FP-growth算法的優(yōu)化研究

發(fā)布時(shí)間:2024-02-28 19:40
  數(shù)據(jù)挖掘是以某種方式分析數(shù)據(jù)源,從中發(fā)現(xiàn)一些潛在的有用的信息,所以數(shù)據(jù)挖掘又稱為知識發(fā)現(xiàn),而關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中的一個(gè)重要課題,從數(shù)據(jù)背后發(fā)現(xiàn)事物之間存在的關(guān)聯(lián)。如今,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)廣泛應(yīng)用于金融、互聯(lián)網(wǎng)、醫(yī)療等眾多領(lǐng)域,學(xué)者們對于關(guān)聯(lián)規(guī)則挖掘算法的研究熱情更是日益高漲。傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法都默認(rèn)事物具有相同的重要性且分布均勻,但是在實(shí)際的生產(chǎn)和生活中,事物往往都具有不同的重要性且分布不均,因此,本文基于加權(quán)關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行研究。本文在引進(jìn)加權(quán)模型的條件下,主要針對經(jīng)典的FP-growth算法進(jìn)行了改進(jìn),一方面是采用有序FP樹來代替?zhèn)鹘y(tǒng)FP樹,進(jìn)而減少存儲空間的利用;另一方面是采用二維列表記錄項(xiàng)的加權(quán)支持度,省去了在生成加權(quán)條件FP子樹時(shí)對條件模式基的第一次遍歷;陉P(guān)聯(lián)規(guī)則挖掘中要處理的數(shù)據(jù)量越來越大的情況,Hadoop分布式系統(tǒng)架構(gòu)應(yīng)運(yùn)而生,海量數(shù)據(jù)的處理不再是難題。本文采用Hadoop中的Map Reduce并行計(jì)算框架來處理數(shù)據(jù)集,并提出均衡化分組策略,避免了數(shù)據(jù)傾斜的產(chǎn)生,分布式數(shù)據(jù)處理降低了時(shí)間復(fù)雜度,能夠高效地進(jìn)行海量數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘。本文研究了基于ha...

【文章頁數(shù)】:69 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖2-1頻繁模式樹FP-tree第三步,從FP-tree的底端自下而上進(jìn)行挖掘,為項(xiàng)頭表中每個(gè)節(jié)點(diǎn)生成條

圖2-1頻繁模式樹FP-tree第三步,從FP-tree的底端自下而上進(jìn)行挖掘,為項(xiàng)頭表中每個(gè)節(jié)點(diǎn)生成條

第二章相關(guān)理論及技術(shù)研究11第一步,對事務(wù)數(shù)據(jù)庫D進(jìn)行掃描,計(jì)算各項(xiàng)的支持度,將小于最小支持度的項(xiàng)剔除,剩余項(xiàng)按支持度降序排列,若支持度相同時(shí)按字母順序排列,得到頻繁1項(xiàng)集L={A:8,E:7,C:5,G:4,B:2,D:2,F:2}。有序事務(wù)集如表2-4第3列所示。第二步,創(chuàng)建....


圖2-2Hadoop結(jié)構(gòu)框架圖

圖2-2Hadoop結(jié)構(gòu)框架圖

天津工業(yè)大學(xué)碩士學(xué)位論文14同的機(jī)器,然后Reduce函數(shù)將拆分并處理后的數(shù)據(jù)進(jìn)行整合統(tǒng)計(jì),輸出最終結(jié)果。(3)Yarn。Yarn是Hadoop2.x中被引入的核心部件,它是Hadoop的資源管理系統(tǒng)。它可以理解為是一個(gè)“管理平臺”,使Hadoop不僅可以支持MapReduce計(jì)....


圖2-3MapReduce執(zhí)行流程圖

圖2-3MapReduce執(zhí)行流程圖

第二章相關(guān)理論及技術(shù)研究152.3.2并行計(jì)算框架MapReduceMapReduce是我們在進(jìn)行大數(shù)據(jù)處理的時(shí)候經(jīng)常要使用的計(jì)算模型,通過MapReduce很容易在Hadoop平臺上進(jìn)行分布式的計(jì)算編程。MapReduce由兩個(gè)關(guān)鍵性操作構(gòu)成,即Map(映射)與Reduce(歸....


圖2-4WordCount案例MapReduce流程

圖2-4WordCount案例MapReduce流程

天津工業(yè)大學(xué)碩士學(xué)位論文16(4)ShuffleShuffle是介于Map和Reduce過程中間的操作,它需要從所有Map任務(wù)輸出的結(jié)果中篩選鍵值對,將具有相同key的<key,value>對組合在一起發(fā)送到同一個(gè)Reduce任務(wù)中作為輸入。(5)化簡ReduceReduce負(fù)責(zé)....



本文編號:3913929

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3913929.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3546f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請E-mail郵箱bigeng88@qq.com