基于Storm的分布式流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘
發(fā)布時(shí)間:2021-09-18 06:41
流數(shù)據(jù)廣泛存在于傳感器、網(wǎng)絡(luò)通信和互聯(lián)網(wǎng)等領(lǐng)域中,是一組無(wú)序、實(shí)時(shí)到達(dá)、無(wú)界且連續(xù)的數(shù)據(jù)項(xiàng)。流數(shù)據(jù)具有實(shí)時(shí)性、突發(fā)性、無(wú)限性、無(wú)序性以及易失性的特點(diǎn)。流數(shù)據(jù)的特點(diǎn)決定了無(wú)法在數(shù)據(jù)庫(kù)中完全存儲(chǔ)所有的數(shù)據(jù)并且需要實(shí)時(shí)挖掘。因此,有別于傳統(tǒng)的靜態(tài)數(shù)據(jù)挖掘算法,流數(shù)據(jù)挖掘算法需要針對(duì)流數(shù)據(jù)的特點(diǎn)做出改進(jìn)。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘算法的一種,該算法的目的是挖掘兩個(gè)項(xiàng)集之間的內(nèi)在聯(lián)系。現(xiàn)有的流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法FP-Stream運(yùn)行在單個(gè)計(jì)算機(jī)中,性能受限于計(jì)算機(jī)的配置。如今,流數(shù)據(jù)產(chǎn)生的速度日益增長(zhǎng),FP-Stream算法的性能已經(jīng)捉襟見(jiàn)肘。針對(duì)這一問(wèn)題,本文設(shè)計(jì)了分布式流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法FP-Storm。另外,本文基于Storm框架設(shè)計(jì)了分布式流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘框架。最后,為了驗(yàn)證所提算法和框架的可用性,設(shè)計(jì)實(shí)現(xiàn)了基于流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的股票推薦原型系統(tǒng)。本文主要做出了如下工作:(1)為了解決現(xiàn)有流數(shù)據(jù)關(guān)聯(lián)規(guī)則算法性能低下的問(wèn)題,設(shè)計(jì)了分布式流數(shù)據(jù)關(guān)聯(lián)規(guī)則算法FP-Storm。該算法使用滑動(dòng)窗口選取并緩存數(shù)據(jù),將流數(shù)據(jù)轉(zhuǎn)換為批次數(shù)據(jù)進(jìn)行處理。然后使用劃分投影的方法,將批次數(shù)據(jù)劃分到不同的計(jì)...
【文章來(lái)源】:江蘇大學(xué)江蘇省
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
納偽和拒真
圖 3.11 數(shù)據(jù)集部分?jǐn)?shù)據(jù)截圖(1) 精確性實(shí)驗(yàn)分析以對(duì)歷史數(shù)據(jù)的全量挖掘結(jié)果為標(biāo)準(zhǔn),流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法存在著拒真和納偽的情況。流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法的精確性取決于其結(jié)果與全量挖掘結(jié)果的差異程度。實(shí)驗(yàn)使用交通事故數(shù)據(jù)集,使用經(jīng)典的 FP-Growth 算法作為全量挖掘的標(biāo)準(zhǔn)結(jié)果。實(shí)驗(yàn)中分別測(cè)試了最小支持度為 0.7,0.8,0.9,對(duì)應(yīng)潛在最小支持度為 0.5,0.6,0.7,0.8的情況下,頻繁項(xiàng)集挖掘結(jié)果的數(shù)量差異,實(shí)驗(yàn)結(jié)果如表 3.7 所示。表 3.7 算法精確性實(shí)驗(yàn)結(jié)果最小支持度 潛在最小支持度 全量挖掘 流數(shù)據(jù)挖掘0.7 0.5 32767 325100.7 0.6 32767 323160.8 0.6 511 5070.8 0.7 511 5040.9 0.7 31 31
圖 3.12 最小支持度對(duì)運(yùn)行時(shí)間的影響圖 3.13 每秒發(fā)送數(shù)據(jù)量對(duì)運(yùn)行時(shí)間的影響結(jié)果顯示隨著最小支持度的變小,F(xiàn)P-Storm 算法和 FP-Stream
【參考文獻(xiàn)】:
期刊論文
[1]基于關(guān)聯(lián)規(guī)則的艦船故障數(shù)據(jù)定位挖掘算法[J]. 孫繼旋. 艦船科學(xué)技術(shù). 2017(24)
[2]改進(jìn)的Apriori算法在股票聯(lián)動(dòng)中的應(yīng)用[J]. 趙明,羅陽(yáng)星,蔣燦. 信息技術(shù). 2017(07)
[3]基于MapReduce的改進(jìn)的Apriori算法及其應(yīng)用研究[J]. 趙月,任永功,劉洋. 計(jì)算機(jī)科學(xué). 2017(06)
[4]基于前綴項(xiàng)集的Apriori算法改進(jìn)[J]. 于守健,周羿陽(yáng). 計(jì)算機(jī)應(yīng)用與軟件. 2017(02)
[5]基于關(guān)聯(lián)規(guī)則的濫用入侵檢測(cè)系統(tǒng)的研究與實(shí)現(xiàn)[J]. 謝修娟,莫凌飛,朱林. 現(xiàn)代電子技術(shù). 2017(02)
[6]基于Storm的實(shí)時(shí)報(bào)警服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 馬慶祥,劉釗遠(yuǎn). 信息技術(shù). 2016(12)
[7]基于Storm的實(shí)時(shí)用戶日志管理系統(tǒng)[J]. 陳建峽,張?jiān)?曾金懷,程鵬,王鷹適,倪一鳴. 湖北工業(yè)大學(xué)學(xué)報(bào). 2016(05)
[8]基于Spark的PFP-Growth并行算法優(yōu)化實(shí)現(xiàn)[J]. 方向,張功萱. 現(xiàn)代電子技術(shù). 2016(08)
[9]關(guān)聯(lián)規(guī)則在股票分析及預(yù)測(cè)中的應(yīng)用[J]. 戴鐘儀. 新經(jīng)濟(jì). 2016(05)
[10]增量關(guān)聯(lián)規(guī)則挖掘研究綜述[J]. 張步忠,江克勤,張玉州. 小型微型計(jì)算機(jī)系統(tǒng). 2016(01)
碩士論文
[1]基于Storm云平臺(tái)的電網(wǎng)設(shè)備報(bào)警數(shù)據(jù)快速處理的研究[D]. 王銘坤.華北電力大學(xué) 2015
本文編號(hào):3399670
【文章來(lái)源】:江蘇大學(xué)江蘇省
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
納偽和拒真
圖 3.11 數(shù)據(jù)集部分?jǐn)?shù)據(jù)截圖(1) 精確性實(shí)驗(yàn)分析以對(duì)歷史數(shù)據(jù)的全量挖掘結(jié)果為標(biāo)準(zhǔn),流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法存在著拒真和納偽的情況。流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法的精確性取決于其結(jié)果與全量挖掘結(jié)果的差異程度。實(shí)驗(yàn)使用交通事故數(shù)據(jù)集,使用經(jīng)典的 FP-Growth 算法作為全量挖掘的標(biāo)準(zhǔn)結(jié)果。實(shí)驗(yàn)中分別測(cè)試了最小支持度為 0.7,0.8,0.9,對(duì)應(yīng)潛在最小支持度為 0.5,0.6,0.7,0.8的情況下,頻繁項(xiàng)集挖掘結(jié)果的數(shù)量差異,實(shí)驗(yàn)結(jié)果如表 3.7 所示。表 3.7 算法精確性實(shí)驗(yàn)結(jié)果最小支持度 潛在最小支持度 全量挖掘 流數(shù)據(jù)挖掘0.7 0.5 32767 325100.7 0.6 32767 323160.8 0.6 511 5070.8 0.7 511 5040.9 0.7 31 31
圖 3.12 最小支持度對(duì)運(yùn)行時(shí)間的影響圖 3.13 每秒發(fā)送數(shù)據(jù)量對(duì)運(yùn)行時(shí)間的影響結(jié)果顯示隨著最小支持度的變小,F(xiàn)P-Storm 算法和 FP-Stream
【參考文獻(xiàn)】:
期刊論文
[1]基于關(guān)聯(lián)規(guī)則的艦船故障數(shù)據(jù)定位挖掘算法[J]. 孫繼旋. 艦船科學(xué)技術(shù). 2017(24)
[2]改進(jìn)的Apriori算法在股票聯(lián)動(dòng)中的應(yīng)用[J]. 趙明,羅陽(yáng)星,蔣燦. 信息技術(shù). 2017(07)
[3]基于MapReduce的改進(jìn)的Apriori算法及其應(yīng)用研究[J]. 趙月,任永功,劉洋. 計(jì)算機(jī)科學(xué). 2017(06)
[4]基于前綴項(xiàng)集的Apriori算法改進(jìn)[J]. 于守健,周羿陽(yáng). 計(jì)算機(jī)應(yīng)用與軟件. 2017(02)
[5]基于關(guān)聯(lián)規(guī)則的濫用入侵檢測(cè)系統(tǒng)的研究與實(shí)現(xiàn)[J]. 謝修娟,莫凌飛,朱林. 現(xiàn)代電子技術(shù). 2017(02)
[6]基于Storm的實(shí)時(shí)報(bào)警服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 馬慶祥,劉釗遠(yuǎn). 信息技術(shù). 2016(12)
[7]基于Storm的實(shí)時(shí)用戶日志管理系統(tǒng)[J]. 陳建峽,張?jiān)?曾金懷,程鵬,王鷹適,倪一鳴. 湖北工業(yè)大學(xué)學(xué)報(bào). 2016(05)
[8]基于Spark的PFP-Growth并行算法優(yōu)化實(shí)現(xiàn)[J]. 方向,張功萱. 現(xiàn)代電子技術(shù). 2016(08)
[9]關(guān)聯(lián)規(guī)則在股票分析及預(yù)測(cè)中的應(yīng)用[J]. 戴鐘儀. 新經(jīng)濟(jì). 2016(05)
[10]增量關(guān)聯(lián)規(guī)則挖掘研究綜述[J]. 張步忠,江克勤,張玉州. 小型微型計(jì)算機(jī)系統(tǒng). 2016(01)
碩士論文
[1]基于Storm云平臺(tái)的電網(wǎng)設(shè)備報(bào)警數(shù)據(jù)快速處理的研究[D]. 王銘坤.華北電力大學(xué) 2015
本文編號(hào):3399670
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3399670.html
最近更新
教材專著