天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

基于MapReduce架構(gòu)的并行矩陣Apriori算法

發(fā)布時(shí)間:2020-05-26 12:35
【摘要】:傳統(tǒng)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則Apriori算法直接移植到云計(jì)算平臺(tái),數(shù)據(jù)挖掘效率雖然有了數(shù)量級(jí)的提升,但由于需要頻繁地掃描事務(wù)數(shù)據(jù)庫(kù),增加了系統(tǒng)I/O、內(nèi)存和通信的開銷。提出一種基于矩陣的并行關(guān)聯(lián)規(guī)則算法Apriori_MMR。該算法結(jié)合數(shù)據(jù)劃分的思想進(jìn)行并行化改進(jìn),簡(jiǎn)化了生成候選項(xiàng)的連接步驟,僅需對(duì)事務(wù)數(shù)據(jù)庫(kù)掃描兩次,同時(shí)在計(jì)算過(guò)程中還能對(duì)事務(wù)進(jìn)行壓縮,從而進(jìn)一步提高了算法的性能。通過(guò)兩種算法在不同數(shù)據(jù)規(guī)模下算法性能的對(duì)比分析實(shí)驗(yàn)和兩種算法在相同數(shù)據(jù)集不同節(jié)點(diǎn)數(shù)的對(duì)比實(shí)驗(yàn),共同驗(yàn)證了Apriori_MMR的運(yùn)算效率至少要比Apriori_MR高出兩倍左右,且設(shè)置的支持度閾值越小,效果愈明顯。
【圖文】:

算法


AnrioxiM算法疏程

設(shè)計(jì)流程


1.2HadoopHadoop是一種專門用于實(shí)現(xiàn)大規(guī)模批處理的大數(shù)據(jù)系統(tǒng),是基于當(dāng)下最流行的MapReduce開源實(shí)現(xiàn)的,其突出的一個(gè)特點(diǎn)是數(shù)據(jù)規(guī)模越大(一般為TB或PB級(jí)以上),越適合使用Hadoop大數(shù)據(jù)系統(tǒng)來(lái)進(jìn)行海量數(shù)據(jù)挖掘。文獻(xiàn)[3]通過(guò)分布式并行處理大數(shù)據(jù)節(jié)點(diǎn)性能計(jì)算實(shí)驗(yàn)證明了降低數(shù)據(jù)傳輸時(shí)延,能有效地降低時(shí)延對(duì)處理結(jié)果的影響。文獻(xiàn)[4]通過(guò)實(shí)驗(yàn)得出使用列存儲(chǔ)系統(tǒng)能使海量數(shù)據(jù)具有更大的壓縮比且更易于查詢處理。文獻(xiàn)[5,6]討論了在同一節(jié)點(diǎn)上,且數(shù)據(jù)量保持不變的情況下如何來(lái)降低網(wǎng)絡(luò)I/O的開銷。文獻(xiàn)[7]提出為優(yōu)化磁盤I/O開銷可考慮將數(shù)據(jù)常駐于內(nèi)存這一策略作為解決方案。文獻(xiàn)[8]提出了關(guān)聯(lián)規(guī)則運(yùn)用到數(shù)據(jù)挖掘?qū)崿F(xiàn)分布式并行化處理時(shí),事先將數(shù)據(jù)進(jìn)行劃分是一種很不錯(cuò)的方法。文獻(xiàn)[9]采用FP-Tree的方法來(lái)查找頻繁項(xiàng)集,該方法的優(yōu)點(diǎn)在于只需對(duì)事務(wù)數(shù)據(jù)庫(kù)掃描兩次,并且可以對(duì)數(shù)據(jù)集進(jìn)行壓縮。文獻(xiàn)[10]通過(guò)矩陣分解推薦算法實(shí)驗(yàn)證實(shí)了數(shù)據(jù)在MapReduce架構(gòu)下能獲得更高的加速比。2Apriori_MMR算法2.1并行化策略基于上述的理論研究基礎(chǔ),為進(jìn)一步降低系統(tǒng)I/O、內(nèi)存和通信的消耗,將數(shù)據(jù)劃分的思想引入到Apriori_M,并與Map-Reduce計(jì)算框架結(jié)合對(duì)算法進(jìn)行并行化優(yōu)化(matrixMapRe-duceApriori,Apriori_MMR),改進(jìn)和優(yōu)化頻繁項(xiàng)集產(chǎn)生的過(guò)程,高效獲得所需的關(guān)聯(lián)規(guī)則。矩陣可以看成是行向量的集合。根據(jù)向量的操作規(guī)則,在矩陣中只需要使用“與”操作就可以快速地產(chǎn)生項(xiàng)目集的支持頻度。將D進(jìn)行矩陣化處理,可以有效地減少掃描數(shù)據(jù)庫(kù)的次數(shù)。以矩陣來(lái)計(jì)算事務(wù)數(shù)據(jù)庫(kù)中交易記錄項(xiàng)目集的支持頻度時(shí),僅需向D掃描兩次,,從理論上來(lái)說(shuō)可以極大地優(yōu)化Apriori算法的并行化過(guò)程。2.2算法流程Apriori_MMR算法是基于MapRe

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張玉強(qiáng);于鳳全;金立峰;朱曉飛;;Apriori算法在雷達(dá)故障診斷系統(tǒng)中的應(yīng)用研究[J];電腦知識(shí)與技術(shù);2011年07期

2 李陽(yáng);朱宗勝;;基于優(yōu)化Apriori算法的入侵檢測(cè)系統(tǒng)模型設(shè)計(jì)[J];計(jì)算機(jī)安全;2009年11期

3 王冬秀;胡迎春;李輝;;改進(jìn)的Apriori算法在股票分析中的應(yīng)用研究[J];科技通報(bào);2013年03期

4 高琰;王臺(tái)華;郭帆;余敏;;應(yīng)用非迭代Apriori算法檢測(cè)分布式拒絕服務(wù)攻擊[J];計(jì)算機(jī)應(yīng)用;2011年06期

5 鄭麟;;一種直接生成頻繁項(xiàng)集的分治Apriori算法[J];計(jì)算機(jī)應(yīng)用與軟件;2014年04期

6 陶榮;;基于Apriori算法在學(xué)生信息管理系統(tǒng)中的應(yīng)用與研究[J];計(jì)算機(jī)光盤軟件與應(yīng)用;2012年21期

7 明勇;;基于數(shù)據(jù)挖掘的Apriori算法在入侵檢測(cè)中的應(yīng)用[J];電腦知識(shí)與技術(shù);2005年35期

8 肖桂艷;周滿元;;Apriori算法在基于網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)中的應(yīng)用[J];微計(jì)算機(jī)信息;2010年06期

9 吳昊;李軍國(guó);;一種改進(jìn)的Apriori算法在交通信息化中的應(yīng)用[J];信息化縱橫;2009年08期

10 甘超;陸遠(yuǎn);李娟;胡瑩;;基于Apriori算法的設(shè)備故障診斷技術(shù)的研究[J];組合機(jī)床與自動(dòng)化加工技術(shù);2014年01期

相關(guān)會(huì)議論文 前7條

1 劉擎;劉云濤;羅翌;;關(guān)聯(lián)規(guī)則挖掘Apriori算法在當(dāng)代名老中醫(yī)流感醫(yī)案挖掘中的應(yīng)用及改進(jìn)探討[A];2012中國(guó)中西醫(yī)結(jié)合學(xué)會(huì)急救醫(yī)學(xué)專業(yè)委員會(huì)學(xué)術(shù)年會(huì)論文集[C];2012年

2 陳波;董鵬;邵勇;;基于Apriori算法及其改進(jìn)算法綜述[A];中國(guó)通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

3 張彥;劉偉;;結(jié)合超市數(shù)據(jù)的關(guān)聯(lián)規(guī)則Apriori算法淺析[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)會(huì)議論文集(上冊(cè))[C];2008年

4 楊宗波;宗容;?;彭廣軍;;入侵檢測(cè)中Apriori算法的研究與改進(jìn)[A];2009年研究生學(xué)術(shù)交流會(huì)通信與信息技術(shù)論文集[C];2009年

5 梁昌勇;趙艷霞;;基于RFM分析的銀行信用卡客戶的行為評(píng)分模型——應(yīng)用自組織映射神經(jīng)網(wǎng)絡(luò)SOM和Apriori方法[A];第二屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議(NCIRCS-2005)論文集[C];2005年

6 高明;盛立;劉希玉;;關(guān)聯(lián)規(guī)則挖掘中Apriori算法的一種改進(jìn)[A];山東省計(jì)算機(jī)學(xué)會(huì)2005年信息技術(shù)與信息化研討會(huì)論文集(二)[C];2005年

7 萬(wàn)敏;潘笑;賓誼沅;;利用Apriori算法實(shí)現(xiàn)WEB的個(gè)性化服務(wù)[A];2005通信理論與技術(shù)新進(jìn)展——第十屆全國(guó)青年通信學(xué)術(shù)會(huì)議論文集[C];2005年

相關(guān)碩士學(xué)位論文 前10條

1 趙宏利;改進(jìn)的Apriori算法在大學(xué)生心理分析中的研究[D];華中師范大學(xué);2015年

2 王丹;基于云計(jì)算的關(guān)聯(lián)規(guī)則Apriori算法的研究與實(shí)現(xiàn)[D];南昌大學(xué);2015年

3 楊財(cái)英;Apriori算法及其在學(xué)生成績(jī)分析中的應(yīng)用研究[D];湖南大學(xué);2016年

4 吳博;Apriori算法挖掘技術(shù)在WANO人因數(shù)據(jù)中的應(yīng)用研究[D];南華大學(xué);2016年

5 侯建輝;基于改進(jìn)Apriori算法的名老中醫(yī)治療高血壓病驗(yàn)案挖掘研究[D];山東中醫(yī)藥大學(xué);2016年

6 王達(dá)明;基于云計(jì)算與醫(yī)療大數(shù)據(jù)的Apriori算法的優(yōu)化研究[D];北京郵電大學(xué);2015年

7 楊國(guó)英;泛在網(wǎng)下基于Apriori算法的移動(dòng)群組的位置預(yù)測(cè)[D];南京郵電大學(xué);2013年

8 丁磊;一種改進(jìn)的Apriori算法在手機(jī)評(píng)教系統(tǒng)中的研究[D];華中師范大學(xué);2014年

9 朱惠;關(guān)聯(lián)規(guī)則中Apriori算法的研究與改進(jìn)[D];安徽理工大學(xué);2014年

10 王培吉;基于Apriori算法的關(guān)聯(lián)規(guī)則挖掘及改進(jìn)[D];內(nèi)蒙古大學(xué);2003年



本文編號(hào):2681843

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2681843.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶45feb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com