基于STORM的流數(shù)據(jù)分類挖掘算法的研究
本文選題:流數(shù)據(jù) + 分類挖掘 ; 參考:《南京郵電大學》2016年碩士論文
【摘要】:隨著網(wǎng)絡、傳感器技術的快速發(fā)展與應用,越來越多的流數(shù)據(jù)正在產(chǎn)生,因此針對流數(shù)據(jù)的挖掘技術逐步興起。流數(shù)據(jù)挖掘是指從大規(guī)模、快速到達、異構的數(shù)據(jù)源中有效地挖掘有價值知識的數(shù)據(jù)處理技術。本文把面向流數(shù)據(jù)的分類挖掘算法作為研究重點,以提高流數(shù)據(jù)分類挖掘效率以及分類精度為目標,既研究算法本身的改進又研究算法基于流數(shù)據(jù)處理平臺Storm的分布式并行化。以提高實時在線流數(shù)據(jù)的分類挖掘時間效率為目標,將快速決策樹算法VFDT部署到流數(shù)據(jù)計算平臺Storm上,設計了VFDT算法基于Storm的分布式并行化方案。通過正確設計Topology中的Spout/Bolt實現(xiàn)各模塊的功能,通過為分類Bolt設定多個Task來實現(xiàn)分類模塊的并行化;用內(nèi)存數(shù)據(jù)庫Redis實現(xiàn)模塊的有效銜接和決策樹的保存;用消息中間件Kafka來提高算法對流數(shù)據(jù)突增的容忍度。基于該方案的VFDT算法實現(xiàn)與測試結(jié)果表明,在Storm集群環(huán)境下,VFDT算法的時間效率相對于單機環(huán)境有顯著提高,而且合理設定分類Bolt的Task可使分類效率進一步提高。針對高維數(shù)據(jù)集,以進一步提高在線流數(shù)據(jù)分類模型建立的時間效率為目標,對VFDT算法實施垂直并行化,設計了垂直并行化的快速決策樹算法(Vertical Parallelism Very Fast Decision Tree,VPVFDT)。該算法將VFDT算法的屬性信息增益的計算做并行化處理,從而提高樣本處理效率。在此基礎上,通過將VPVFDT部署到Storm平臺上運行,更進一步提高了算法的處理效率,也增強了算法的可拓展性。實驗結(jié)果表明,在Storm集群環(huán)境下,VPVFDT算法在一定程度上可以提高高維訓練樣本的處理效率。以提高VFDT算法的分類精確度為目標,將隨機森林算法思想集成到VFDT算法中,提出了基于隨機森林的快速決策樹算法(Random Forest Very Fast Decision Tree,RFVFDT)。RFVFDT算法采用隨機森林的決策樹構造標準建立分類器模型,并采用滑動窗口技術來滿足流數(shù)據(jù)的無界性以及避免在算法執(zhí)行過程中的延遲和數(shù)據(jù)丟失。通過基于Storm平臺的仿真實驗驗證了RFVFDT算法在分類精度和可拓展性方面的優(yōu)勢。本文所研究的方案和算法能適應大規(guī)模流數(shù)據(jù)的實時性、快速性和無限性,研究內(nèi)容較先進,研究成果具有一定的理論價值和較好的實用性,可用于電子商務、互聯(lián)網(wǎng)等擁有流數(shù)據(jù)的應用場景。
[Abstract]:With the rapid development and application of network and sensor technology, more and more stream data are being generated. Stream data mining is a kind of data processing technology which can effectively mine valuable knowledge from large scale, fast arriving and heterogeneous data sources. This paper focuses on the classification mining algorithm for stream data, aiming at improving the efficiency and accuracy of stream data classification mining. It not only studies the improvement of the algorithm itself, but also studies the distributed parallelization of the algorithm based on the stream data processing platform Storm. In order to improve the efficiency of classifying and mining real-time online stream data, the fast decision tree algorithm (VFDT) is deployed to the stream data computing platform (Storm), and a distributed parallelization scheme based on Storm is designed for VFDT algorithm. Through the correct design of Spout/Bolt in Topology to realize the function of each module, by setting several Task for classification Bolt to realize the parallelization of classification module, using the memory database Redis to realize the effective connection of module and the preservation of decision tree; The message middleware Kafka is used to improve the tolerance of algorithm convection data burst. The implementation and test results of VFDT algorithm based on this scheme show that the time efficiency of VFDT algorithm in Storm cluster environment is significantly higher than that in single machine environment, and the classification efficiency can be further improved by reasonably setting the Task of classification Bolt. Aiming at high dimensional data sets, aiming at further improving the time efficiency of online data classification model, the vertical parallelization of VFDT algorithm is implemented, and a fast decision tree algorithm, Vertical Parallelism Very Fast Decision tree algorithm, is designed. The algorithm parallelizes the calculation of the attribute information gain of the VFDT algorithm to improve the efficiency of sample processing. On this basis, by deploying VPVFDT to the Storm platform, the processing efficiency of the algorithm is further improved and the expansibility of the algorithm is also enhanced. The experimental results show that the VPVFDT algorithm can improve the processing efficiency of high-dimensional training samples in Storm cluster environment. In order to improve the classification accuracy of VFDT algorithm, the idea of stochastic forest algorithm is integrated into VFDT algorithm. A fast decision tree algorithm based on random forest, Random Forest Very Fast Decision tree algorithm named Random Forest Very Fast Decision tree, is proposed to establish classifier model by using the decision tree construction standard of random forest. The sliding window technique is used to satisfy the unboundedness of the stream data and to avoid the delay and data loss in the execution of the algorithm. Simulation experiments based on Storm platform verify the advantages of RFVFDT algorithm in classification accuracy and scalability. The scheme and algorithm studied in this paper can adapt to the real-time, fast and infinity of large-scale stream data, and the research content is advanced. The research results have certain theoretical value and good practicability, and can be used in electronic commerce. Application scenarios with streaming data, such as the Internet.
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【相似文獻】
相關期刊論文 前10條
1 葛磊;武芳;王鵬波;張冬林;;3維建筑綜合中基于最小特征的面平移算法[J];測繪科學技術學報;2009年02期
2 駱雯,孫延明,陳振威,陳錦昌;判斷點與封閉多邊形相對關系的改進算法[J];機械;1999年03期
3 李林;盧顯良;;一種基于切割映射的規(guī)則沖突消除算法[J];電子學報;2008年02期
4 劉巧玲;張紅英;林茂松;;一種簡單快速的圖像去霧算法[J];計算機應用與軟件;2013年07期
5 林亞平,楊小林;快速概率分析進化算法及其性能研究[J];電子學報;2001年02期
6 章郡鋒;吳曉紅;黃曉強;何小海;;基于暗原色先驗去霧的改進算法[J];電視技術;2013年23期
7 楊鐵軍;靳婷;;一種動態(tài)整周模糊值求解算法及其仿真分析[J];系統(tǒng)工程與電子技術;2007年01期
8 周秀玲;郭平;陳寶維;王靜;;幾種計算超體積算法的比較研究[J];計算機工程;2011年03期
9 吳一戎,胡東輝,彭海良;Chirp Scaling SAR成象算法及其實現(xiàn)[J];電子科學學刊;1995年03期
10 王貴竹;一種產(chǎn)生單向分解值的算法[J];安徽大學學報(自然科學版);2001年03期
相關會議論文 前10條
1 尹冀鋒;;一種新的圖象自適應增強算法[A];四川省通信學會一九九二年學術年會論文集[C];1992年
2 寧春平;田家瑋;郭延輝;王影;張英濤;鄭桂霞;劉研;;計算機輔助增強、分割算法在鑒別乳腺良、惡性腫塊中的應用價值[A];中華醫(yī)學會第十次全國超聲醫(yī)學學術會議論文匯編[C];2009年
3 謝麗聰;;SVB查詢改寫算法的改進[A];第二十一屆中國數(shù)據(jù)庫學術會議論文集(研究報告篇)[C];2004年
4 鄭存紅;;復雜背景下相關跟蹤算法研究及DSP實現(xiàn)[A];中國光學學會2010年光學大會論文集[C];2010年
5 楊文杰;吳軍;;RFID抗沖突算法研究[A];2008通信理論與技術新進展——第十三屆全國青年通信學術會議論文集(上)[C];2008年
6 高山;畢篤彥;魏娜;;一種基于UPF的小目標TBD算法[A];第十四屆全國圖象圖形學學術會議論文集[C];2008年
7 周磊;張衛(wèi)華;王曉奇;張軍;;基于流水算法的智能路障機器人設計[A];2011年全國電子信息技術與應用學術會議論文集[C];2011年
8 潘巍;李戰(zhàn)懷;陳群;索博;李衛(wèi)榜;;面向MapReduce的非對稱分片復制連接算法優(yōu)化技術研究[A];第29屆中國數(shù)據(jù)庫學術會議論文集(B輯)(NDBC2012)[C];2012年
9 李偉偉;蔡康穎;鄭新;王文成;;3D模型中重復結(jié)構的多尺度快速檢測算法[A];第六屆和諧人機環(huán)境聯(lián)合學術會議(HHME2010)、第19屆全國多媒體學術會議(NCMT2010)、第6屆全國人機交互學術會議(CHCI2010)、第5屆全國普適計算學術會議(PCC2010)論文集[C];2010年
10 楊任爾;陳懇;勵金祥;;基于棱邊方向檢測的運動自適應去隔行算法[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
相關重要報紙文章 前1條
1 國泰君安資產(chǎn)管理部;“算法交易”是道指暴跌罪魁禍首?[N];上海證券報;2010年
相關博士學位論文 前10條
1 馮輝;網(wǎng)絡化的并行與分布式優(yōu)化算法研究及應用[D];復旦大學;2013年
2 許玉杰;云計算環(huán)境下海量數(shù)據(jù)的并行聚類算法研究[D];大連海事大學;2014年
3 李琰;基于貓群算法的高光譜遙感森林類型識別研究[D];東北林業(yè)大學;2015年
4 陳加順;海洋環(huán)境下聚類算法的研究[D];南京航空航天大學;2014年
5 王洋;基于群體智能的通信網(wǎng)絡告警關聯(lián)規(guī)則挖掘算法研究[D];太原理工大學;2015年
6 雷雨;面向考試時間表問題的啟發(fā)式進化算法研究[D];西安電子科技大學;2015年
7 熊霖;大數(shù)據(jù)下的數(shù)據(jù)選擇與學習算法研究[D];西安電子科技大學;2015年
8 周雷;基于圖結(jié)構的目標檢測與分割算法研究[D];上海交通大學;2014年
9 王冰;人工蜂群算法的改進及相關應用的研究[D];北京理工大學;2015年
10 蔣亦樟;多視角和遷移學習識別方法和智能建模研究[D];江南大學;2015年
相關碩士學位論文 前10條
1 姚鑫宇;EMD去噪與MUSIC算法在DOA估計中的聯(lián)合應用[D];昆明理工大學;2015年
2 陸進;面向含噪數(shù)據(jù)聚類相關算法的研究[D];復旦大學;2014年
3 葉一舟;紅外弱小目標檢測算法研究[D];上海交通大學;2015年
4 王繼重;基于Hadoop和Mahout的K-Means算法設計與實現(xiàn)[D];大連海事大學;2016年
5 何靜;遙感圖像的快速壓縮算法研究[D];北京交通大學;2016年
6 章華燕;鋼軌擦傷檢測算法研究[D];北京交通大學;2016年
7 王一博;MODIS地震熱異常的數(shù)據(jù)處理與算法研究[D];中國石油大學(華東);2014年
8 成鑫;基于組合優(yōu)化問題的多目標模因算法的研究[D];南京航空航天大學;2015年
9 傅致暉;基于協(xié)同分割的視頻目標分割算法研究[D];上海交通大學;2015年
10 張媛;運動車輛檢測與跟蹤算法的研究與實現(xiàn)[D];大連海事大學;2016年
,本文編號:1832681
本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/1832681.html