天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

面向流數(shù)據(jù)的決策樹(shù)分類算法并行化

發(fā)布時(shí)間:2019-02-11 10:23
【摘要】:隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,流數(shù)據(jù)作為一種新型的大數(shù)據(jù)形態(tài)廣泛存在于電信、互聯(lián)網(wǎng)、金融等領(lǐng)域.與傳統(tǒng)靜態(tài)數(shù)據(jù)相比,大數(shù)據(jù)環(huán)境下的流數(shù)據(jù)具有快速、連續(xù)和隨時(shí)間變化等特點(diǎn).同時(shí)數(shù)據(jù)流的隱含分布變化會(huì)帶來(lái)概念漂移問(wèn)題.為了適應(yīng)大數(shù)據(jù)環(huán)境下流數(shù)據(jù)分類算法的要求,必須對(duì)傳統(tǒng)的靜態(tài)離線數(shù)據(jù)分類算法進(jìn)行改進(jìn),提出基于分布式計(jì)算平臺(tái)Storm的P-HT并行化算法.算法在滿足Storm流處理平臺(tái)要求基礎(chǔ)上,通過(guò)滑動(dòng)窗口機(jī)制、替代子樹(shù)機(jī)制和并行化處理,提高了算法的靈活性和通用性,并且能良好地適應(yīng)數(shù)據(jù)流的概念漂移.最后通過(guò)實(shí)驗(yàn)驗(yàn)證該算法的有效性和高效性,結(jié)果表明在與傳統(tǒng)C4.5算法相比精度沒(méi)有降低的情況下,改進(jìn)的P-HT算法具有更大的吞吐量和更快的處理速度.
[Abstract]:With the rise of cloud computing, Internet of things and other technologies, streaming data as a new form of big data widely exists in telecommunications, Internet, finance and other fields. Compared with the traditional static data, the streaming data in big data environment is fast, continuous and time-varying. At the same time, the change of the implicit distribution of data flow will bring about the concept drift problem. In order to meet the requirements of stream data classification algorithm under big data environment, the traditional static off-line data classification algorithm must be improved, and a P-HT parallelization algorithm based on distributed computing platform Storm is proposed. On the basis of satisfying the requirements of Storm flow processing platform, the algorithm improves the flexibility and generality of the algorithm by sliding window mechanism, replacing subtree mechanism and parallelization processing, and can adapt to the conceptual drift of data flow well. Finally, the effectiveness and efficiency of the proposed algorithm are verified by experiments. The results show that the improved P-HT algorithm has higher throughput and faster processing speed than the traditional C4.5 algorithm.
【作者單位】: 南京郵電大學(xué)計(jì)算機(jī)學(xué)院;江蘇省無(wú)線傳感網(wǎng)高技術(shù)研究重點(diǎn)實(shí)驗(yàn)室(南京郵電大學(xué));南京郵電大學(xué)先進(jìn)技術(shù)研究院;高維信息智能感知與系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室(南京理工大學(xué));
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61170065) 江蘇省自然科學(xué)基金優(yōu)秀青年基金項(xiàng)目(BK20170100) 國(guó)家重點(diǎn)研發(fā)計(jì)劃(2017YFB0202200) 江蘇省重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(BE2017166)~~
【分類號(hào)】:TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 宋馳,劉國(guó)華;流數(shù)據(jù)技術(shù)及其應(yīng)用現(xiàn)狀[J];燕山大學(xué)學(xué)報(bào);2005年02期

2 金澈清,錢衛(wèi)寧,周傲英;流數(shù)據(jù)分析與管理綜述[J];軟件學(xué)報(bào);2004年08期

3 聶國(guó)梁;盧正鼎;;流數(shù)據(jù)實(shí)時(shí)近似求和的算法研究[J];小型微型計(jì)算機(jī)系統(tǒng);2005年10期

4 李衛(wèi)民;于守健;駱軼姝;樂(lè)嘉錦;;流數(shù)據(jù)管理的降載技術(shù):研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2007年06期

5 李子杰;鄭誠(chéng);;流數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存儲(chǔ)及管理方法比較研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2009年04期

6 潘靜;于宏偉;;流數(shù)據(jù)管理降載技術(shù)研究綜述[J];中國(guó)管理信息化;2009年21期

7 鄒永貴;龔海平;夏英;宋強(qiáng);;一種面向流數(shù)據(jù)頻繁項(xiàng)挖掘的降載策略[J];計(jì)算機(jī)應(yīng)用研究;2011年04期

8 聶國(guó)梁;盧正鼎;聶國(guó)棟;;流數(shù)據(jù)近似統(tǒng)計(jì)算法研究[J];計(jì)算機(jī)科學(xué);2005年04期

9 魏晶晶;金培權(quán);龔育昌;岳麗華;;基于流數(shù)據(jù)的大對(duì)象數(shù)據(jù)緩沖機(jī)制[J];計(jì)算機(jī)工程;2006年11期

10 楊立;;基于權(quán)重的流數(shù)據(jù)頻繁項(xiàng)挖掘算法的應(yīng)用[J];微型機(jī)與應(yīng)用;2011年02期

相關(guān)會(huì)議論文 前3條

1 劉正濤;毛宇光;吳莊;;一種新的流數(shù)據(jù)模型及其擴(kuò)展[A];第二十二屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年

2 姚春芬;陳紅;;分布偏斜的流數(shù)據(jù)上的一種直方圖維護(hù)算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年

3 孫煥良;趙法信;鮑玉斌;于戈;王大玲;;CD-Stream——一種基于空間劃分的流數(shù)據(jù)密度聚類算法[A];第二十一屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年

相關(guān)博士學(xué)位論文 前6條

1 于程程;面向評(píng)測(cè)基準(zhǔn)的社交流數(shù)據(jù)生成[D];華東師范大學(xué);2016年

2 聶國(guó)梁;流數(shù)據(jù)統(tǒng)計(jì)算法研究[D];華中科技大學(xué);2006年

3 劉建偉;流數(shù)據(jù)查詢系統(tǒng)結(jié)構(gòu)及模式查詢算法的研究[D];東華大學(xué);2005年

4 丁智國(guó);流數(shù)據(jù)在線異常檢測(cè)方法研究[D];上海大學(xué);2015年

5 李衛(wèi)民;流數(shù)據(jù)查詢算法若干關(guān)鍵技術(shù)研究[D];東華大學(xué);2008年

6 屠莉;流數(shù)據(jù)的頻繁項(xiàng)挖掘及聚類的關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2009年

相關(guān)碩士學(xué)位論文 前10條

1 王晨陽(yáng);支持位置謂詞的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年

2 王中義;基于動(dòng)態(tài)支持度的流數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘[D];哈爾濱工業(yè)大學(xué);2014年

3 趙丹;面向流數(shù)據(jù)的不平衡樣本分類研究[D];哈爾濱工業(yè)大學(xué);2014年

4 馮學(xué)智;基于宏森林自動(dòng)機(jī)的XML流數(shù)據(jù)查詢技術(shù)[D];北京工業(yè)大學(xué);2015年

5 徐靂靂;物流數(shù)據(jù)中的云聚類調(diào)度算法研究[D];南京郵電大學(xué);2015年

6 肖丙賢;大規(guī)模流數(shù)據(jù)聚集查詢服務(wù)的生成與優(yōu)化[D];北方工業(yè)大學(xué);2016年

7 劉曉斐;分布式流處理系統(tǒng)操作共享優(yōu)化算法研究[D];吉林大學(xué);2016年

8 張媛;基于彈性分布式數(shù)據(jù)集的流數(shù)據(jù)聚類分析[D];華東師范大學(xué);2016年

9 王曾亦;基于內(nèi)存計(jì)算的流數(shù)據(jù)處理在飛行大數(shù)據(jù)的研究與應(yīng)用[D];電子科技大學(xué);2016年

10 馬可;基于Storm的流數(shù)據(jù)聚類挖掘算法的研究[D];南京郵電大學(xué);2016年

,

本文編號(hào):2419641

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2419641.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶598f6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com