基于密度和傾斜時(shí)間窗口的分布式數(shù)據(jù)流聚類算法的研究
發(fā)布時(shí)間:2021-04-22 16:00
目前,股票交易、路況實(shí)時(shí)監(jiān)控和網(wǎng)絡(luò)入侵檢測(cè)等領(lǐng)域產(chǎn)生了海量的、按照時(shí)間持續(xù)到達(dá)的、實(shí)時(shí)動(dòng)態(tài)變化的數(shù)據(jù)流。鑒于數(shù)據(jù)流不同于傳統(tǒng)靜態(tài)數(shù)據(jù)集,因此適合傳統(tǒng)靜態(tài)數(shù)據(jù)集挖掘的聚類算法已不能對(duì)其有效聚類。所以眾多專家根據(jù)數(shù)據(jù)流的特點(diǎn),研發(fā)了許多面向數(shù)據(jù)流的聚類算法。其中,基于密度的數(shù)據(jù)流聚類算法DenStream由于能夠發(fā)現(xiàn)任意形狀簇和有效處理離群點(diǎn),得到廣泛應(yīng)用。但是,該算法既不支持分布式并行計(jì)算,又不支持指定時(shí)間窗口內(nèi)實(shí)時(shí)數(shù)據(jù)流的演化分析,因此需要進(jìn)一步改進(jìn),以提高算法的性能。針對(duì)DenStream算法不支持分布式并行計(jì)算的缺點(diǎn),提出了分布式數(shù)據(jù)流聚類算法D-DenStream,將算法分成微簇初始化、在線微簇維護(hù)和離線聚類三個(gè)步驟執(zhí)行,其中在線微簇維護(hù)包括局部點(diǎn)實(shí)時(shí)更新和全局點(diǎn)合并兩個(gè)階段,在各局部點(diǎn)實(shí)時(shí)并行更新微簇,以實(shí)現(xiàn)分布式并行計(jì)算,在全局點(diǎn)合并微簇,以得到全局微簇。然后為了提高D-DenStream算法的處理效率,將其部署到Storm集群環(huán)境中。最后設(shè)計(jì)對(duì)比實(shí)驗(yàn)驗(yàn)證D-DenStream算法的聚類質(zhì)量和處理效率。實(shí)驗(yàn)結(jié)果表明,D-DenStream算法具有同DenStream算法相近的...
【文章來(lái)源】:山東理工大學(xué)山東省
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文的主要研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 數(shù)據(jù)流挖掘與聚類
2.1 數(shù)據(jù)挖掘與數(shù)據(jù)流挖掘概述
2.1.1 數(shù)據(jù)挖掘
2.1.2 數(shù)據(jù)流模型
2.1.3 數(shù)據(jù)流挖掘
2.1.4 數(shù)據(jù)流挖掘的窗口模型
2.1.5 數(shù)據(jù)流挖掘的實(shí)現(xiàn)技術(shù)
2.2 聚類與數(shù)據(jù)流聚類概述
2.2.1 聚類
2.2.2 聚類算法
2.2.3 數(shù)據(jù)流聚類算法
2.3 基于密度的數(shù)據(jù)流聚類算法DenStream
2.3.1 基本概念與性質(zhì)
2.3.2 DenStream算法描述
2.3.3 DenStream算法的不足
2.4 分布式實(shí)時(shí)計(jì)算系統(tǒng)
2.4.1 分布式實(shí)時(shí)計(jì)算系統(tǒng)介紹
2.4.2 各系統(tǒng)的對(duì)比分析
2.5 本章小結(jié)
第三章 分布式數(shù)據(jù)流聚類算法及其基于STORM的實(shí)現(xiàn)
3.1 分布式數(shù)據(jù)流聚類算法D-DenStream
3.1.1 D-DenStream算法的主要思想
3.1.2 D-DenStream算法描述
3.2 基于Storm的 D-DenStream算法方案設(shè)計(jì)
3.2.1 基于Storm的 D-DenStream算法的關(guān)鍵問(wèn)題
3.2.2 基于Storm的 D-DenStream算法方案設(shè)計(jì)
3.3 實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)環(huán)境
3.3.2 環(huán)境搭建
3.3.3 實(shí)驗(yàn)結(jié)果分析
3.4 本章小結(jié)
第四章 基于傾斜時(shí)間窗口的數(shù)據(jù)流聚類算法
4.1 基于傾斜時(shí)間窗口的數(shù)據(jù)流聚類算法TTW-DenStream
4.1.1 基本概念與性質(zhì)
4.1.2 TTW-DenStream算法的主要思想
4.1.3 TTW-DenStream算法描述
4.2 TTW-DenStream算法的分布式方案設(shè)計(jì)
4.3 基于Storm的分布式TTW-DenStream算法方案設(shè)計(jì)
4.4 實(shí)驗(yàn)與結(jié)果分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 ElasticSearch環(huán)境搭建
4.4.3 實(shí)驗(yàn)結(jié)果分析
4.5 TTW-DenStream算法在載客熱點(diǎn)分析中的應(yīng)用
4.6 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文小結(jié)
5.2 未來(lái)展望
參考文獻(xiàn)
在讀期間公開(kāi)發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于降維和支持向量機(jī)的醫(yī)學(xué)診斷[J]. 張蕾,何萍,榮靜. 計(jì)算機(jī)時(shí)代. 2018(11)
[2]關(guān)聯(lián)規(guī)則挖掘及其在銀行金融服務(wù)中的應(yīng)用研究[J]. 王培靜,趙乃萱,王培吉. 時(shí)代金融. 2018(29)
[3]一種改進(jìn)的K-means算法[J]. 尹寶勇,吳斌,劉建生. 江西理工大學(xué)學(xué)報(bào). 2018(05)
[4]聚類算法綜述[J]. 王玉晗,羅鄧三郎. 科技資訊. 2018(24)
[5]聚類算法及其在護(hù)理管理中的應(yīng)用研究[J]. 降惠. 軟件工程. 2018(03)
[6]改進(jìn)的DBSCAN聚類和LAOF兩階段混合數(shù)據(jù)離群點(diǎn)檢測(cè)方法[J]. 石鴻雁,馬曉娟. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[7]一種多維多粒度用戶興趣模型研究[J]. 陳輝. 小型微型計(jì)算機(jī)系統(tǒng). 2017(12)
[8]基于關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)挖掘技術(shù)分析與研究[J]. 池云. 電腦編程技巧與維護(hù). 2017(21)
[9]數(shù)據(jù)挖掘中的分類算法綜述[J]. 魏茂勝. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2017(06)
[10]聚類算法研究綜述[J]. 陳新泉,周靈晶,劉耀中. 集成技術(shù). 2017(03)
博士論文
[1]數(shù)據(jù)流聚類算法研究[D]. 萬(wàn)仁霞.東華大學(xué) 2010
[2]數(shù)據(jù)流挖掘若干關(guān)鍵技術(shù)研究[D]. 吳楓.國(guó)防科學(xué)技術(shù)大學(xué) 2009
[3]流數(shù)據(jù)的頻繁項(xiàng)挖掘及聚類的關(guān)鍵技術(shù)研究[D]. 屠莉.南京航空航天大學(xué) 2009
碩士論文
[1]基于密度的數(shù)據(jù)流聚類算法研究[D]. 李省委.西安電子科技大學(xué) 2017
[2]基于出租汽車軌跡數(shù)據(jù)的城市載客熱點(diǎn)區(qū)域挖掘發(fā)現(xiàn)及空間活動(dòng)特征研究[D]. 趙玲.長(zhǎng)安大學(xué) 2017
[3]分布式流處理關(guān)鍵技術(shù)研究與應(yīng)用[D]. 熊俊杰.電子科技大學(xué) 2017
[4]基于大數(shù)據(jù)Hadoop平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究[D]. 王鄭委.北京交通大學(xué) 2016
[5]基于云計(jì)算的出租車軌跡數(shù)據(jù)挖掘研究[D]. 張博.西安電子科技大學(xué) 2014
[6]基于空間聚類和Weka平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究[D]. 劉盼盼.吉林大學(xué) 2014
[7]基于熱點(diǎn)載客區(qū)域的出租車應(yīng)急調(diào)度方案研究[D]. 溫雅靜.北京交通大學(xué) 2014
[8]數(shù)據(jù)流挖掘算法研究[D]. 何相志.電子科技大學(xué) 2008
本文編號(hào):3154059
【文章來(lái)源】:山東理工大學(xué)山東省
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文的主要研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第二章 數(shù)據(jù)流挖掘與聚類
2.1 數(shù)據(jù)挖掘與數(shù)據(jù)流挖掘概述
2.1.1 數(shù)據(jù)挖掘
2.1.2 數(shù)據(jù)流模型
2.1.3 數(shù)據(jù)流挖掘
2.1.4 數(shù)據(jù)流挖掘的窗口模型
2.1.5 數(shù)據(jù)流挖掘的實(shí)現(xiàn)技術(shù)
2.2 聚類與數(shù)據(jù)流聚類概述
2.2.1 聚類
2.2.2 聚類算法
2.2.3 數(shù)據(jù)流聚類算法
2.3 基于密度的數(shù)據(jù)流聚類算法DenStream
2.3.1 基本概念與性質(zhì)
2.3.2 DenStream算法描述
2.3.3 DenStream算法的不足
2.4 分布式實(shí)時(shí)計(jì)算系統(tǒng)
2.4.1 分布式實(shí)時(shí)計(jì)算系統(tǒng)介紹
2.4.2 各系統(tǒng)的對(duì)比分析
2.5 本章小結(jié)
第三章 分布式數(shù)據(jù)流聚類算法及其基于STORM的實(shí)現(xiàn)
3.1 分布式數(shù)據(jù)流聚類算法D-DenStream
3.1.1 D-DenStream算法的主要思想
3.1.2 D-DenStream算法描述
3.2 基于Storm的 D-DenStream算法方案設(shè)計(jì)
3.2.1 基于Storm的 D-DenStream算法的關(guān)鍵問(wèn)題
3.2.2 基于Storm的 D-DenStream算法方案設(shè)計(jì)
3.3 實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)環(huán)境
3.3.2 環(huán)境搭建
3.3.3 實(shí)驗(yàn)結(jié)果分析
3.4 本章小結(jié)
第四章 基于傾斜時(shí)間窗口的數(shù)據(jù)流聚類算法
4.1 基于傾斜時(shí)間窗口的數(shù)據(jù)流聚類算法TTW-DenStream
4.1.1 基本概念與性質(zhì)
4.1.2 TTW-DenStream算法的主要思想
4.1.3 TTW-DenStream算法描述
4.2 TTW-DenStream算法的分布式方案設(shè)計(jì)
4.3 基于Storm的分布式TTW-DenStream算法方案設(shè)計(jì)
4.4 實(shí)驗(yàn)與結(jié)果分析
4.4.1 實(shí)驗(yàn)環(huán)境
4.4.2 ElasticSearch環(huán)境搭建
4.4.3 實(shí)驗(yàn)結(jié)果分析
4.5 TTW-DenStream算法在載客熱點(diǎn)分析中的應(yīng)用
4.6 本章小結(jié)
第五章 總結(jié)與展望
5.1 本文小結(jié)
5.2 未來(lái)展望
參考文獻(xiàn)
在讀期間公開(kāi)發(fā)表的論文
致謝
【參考文獻(xiàn)】:
期刊論文
[1]基于降維和支持向量機(jī)的醫(yī)學(xué)診斷[J]. 張蕾,何萍,榮靜. 計(jì)算機(jī)時(shí)代. 2018(11)
[2]關(guān)聯(lián)規(guī)則挖掘及其在銀行金融服務(wù)中的應(yīng)用研究[J]. 王培靜,趙乃萱,王培吉. 時(shí)代金融. 2018(29)
[3]一種改進(jìn)的K-means算法[J]. 尹寶勇,吳斌,劉建生. 江西理工大學(xué)學(xué)報(bào). 2018(05)
[4]聚類算法綜述[J]. 王玉晗,羅鄧三郎. 科技資訊. 2018(24)
[5]聚類算法及其在護(hù)理管理中的應(yīng)用研究[J]. 降惠. 軟件工程. 2018(03)
[6]改進(jìn)的DBSCAN聚類和LAOF兩階段混合數(shù)據(jù)離群點(diǎn)檢測(cè)方法[J]. 石鴻雁,馬曉娟. 小型微型計(jì)算機(jī)系統(tǒng). 2018(01)
[7]一種多維多粒度用戶興趣模型研究[J]. 陳輝. 小型微型計(jì)算機(jī)系統(tǒng). 2017(12)
[8]基于關(guān)聯(lián)規(guī)則算法的數(shù)據(jù)挖掘技術(shù)分析與研究[J]. 池云. 電腦編程技巧與維護(hù). 2017(21)
[9]數(shù)據(jù)挖掘中的分類算法綜述[J]. 魏茂勝. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2017(06)
[10]聚類算法研究綜述[J]. 陳新泉,周靈晶,劉耀中. 集成技術(shù). 2017(03)
博士論文
[1]數(shù)據(jù)流聚類算法研究[D]. 萬(wàn)仁霞.東華大學(xué) 2010
[2]數(shù)據(jù)流挖掘若干關(guān)鍵技術(shù)研究[D]. 吳楓.國(guó)防科學(xué)技術(shù)大學(xué) 2009
[3]流數(shù)據(jù)的頻繁項(xiàng)挖掘及聚類的關(guān)鍵技術(shù)研究[D]. 屠莉.南京航空航天大學(xué) 2009
碩士論文
[1]基于密度的數(shù)據(jù)流聚類算法研究[D]. 李省委.西安電子科技大學(xué) 2017
[2]基于出租汽車軌跡數(shù)據(jù)的城市載客熱點(diǎn)區(qū)域挖掘發(fā)現(xiàn)及空間活動(dòng)特征研究[D]. 趙玲.長(zhǎng)安大學(xué) 2017
[3]分布式流處理關(guān)鍵技術(shù)研究與應(yīng)用[D]. 熊俊杰.電子科技大學(xué) 2017
[4]基于大數(shù)據(jù)Hadoop平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究[D]. 王鄭委.北京交通大學(xué) 2016
[5]基于云計(jì)算的出租車軌跡數(shù)據(jù)挖掘研究[D]. 張博.西安電子科技大學(xué) 2014
[6]基于空間聚類和Weka平臺(tái)的出租車載客熱點(diǎn)區(qū)域挖掘研究[D]. 劉盼盼.吉林大學(xué) 2014
[7]基于熱點(diǎn)載客區(qū)域的出租車應(yīng)急調(diào)度方案研究[D]. 溫雅靜.北京交通大學(xué) 2014
[8]數(shù)據(jù)流挖掘算法研究[D]. 何相志.電子科技大學(xué) 2008
本文編號(hào):3154059
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3154059.html
最近更新
教材專著