基于Spark平臺的改進DBSCAN算法研究
發(fā)布時間:2023-05-19 03:05
隨著新時代下信息技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,互聯(lián)網(wǎng)服務(wù)正在影響著人們的生產(chǎn)生活方式,海量的數(shù)據(jù)也隨之產(chǎn)生,這使得利用數(shù)據(jù)挖掘工具從冗雜的原始數(shù)據(jù)中篩選出有價值的信息指導(dǎo)社會生產(chǎn)和生活變得越來越重要。DBSCAN(Density-Based Spatial Clustering of Application with Noise)算法作為應(yīng)用廣泛的密度聚類算法之一,具有能夠發(fā)現(xiàn)任意形狀的簇并且聚類效果不受噪聲點影響等優(yōu)點,是重要的數(shù)據(jù)挖掘方法。然而,該算法也存在一些缺陷:當(dāng)數(shù)據(jù)規(guī)模較大時其對內(nèi)存的需求過高;聚類結(jié)果對輸入?yún)?shù)敏感,算法參數(shù)設(shè)置是其難點之一;此外,面對分布不均勻的數(shù)據(jù)其難以取得較好的聚類效果。針對上述不足之處,本文提出了結(jié)合閃電連接過程優(yōu)化算法(Lightning Attachment Procedure Optimization Algorithm,LAPO)的改進DBSCAN算法,并在新一代大規(guī)模數(shù)據(jù)處理框架Spark下進行算法的并行化策略研究。本文的主要研究內(nèi)容概括如下:(1)提出了一種基于LAPO算法的聚類中心獲取方法。K-means聚類算法具有對數(shù)據(jù)集依賴度高和對初...
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究的背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)概述
2.1 聚類算法相關(guān)概述
2.1.1 聚類分析
2.1.2 聚類算法的類型
2.1.3 聚類算法中的相似度度量方法
2.2 閃電連接過程優(yōu)化算法(LAPO)概述
2.2.1 LAPO算法思想的起源
2.2.2 LAPO算法的原理
2.2.3 LAPO算法的流程
2.3 分布式計算框架相關(guān)技術(shù)概述
2.3.1 HDFS分布式文件系統(tǒng)
2.3.2 Yarn資源管理和任務(wù)調(diào)度器
2.3.3 Spark并行計算框架
2.4 本章小結(jié)
第3章 基于LAPO算法的聚類中心獲取方法
3.1 K-means聚類方法簡介
3.2 基于LAPO算法的聚類中心獲取方法
3.3 實驗驗證和分析
3.3.1 數(shù)據(jù)集及實驗說明
3.3.2 實驗結(jié)果及其分析
3.4 本章小結(jié)
第4章 結(jié)合LAPO的改進DBSCAN算法
4.1 DBSCAN密度聚類算法
4.1.1 算法相關(guān)概念
4.1.2 算法局限性分析
4.2 LAPO-DBSCAN算法
4.2.1 結(jié)合LAPO算法的數(shù)據(jù)空間的劃分
4.2.2 局部聚類
4.2.3 聚類結(jié)果合并
4.3 實驗及其分析
4.3.1 實驗說明
4.3.2 實驗結(jié)果及分析
4.4 本章小結(jié)
第5章 LAPO-DBSCAN算法的并行化
5.1 Spark平臺下的LAPO-DBSCAN算法研究
5.2 Spark平臺的并行算法優(yōu)化
5.3 并行化LAPO-DBSCAN算法實驗及性能分析
5.3.1 實驗說明
5.3.2 實驗結(jié)果及其分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
本文編號:3819529
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 引言
1.1 研究的背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文研究內(nèi)容
1.4 本文組織結(jié)構(gòu)
第2章 相關(guān)概述
2.1 聚類算法相關(guān)概述
2.1.1 聚類分析
2.1.2 聚類算法的類型
2.1.3 聚類算法中的相似度度量方法
2.2 閃電連接過程優(yōu)化算法(LAPO)概述
2.2.1 LAPO算法思想的起源
2.2.2 LAPO算法的原理
2.2.3 LAPO算法的流程
2.3 分布式計算框架相關(guān)技術(shù)概述
2.3.1 HDFS分布式文件系統(tǒng)
2.3.2 Yarn資源管理和任務(wù)調(diào)度器
2.3.3 Spark并行計算框架
2.4 本章小結(jié)
第3章 基于LAPO算法的聚類中心獲取方法
3.1 K-means聚類方法簡介
3.2 基于LAPO算法的聚類中心獲取方法
3.3 實驗驗證和分析
3.3.1 數(shù)據(jù)集及實驗說明
3.3.2 實驗結(jié)果及其分析
3.4 本章小結(jié)
第4章 結(jié)合LAPO的改進DBSCAN算法
4.1 DBSCAN密度聚類算法
4.1.1 算法相關(guān)概念
4.1.2 算法局限性分析
4.2 LAPO-DBSCAN算法
4.2.1 結(jié)合LAPO算法的數(shù)據(jù)空間的劃分
4.2.2 局部聚類
4.2.3 聚類結(jié)果合并
4.3 實驗及其分析
4.3.1 實驗說明
4.3.2 實驗結(jié)果及分析
4.4 本章小結(jié)
第5章 LAPO-DBSCAN算法的并行化
5.1 Spark平臺下的LAPO-DBSCAN算法研究
5.2 Spark平臺的并行算法優(yōu)化
5.3 并行化LAPO-DBSCAN算法實驗及性能分析
5.3.1 實驗說明
5.3.2 實驗結(jié)果及其分析
5.4 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻
致謝
本文編號:3819529
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3819529.html
最近更新
教材專著