天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 管理論文 > 營(yíng)銷論文 >

基于Spark的聚類算法實(shí)現(xiàn)與應(yīng)用

發(fā)布時(shí)間:2025-01-04 03:25
  近年來(lái),如何在數(shù)據(jù)汪洋中高效挖掘出具有潛在價(jià)值的信息一直是數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的研究熱點(diǎn)。聚類分析是數(shù)據(jù)挖掘研究領(lǐng)域中的熱門研究課題之一,DBSCAN算法是聚類分析中較為重要的一種基于密度的算法,具有速度快、有效處理“噪聲”點(diǎn)和發(fā)現(xiàn)任意形狀的簇等優(yōu)點(diǎn),但是面對(duì)大數(shù)據(jù)的挖掘,其時(shí)效性不夠好。Apache Spark是當(dāng)今主流的大數(shù)據(jù)處理框架,它對(duì)廣泛使用的MapReduce計(jì)算模型進(jìn)行了擴(kuò)展,提供了基于內(nèi)存的并行計(jì)算框架,通過(guò)將中間結(jié)果緩存在內(nèi)存中減少了磁盤I/O操作,能夠更高效的支持交互式查詢、迭代式計(jì)算等多種計(jì)算需求。為了提高DBSCAN算法對(duì)大數(shù)據(jù)的聚類挖掘效率,本文對(duì)如何在Spark平臺(tái)上高效地運(yùn)行DBSCAN算法進(jìn)行了研究,設(shè)計(jì)了基于Spark的DBSCAN算法并行化方案。該方案通過(guò)合理利用RDD和設(shè)計(jì)Sample算子、map函數(shù)、collectAsMap算子、reduceByKey算子,實(shí)現(xiàn)了對(duì)尋找核心對(duì)象的密度可達(dá)數(shù)據(jù)點(diǎn)的過(guò)程的并行化;在Spark平臺(tái)上運(yùn)用并行化DBSCAN算法對(duì)UCI的Wine數(shù)據(jù)集、Car Evaluation數(shù)據(jù)集和Adult數(shù)據(jù)集的聚類結(jié)果表明,并行化...

【文章頁(yè)數(shù)】:57 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2.1Hadoop生態(tài)系統(tǒng)

圖2.1Hadoop生態(tài)系統(tǒng)

.4.1Hadoop計(jì)算框架分析(1)Hadoop概況Hadoop是由Apache基金會(huì)受GoogleLab的Map/Reduce和GFS(GoogleFileSyste啟發(fā)所開(kāi)發(fā)的,允許用戶在事先不了解分布式底層詳細(xì)結(jié)構(gòu)的基礎(chǔ)上開(kāi)發(fā)分布式應(yīng)用程以通過(guò)....


圖2.2Spark計(jì)算模型

圖2.2Spark計(jì)算模型

是多個(gè)dataset片段,它們分別運(yùn)行在不同的集群節(jié)點(diǎn)上可被同時(shí)并行處理。實(shí)際上Spark并行框架計(jì)算流程就是通過(guò)待處理數(shù)據(jù)創(chuàng)建RDD、轉(zhuǎn)化成新的RDD和調(diào)用RDD行動(dòng)操作求值得到結(jié)果[47]。RDD支持兩種操作類型:轉(zhuǎn)化(transformation)和行動(dòng)....


圖3.1核心對(duì)象示例

圖3.1核心對(duì)象示例

高密度相連的點(diǎn)的最大集合。該算法能夠?qū)⒏呙茉肼暋钡臄?shù)據(jù)集中識(shí)別出任意形狀的聚類[51]。對(duì)于引,DBSCAN的計(jì)算復(fù)雜度是O(nlogn);否則其到的定義如下:以x為圓心的半徑Eps內(nèi)的球形區(qū)域稱為該點(diǎn)x意一點(diǎn)x的Eps鄰域內(nèi)包含大于或等于最小數(shù)目3.....


圖3.2密度連接示例

圖3.2密度連接示例

專業(yè)學(xué)位碩士研究生學(xué)位論文第三章基于Spark的密度聚類算法并行直接密度可達(dá)數(shù)據(jù)集D,如果點(diǎn)y在點(diǎn)x的Eps鄰域中而且點(diǎn)x是核心對(duì)象,則稱點(diǎn)yEps和MinPts直接密度可達(dá)的[52]。密度可達(dá)半徑Eps和MinPts的數(shù)據(jù)集D中,存....



本文編號(hào):4022834

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/4022834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e263a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com