基于Spark平臺(tái)的CURE算法并行化設(shè)計(jì)與應(yīng)用
本文關(guān)鍵詞:基于Spark平臺(tái)的CURE算法并行化設(shè)計(jì)與應(yīng)用,由筆耕文化傳播整理發(fā)布。
《華南理工大學(xué)》 2014年
基于Spark平臺(tái)的CURE算法并行化設(shè)計(jì)與應(yīng)用
邱榮財(cái)
【摘要】:近年來,云計(jì)算的研究,相應(yīng)地興起了大數(shù)據(jù)處理平臺(tái)的研究,Hadoop的誕生讓人們從MPI(Message Passing Interface)轉(zhuǎn)向了MapReduce計(jì)算模型的研究。Spark平臺(tái)通過引入RDD(Resilient Distributed Datasets)模型大大提高了其處理速度,使其在交互式計(jì)算和迭代計(jì)算方面遠(yuǎn)勝于Hadoop,擅長迭代計(jì)算的優(yōu)勢使得Spark處理平臺(tái)非常有利于成為大數(shù)據(jù)的數(shù)據(jù)挖掘利器。大數(shù)據(jù)的核心處理之一就是數(shù)據(jù)挖掘,而處理要求也高,Spark的出現(xiàn)正是迎合了廣大企業(yè)、學(xué)者的需求。聚類算法是數(shù)據(jù)挖掘中的一個(gè)重要部分,而如今Spark平臺(tái)對聚類算法的支持只有K-means,鑒于該算法只適用于球形數(shù)據(jù)集,因此在Spark上實(shí)現(xiàn)對任意數(shù)據(jù)集都能夠聚類的聚類算法很有必要。聚類算法中CURE算法具有很好的聚類效果,而且適用于任意數(shù)據(jù)集,但其復(fù)雜度較高,因此在Spark上實(shí)現(xiàn)對CURE算法的并行化可以提高聚類效率,使得聚類算法能夠在大數(shù)據(jù)處理平臺(tái)得以豐富起來。目前,智能移動(dòng)設(shè)備引領(lǐng)的移動(dòng)互聯(lián)網(wǎng)非常火熱,全球各企業(yè)無不對其密切關(guān)注,抓住移動(dòng)市場就是抓住了關(guān)鍵的商機(jī),因此非常有必要對移動(dòng)互聯(lián)網(wǎng)用戶的數(shù)據(jù)進(jìn)行挖掘,以便對移動(dòng)用戶提供個(gè)性化營銷和業(yè)務(wù)推薦,留住用戶為企業(yè)帶來利益。 鑒于目前國內(nèi)外對Spark平臺(tái)上的聚類算法實(shí)現(xiàn)研究甚少以及前文等原因,本文將在Spark上研究CURE算法的并行化實(shí)現(xiàn)及其應(yīng)用。本文首先對Spark平臺(tái)做了詳細(xì)的分析,同時(shí)對數(shù)據(jù)挖掘算法進(jìn)行了分析和總結(jié)。其次,本文將聚類算法中的CURE算法進(jìn)行了改進(jìn),提出了具有分散式代表點(diǎn)選擇算法選擇代表點(diǎn)的ACURE算法,使得選擇的代表點(diǎn)比原有的CURE算法更加的分散,進(jìn)一步改善了聚類效果。然后在Spark平臺(tái)上進(jìn)行了ACURE算法的數(shù)據(jù)并行和任務(wù)并行的并行化實(shí)現(xiàn)研究,并比較了兩種并行模式的不同,得出了兩者不可同時(shí)并行化、采取數(shù)據(jù)并行化更有優(yōu)勢的結(jié)論,同時(shí)比較了數(shù)據(jù)并行時(shí),分區(qū)對ACURE算法的影響,并且比較了單機(jī)處理和Spark并行化處理的性能。然后將基于Spark的ACURE算法應(yīng)用在移動(dòng)互聯(lián)網(wǎng)大數(shù)據(jù)的數(shù)據(jù)挖掘中,對移動(dòng)互聯(lián)網(wǎng)用戶的上網(wǎng)行為的聚類結(jié)果和K-means的聚類結(jié)果進(jìn)行了對比,得出了ACURE算法在聚類效果上更符合實(shí)際的結(jié)論,最后對移動(dòng)互聯(lián)網(wǎng)用戶數(shù)據(jù)在時(shí)間、興趣、消費(fèi)水平等方面進(jìn)行了深入的挖掘,為個(gè)性化推薦提供了豐富的用戶內(nèi)容。
【關(guān)鍵詞】:
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP311.13
【目錄】:
下載全文 更多同類文獻(xiàn)
CAJ全文下載
(如何獲取全文? 歡迎:購買知網(wǎng)充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前4條
1 倪維健;黃亞樓;李飛;劉賞;;一種基于加權(quán)多代表點(diǎn)的層次聚類算法[J];計(jì)算機(jī)科學(xué);2005年05期
2 曹澤文;周姚;;基于MapReduce的JP算法設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2012年24期
3 王民;尹超;王稚慧;要趁紅;高婧;;Binary-Positive下的并行化CURE算法[J];計(jì)算機(jī)工程與應(yīng)用;2014年11期
4 張佩云;陳恩紅;黃波;;基于社會(huì)網(wǎng)絡(luò)面向個(gè)性化需求的可信服務(wù)推薦[J];通信學(xué)報(bào);2013年12期
【共引文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 何文德;楊鳳年;劉光燦;;無線傳感器網(wǎng)絡(luò)在文物保護(hù)中的應(yīng)用[J];安防科技;2007年07期
2 劉海波;鄒濤;翁哲;;無線傳感器網(wǎng)絡(luò)在執(zhí)勤槍械定位中的應(yīng)用[J];安防科技;2009年09期
3 張開風(fēng);胡艷軍;許耀華;姜新紅;仇樂樂;王?;高韋;丁勝建;;WSN與GPRS結(jié)合的遠(yuǎn)程圖像等數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年04期
4 林麗萍;;無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)的研究與應(yīng)用[J];安徽職業(yè)技術(shù)學(xué)院學(xué)報(bào);2010年04期
5 余華;孫艷紅;車銀超;郭玉峰;;無線傳感器網(wǎng)絡(luò)在現(xiàn)代農(nóng)業(yè)中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2010年04期
6 余華;呂寧波;;基于無線傳感器網(wǎng)絡(luò)的農(nóng)田信息管理系統(tǒng)的研究[J];安徽農(nóng)業(yè)科學(xué);2010年32期
7 范書平;高巍;馬寶英;;一種無線溫度傳感器網(wǎng)絡(luò)中節(jié)能的路由協(xié)議[J];安徽農(nóng)業(yè)科學(xué);2011年02期
8 楊治秋;柴寶杰;;無線傳感器網(wǎng)絡(luò)在農(nóng)業(yè)信息監(jiān)控系統(tǒng)中的應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2011年35期
9 歸奕紅;;無線傳感網(wǎng)應(yīng)用于設(shè)施農(nóng)業(yè)的節(jié)能方案研究[J];安徽農(nóng)業(yè)科學(xué);2012年02期
10 秦玉偉;彭燕;;能量非均衡節(jié)點(diǎn)在無線傳感網(wǎng)絡(luò)立體空間的LEACH路由研究[J];安徽農(nóng)業(yè)科學(xué);2012年03期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前10條
1 張維勇;張芬;馬學(xué)森;;基于IEEE802.15.4的一種分簇算法研究[A];第二十六屆中國控制會(huì)議論文集[C];2007年
2 石為人;張陽;鄧鵬程;;傳感器網(wǎng)絡(luò)局部時(shí)間同步協(xié)議研究[A];第二十六屆中國控制會(huì)議論文集[C];2007年
3 劉增力;李雯霏;龍華;朵琳;;能量相關(guān)DSR協(xié)議OPNET仿真及性能分析[A];第二十七屆中國控制會(huì)議論文集[C];2008年
4 羅旭;柴利;楊君;;無線傳感器網(wǎng)絡(luò)TTSL迭代定位算法[A];第二十九屆中國控制會(huì)議論文集[C];2010年
5 任玲;唐昊;周雷;魏振春;;一種能量高效的無線傳感器網(wǎng)絡(luò)自適應(yīng)傳輸方法[A];中國自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)B卷[C];2011年
6 何堅(jiān);方康玲;李曉卉;韓維;;基于無線傳感器網(wǎng)絡(luò)的涉密載體智能監(jiān)管系統(tǒng)研究[A];中國自動(dòng)化學(xué)會(huì)控制理論專業(yè)委員會(huì)D卷[C];2011年
7 陳傳友;張?jiān)阼?;基于ADF7020-1的無線收發(fā)模塊的設(shè)計(jì)與實(shí)現(xiàn)[A];2011年通信與信息技術(shù)新進(jìn)展——第八屆中國通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2011年
8 丁飛;馬小鐵;;LEACH協(xié)議在群體生理參數(shù)采集中的實(shí)現(xiàn)[A];第九屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集Ⅱ[C];2011年
9 于亮亮;劉剛;王俊;;基于IEEE802.15.4的溫室環(huán)境信息采集系統(tǒng)[A];中國農(nóng)業(yè)工程學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
10 謝宇博;劉剛;王俊;于亮亮;;基于PDA的溫室環(huán)境信息管理系統(tǒng)的研究與開發(fā)[A];中國農(nóng)業(yè)工程學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 王蕊;無線傳感器網(wǎng)絡(luò)部署與拓?fù)淇刂蒲芯縖D];哈爾濱工程大學(xué);2009年
2 孫玉婷;基于柱形換能器的水下傳感器網(wǎng)絡(luò)組網(wǎng)協(xié)議研究[D];中國海洋大學(xué);2009年
3 羅漢江;海洋監(jiān)測傳感器網(wǎng)絡(luò)關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2010年
4 郭瑛;基于事件觸發(fā)的無線傳感器網(wǎng)絡(luò)關(guān)鍵技術(shù)研究[D];中國海洋大學(xué);2010年
5 周鵬;水下傳感器網(wǎng)絡(luò)海上試驗(yàn)平臺(tái)的研究與設(shè)計(jì)[D];中國海洋大學(xué);2010年
6 張書奎;無線傳感器網(wǎng)絡(luò)中信息分發(fā)的可靠性研究[D];蘇州大學(xué);2010年
7 高藝;能源自給低功耗無線傳感器網(wǎng)絡(luò)關(guān)鍵技術(shù)研究[D];南開大學(xué);2010年
8 吳磊;無線自組織網(wǎng)絡(luò)中的路由技術(shù)相關(guān)問題研究[D];電子科技大學(xué);2010年
9 陳偉;多跳無線網(wǎng)絡(luò)路由關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2010年
10 王曉敏;無線傳感器網(wǎng)絡(luò)數(shù)據(jù)收集與路由協(xié)議研究[D];電子科技大學(xué);2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 葉青;基于可信的無線傳感器網(wǎng)絡(luò)認(rèn)證技術(shù)的研究[D];安徽工程大學(xué);2010年
2 諶業(yè)濱;無線傳感器網(wǎng)絡(luò)自身健康狀態(tài)融合機(jī)制研究[D];南昌航空大學(xué);2010年
3 喬田田;無線傳感器網(wǎng)絡(luò)路由協(xié)議研究[D];山東科技大學(xué);2010年
4 駱科學(xué);基于ZigBee的無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)在礦井機(jī)車運(yùn)輸監(jiān)控系統(tǒng)中的應(yīng)用研究[D];山東科技大學(xué);2010年
5 彭慧;面向離散型制造業(yè)的嵌入式MES檢測終端開發(fā)[D];浙江理工大學(xué);2010年
6 閉啟禮;水文傳感器網(wǎng)絡(luò)部署優(yōu)化研究[D];鄭州大學(xué);2010年
7 張永琦;無線傳感器網(wǎng)絡(luò)中基于網(wǎng)關(guān)的分級簇算法研究[D];鄭州大學(xué);2010年
8 張磊;基于無線傳感器網(wǎng)絡(luò)的實(shí)驗(yàn)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];鄭州大學(xué);2010年
9 劉蘭濤;無線傳感器網(wǎng)絡(luò)中時(shí)間同步技術(shù)的研究[D];鄭州大學(xué);2010年
10 許俊杰;無線通信技術(shù)在設(shè)備狀態(tài)監(jiān)測中的研究與應(yīng)用[D];鄭州大學(xué);2010年
【二級參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 姜園,張朝陽,仇佩亮,周東方;用于數(shù)據(jù)挖掘的聚類算法[J];電子與信息學(xué)報(bào);2005年04期
2 沈潔;趙雷;楊季文;李榕;;一種基于劃分的層次聚類算法[J];計(jì)算機(jī)工程與應(yīng)用;2007年31期
3 趙妍;趙學(xué)民;;基于CURE的用戶聚類算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2012年11期
4 崔杰,任家東;分布式關(guān)聯(lián)規(guī)則挖掘中的聚類分區(qū)算法[J];計(jì)算機(jī)工程;2004年23期
5 時(shí)念云;張金明;褚希;;基于CURE算法的相似重復(fù)記錄檢測[J];計(jì)算機(jī)工程;2009年05期
6 王玉祥;喬秀全;李曉峰;孟洛明;;上下文感知的移動(dòng)社交網(wǎng)絡(luò)服務(wù)選擇機(jī)制研究[J];計(jì)算機(jī)學(xué)報(bào);2010年11期
7 陳全;鄧倩妮;;云計(jì)算及其關(guān)鍵技術(shù)[J];計(jì)算機(jī)應(yīng)用;2009年09期
8 江小平;李成華;向文;張新訪;;云計(jì)算環(huán)境下樸素貝葉斯文本分類算法的實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用;2011年09期
9 韓燕波;陳俊亮;王千祥;;《云計(jì)算和服務(wù)計(jì)算》專輯前言[J];計(jì)算機(jī)學(xué)報(bào);2011年12期
10 陳克寒;韓盼盼;吳健;;基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J];計(jì)算機(jī)學(xué)報(bào);2013年02期
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳再高;王玥;王建國;張殿輝;付梅艷;喬海亮;袁媛;;三維粒子模擬并行化技術(shù)研究[J];計(jì)算機(jī)工程與科學(xué);2009年11期
2 高嵩,崔西寧;并行化高級語言的實(shí)現(xiàn)[J];西安工業(yè)學(xué)院學(xué)報(bào);1997年02期
3 江嶺;劉學(xué)軍;湯國安;宋效東;;地形分析中坡度坡向算法并行化方法研究[J];計(jì)算機(jī)工程與科學(xué);2013年04期
4 武繼剛;一個(gè)選擇算法及其并行化[J];計(jì)算機(jī)工程與設(shè)計(jì);1996年05期
5 范植華,范路;多岔控制轉(zhuǎn)換的并行化重構(gòu)[J];電子學(xué)報(bào);1999年08期
6 俞一峻,臧斌宇,施武,朱傳琪;自動(dòng)尋找使多重串行循環(huán)并行化的幺模變換[J];軟件學(xué)報(bào);1999年04期
7 竹居智久;邱石;;充分發(fā)揮并行化優(yōu)勢開拓出新的應(yīng)用天地[J];電子設(shè)計(jì)應(yīng)用;2006年12期
8 郭克榕,唐新春;基于多層循環(huán)并行化的負(fù)載平衡優(yōu)化[J];國防科技大學(xué)學(xué)報(bào);1997年05期
9 楊博,王鼎興,鄭緯民;構(gòu)造并行化系統(tǒng)交互環(huán)境的若干關(guān)鍵技術(shù)[J];軟件學(xué)報(bào);2001年05期
10 常曉東;胡長軍;李永紅;;化學(xué)驅(qū)油藏?cái)?shù)模并行化中的關(guān)鍵技術(shù)[J];微計(jì)算機(jī)信息;2007年28期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前8條
1 蘭彤;馮玉才;肖偉器;;空間連接處理的并行化研究[A];數(shù)據(jù)庫研究進(jìn)展97——第十四屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(上)[C];1997年
2 張雯;駱志剛;趙翔;王金華;靳新;;剪接比對軟件sim4的并行化研究與實(shí)現(xiàn)[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(一)[C];2006年
3 王本龍;龔凱;劉樺;;自由表面流動(dòng)問題的并行化SPH方法求解[A];中國力學(xué)學(xué)會(huì)學(xué)術(shù)大會(huì)'2009論文摘要集[C];2009年
4 王峰;楊建俊;張?zhí)炀?許淑艷;;不同操作平臺(tái)上的MCNP并行化計(jì)算[A];中國原子能科學(xué)研究院年報(bào) 2009[C];2010年
5 徐金秀;張?zhí)靹?;NCC區(qū)域氣候模式算法分析及并行化實(shí)現(xiàn)[A];2006年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集(一)[C];2006年
6 陳皓;羅月童;劉曉平;;基于MPI的光子映射算法并行化[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
7 曹琰;王清賢;魏強(qiáng);尹中旭;;基于相容和搜索結(jié)合的并行約束求解方法[A];2013年中國智能自動(dòng)化學(xué)術(shù)會(huì)議論文集(第五分冊)[C];2013年
8 陳德華;解維;李悅;;面向大規(guī)模圖數(shù)據(jù)的分布式并行聚類算法研究[A];第29屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(B輯)(NDBC2012)[C];2012年
中國重要報(bào)紙全文數(shù)據(jù)庫 前3條
1 ;[N];網(wǎng)絡(luò)世界;2006年
2 謝濤;[N];電腦商報(bào);2008年
3 記者 魯媛媛;[N];網(wǎng)絡(luò)世界;2009年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 程興國;仿生算法的動(dòng)態(tài)反饋機(jī)制及其并行化實(shí)現(xiàn)方法研究[D];華南理工大學(xué);2013年
2 丁曉寧;面向CFD的交互式并行化技術(shù)研究[D];西北工業(yè)大學(xué);2002年
3 張平;并行化編譯器中并行程序自動(dòng)生成和性能優(yōu)化技術(shù)研究[D];解放軍信息工程大學(xué);2006年
4 傅游;稀薄氣體Monte Carlo數(shù)值仿真并行化技術(shù)研究與實(shí)現(xiàn)[D];西北工業(yè)大學(xué);2002年
5 董春麗;并行化編譯中數(shù)據(jù)和計(jì)算的自動(dòng)劃分及優(yōu)化技術(shù)研究[D];解放軍信息工程大學(xué);2007年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 金龑;協(xié)同過濾算法及其并行化研究[D];南京大學(xué);2012年
2 郭銳;支持推測并行化的可擴(kuò)展事務(wù)存儲(chǔ)體系結(jié)構(gòu)設(shè)計(jì)與性能評價(jià)[D];中國科學(xué)技術(shù)大學(xué);2009年
3 王濤;關(guān)聯(lián)規(guī)則算法及并行化研究[D];河北大學(xué);2006年
4 高彥明;蟻群算法并行化研究[D];蘇州大學(xué);2005年
5 張靜敏;面向CFD程序的并行化系統(tǒng)性能研究[D];西北工業(yè)大學(xué);2003年
6 吳東保;藥物化合物分子相似性計(jì)算的并行化研究[D];華東理工大學(xué);2014年
7 陳小蘭;Linux應(yīng)用程序多核并行化方法研究與實(shí)現(xiàn)[D];西南交通大學(xué);2010年
8 朱禮廷;不可壓縮管流數(shù)值模擬中的算法并行化研究與實(shí)現(xiàn)[D];杭州電子科技大學(xué);2011年
9 周洋;帶自由表面三維淺水流動(dòng)的并行化模擬研究[D];上海交通大學(xué);2013年
10 羅愛寶;梯度下降類和EM類迭代算法的并行化研究[D];南京大學(xué);2012年
本文關(guān)鍵詞:基于Spark平臺(tái)的CURE算法并行化設(shè)計(jì)與應(yīng)用,由筆耕文化傳播整理發(fā)布。
,本文編號:105968
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/105968.html