基于Spark平臺的K-means聚類算法改進及并行化實現
發(fā)布時間:2017-07-26 16:30
本文關鍵詞:基于Spark平臺的K-means聚類算法改進及并行化實現
【摘要】:針對K-means算法在數據聚類過程中初始值選取的隨機性問題,基于非均勻采樣原則對該算法進行改進。同時,針對聚類算法并行化的需求,基于Spark平臺對改進算法進行了并行化實現。單機串行處理和集群并行化實驗證明了該改進算法在處理海量數據集時具有更高的準確性和穩(wěn)定性,且在Spark平臺上的并行化實現具有良好的加速比和可擴展性,從而表明該算法能在實際的海量數據處理中高效運行。
【作者單位】: 浙江工業(yè)大學信息工程學院;
【關鍵詞】: K-means 聚類 Spark 并行化
【基金】:浙江省自然科學基金(No.LY13F010011) 浙江省科技廳重大專項(No.2014NM002)
【分類號】:TP311.13
【正文快照】: 1引言聚類是按照“物以類聚”的思想將數據集合分成若干類或簇,使得每個簇中的數據最大程度地相似,屬于一種無監(jiān)督的學習過程[1]。聚類分析是數據挖掘中的一種常見技術,廣泛地應用于市場營銷、商品推薦、顧客分類、模式識別、過程優(yōu)化、數據挖掘、信息安全、配方設計、空間分
【相似文獻】
中國期刊全文數據庫 前10條
1 吳正娟;職為梅;楊勇;范明;;并行化的粒子群技術[J];微計算機信息;2009年36期
2 齊書陽;;迎接并行化的明天[J];軟件世界;2009年06期
3 曹琳,楊學軍,金國華;兩種并行化機制的分析[J];計算機研究與發(fā)展;1993年09期
4 金國華,,陳福接;并行化技術與工具[J];計算機研究與發(fā)展;1996年07期
5 蔡立志,童維勤,廖文昭;序列拼裝程序的并行化研究與實現[J];計算機工程與應用;2003年14期
6 王偉;潘建偉;;有限差分法的并行化計算實現[J];電腦知識與技術;2008年07期
7 程錦松;;迭代法的并行化[J];安徽大學學報(自然科學版);1997年03期
8 陳再高;王s
本文編號:577336
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/577336.html