面向大規(guī)模數(shù)據(jù)的多視角K-means聚類(lèi)算法的研究
本文選題:大規(guī)模多視角數(shù)據(jù) 切入點(diǎn):多視角聚類(lèi) 出處:《鄭州大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
【摘要】:在過(guò)去的幾十年,收集了越來(lái)越多的多源數(shù)據(jù)或者多視角數(shù)據(jù),每個(gè)視角具有不同的數(shù)據(jù)特征來(lái)表示數(shù)據(jù)。傳統(tǒng)的聚類(lèi)算法在處理聚類(lèi)分析問(wèn)題時(shí)已經(jīng)顯示出它的不足,多視角聚類(lèi)方法便應(yīng)運(yùn)而生,F(xiàn)有的多視角聚類(lèi)算法分為三類(lèi),即:協(xié)同聚類(lèi)算法、基于多核的聚類(lèi)算法以及基于子空間的多視角聚類(lèi)算法。但是,隨著數(shù)據(jù)量的爆炸式增長(zhǎng),越來(lái)越多的大規(guī)模多視角數(shù)據(jù)涌現(xiàn),亟待人們?nèi)ネ诰蛱幚怼,F(xiàn)有的處理大規(guī)模數(shù)據(jù)的方法主要有四類(lèi),即:基于抽樣的方法、基于聚類(lèi)特征選擇的方法、基于約束信息的半監(jiān)督聚類(lèi)算法和基于分布式平臺(tái)的聚類(lèi)算法。這些方法都是針對(duì)大規(guī)模單視角數(shù)據(jù)的聚類(lèi)算法,不能直接用來(lái)解決大規(guī)模多視角聚類(lèi)的問(wèn)題。本文針對(duì)多視角聚類(lèi)問(wèn)題面臨的這種狀況進(jìn)行了相關(guān)的研究。論文的主要工作和創(chuàng)新如下:1、對(duì)面向大規(guī)模數(shù)據(jù)的單視角聚類(lèi)和現(xiàn)有的多視角聚類(lèi)算法進(jìn)行了歸納總結(jié),指出了其原理和適用范圍。并特別指出現(xiàn)有的多視角聚類(lèi)算法在處理大規(guī)模數(shù)據(jù)方面存在的不足。2、針對(duì)現(xiàn)有多視角聚類(lèi)在處理大規(guī)模數(shù)據(jù)方面存在的不足,提出了一種面向大規(guī)模數(shù)據(jù)的多視角K-means聚類(lèi)算法(Multi-view K-means Clustering Algorithm on Large Data,LKMC)。該算法使用l_(1,2)結(jié)構(gòu)化稀疏誘導(dǎo)范數(shù)對(duì)目標(biāo)函數(shù)優(yōu)化,在對(duì)數(shù)據(jù)均勻分塊的基礎(chǔ)上,對(duì)每個(gè)數(shù)據(jù)塊進(jìn)行多視角聚類(lèi),并計(jì)算其中心,然后對(duì)中心再進(jìn)行多視角聚類(lèi)從而得到最終結(jié)果。該算法具有對(duì)初始點(diǎn)的選擇不敏感的特點(diǎn)且能處理大規(guī)模數(shù)據(jù)集。實(shí)驗(yàn)驗(yàn)證了其有效性。
[Abstract]:In the past few decades, more and more data collected multi-source and multi view data, each data perspective has different features to represent the data. The traditional clustering algorithm in clustering analysis problem processing has shown its shortcomings, multi view clustering method comes into being. The existing multi view clustering algorithm is divided into three class, namely: collaborative clustering algorithm, clustering algorithm based on multi core and multi view clustering algorithm based on subspace. However, with the explosive growth of data, large-scale multi view data more and more urgent for people to emerge, mining method to deal with large-scale data processing. There are four main categories, namely: sampling the method based on Clustering method based on feature selection, clustering algorithm based on semi supervised clustering algorithm based on constraint information and distributed platform. These methods are based on the number of large-scale single view According to the clustering algorithm, which can not be used to solve large-scale multi view clustering problem. Researches the situation according to the multi view clustering problem. The main work and innovation are as follows: 1, opposite to multi view clustering algorithm in single view clustering large-scale data and existing were summarized, pointed out. The principle and application scope. And especially pointed out that the shortcomings of.2 multi view clustering algorithm existing in large-scale data processing, aiming at the problems in large-scale data processing of existing multi view clustering, is proposed for large-scale data multi view clustering algorithm K-means (Multi-view K-means Clustering Algorithm on Large Data, LKMC). The algorithm uses l_ (1,2) structured sparse induced norm to optimize the objective function, based on the uniform data blocks, for each block of data. Multi angle clustering is performed and the center is calculated. Then the center is clustered with multi view to get the final result. The algorithm has the characteristics of insensitivity to the initial point selection and can handle large scale data set. The validity of the algorithm is verified by experiments.
【學(xué)位授予單位】:鄭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP311.13
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張艷寧,趙榮椿,梁怡;一種有效的大規(guī)模數(shù)據(jù)的分類(lèi)方法[J];電子學(xué)報(bào);2002年10期
2 姜英姿;;大規(guī)模數(shù)據(jù)的計(jì)算機(jī)處理技術(shù)[J];徐州工程學(xué)院學(xué)報(bào);2005年05期
3 劉忠寶;趙文娟;;面向大規(guī)模數(shù)據(jù)的模糊支持向量數(shù)據(jù)描述[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年06期
4 牛新征;佘X;;面向大規(guī)模數(shù)據(jù)的快速并行聚類(lèi)劃分算法研究[J];計(jì)算機(jī)科學(xué);2012年01期
5 汪西莉,劉芳,焦李成;基于大規(guī)模數(shù)據(jù)的支撐矢量機(jī)的訓(xùn)練和分類(lèi)[J];西安電子科技大學(xué)學(xué)報(bào);2002年01期
6 杜奕強(qiáng);;利用廉價(jià)計(jì)算機(jī)實(shí)現(xiàn)大規(guī)模數(shù)據(jù)處理的技術(shù)研究與實(shí)現(xiàn)[J];自動(dòng)化與信息工程;2014年01期
7 劉光明;周越;張瑞虹;白瑞俊;;云存儲(chǔ)的關(guān)鍵技術(shù)與應(yīng)用探討[J];中國(guó)高新技術(shù)企業(yè);2012年30期
8 諶超;強(qiáng)保華;石龍;;基于Hadoop MapReduce的大規(guī)模數(shù)據(jù)索引構(gòu)建與集群性能分析[J];桂林電子科技大學(xué)學(xué)報(bào);2012年04期
9 劉春艷;;基于云的招生系統(tǒng)研究與設(shè)計(jì)[J];電子技術(shù)與軟件工程;2013年13期
10 蔡秋茹;柳益君;羅燁;朱廣萍;葉飛躍;;基于K-means聚類(lèi)的電信企業(yè)客戶(hù)分群決策[J];江南大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年02期
相關(guān)會(huì)議論文 前3條
1 徐健;陳光喜;;一種基于優(yōu)化處理較大規(guī)模數(shù)據(jù)的支持向量分類(lèi)機(jī)[A];第八屆中國(guó)青年運(yùn)籌信息管理學(xué)者大會(huì)論文集[C];2006年
2 楊青;劉曄;張東旭;劉暢;;快速查找最優(yōu)初始聚類(lèi)數(shù)K的改進(jìn)K-means算法[A];中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì)A卷[C];2011年
3 陳磊;胡佳敏;嚴(yán)華;;K-means算法在散貨船代貨運(yùn)系統(tǒng)中的應(yīng)用[A];全國(guó)第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國(guó)第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年
相關(guān)重要報(bào)紙文章 前2條
1 王麗;為大規(guī)模數(shù)據(jù)中心建設(shè)保駕護(hù)航[N];中國(guó)經(jīng)營(yíng)報(bào);2005年
2 ;戴爾務(wù)實(shí)推動(dòng)云計(jì)算發(fā)展[N];網(wǎng)絡(luò)世界;2010年
相關(guān)博士學(xué)位論文 前2條
1 黃成泉;大規(guī)模數(shù)據(jù)的多視角、多任務(wù)分類(lèi)/聚類(lèi)方法及應(yīng)用研究[D];江南大學(xué);2016年
2 金冉;面向大規(guī)模數(shù)據(jù)的聚類(lèi)算法研究及應(yīng)用[D];東華大學(xué);2015年
相關(guān)碩士學(xué)位論文 前10條
1 郭亞銳;面向大規(guī)模數(shù)據(jù)的多視角K-means聚類(lèi)算法的研究[D];鄭州大學(xué);2017年
2 馬翠云;基于HBase的大規(guī)模數(shù)據(jù)存儲(chǔ)解決方案的設(shè)計(jì)和實(shí)現(xiàn)[D];山東大學(xué);2015年
3 周釗澤;面向大規(guī)模數(shù)據(jù)的局部在線(xiàn)學(xué)習(xí)[D];中山大學(xué);2015年
4 田大鑫;基于GIS的大規(guī)模數(shù)據(jù)下K優(yōu)路徑規(guī)劃算法的研究與實(shí)現(xiàn)[D];北京理工大學(xué);2016年
5 楊婷;Web頁(yè)面中的大規(guī)模數(shù)據(jù)折線(xiàn)圖優(yōu)化方法研究[D];浙江大學(xué);2017年
6 陳智;基于K-means聚類(lèi)算法的機(jī)會(huì)網(wǎng)絡(luò)群組移動(dòng)模型及其長(zhǎng)相關(guān)性研究[D];湘潭大學(xué);2015年
7 許允棟;K-means聚類(lèi)算法的改進(jìn)與應(yīng)用[D];廣西師范大學(xué);2015年
8 丁斌;基于布谷鳥(niǎo)算法的K-means聚類(lèi)挖掘算法研究[D];合肥工業(yè)大學(xué);2015年
9 賀艷芳;熵加權(quán)多視角核k-means聚類(lèi)算法的研究[D];鄭州大學(xué);2016年
10 陳克;基于K-means算法的CSS Sprites圖片合成技術(shù)的研究[D];東北師范大學(xué);2016年
,本文編號(hào):1623085
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1623085.html