天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大數(shù)據(jù)聚類分析實例_聚類分析的方法及應用

發(fā)布時間:2016-10-03 16:27

  本文關鍵詞:聚類分析,由筆耕文化傳播整理發(fā)布。


通常,我們在研究與處理事物時,經常需要將事物進行分類,例如地質勘探中根據(jù)物探、化探的指標將樣本進行分類;古生物研究中根據(jù)挖掘出的骨骼形狀和尺寸將它們分類;大壩監(jiān)控中由于所得的觀測數(shù)據(jù)量十分龐大,有時亦需將它們分類歸并,獲得其典型代表再進行深入分析等,對事物進行分類,進而歸納并發(fā)現(xiàn)其規(guī)律已成為人們認識世界、改造世界的一種重要方法。

聚類分析的方法及應用-馬海祥博客

由于對象的復雜性,僅憑經驗和專業(yè)知識有時不能確切地分類,隨著多元統(tǒng)計技術的發(fā)展和計算機技術的普及,利用數(shù)學方法進行更科學的分類不僅非常必要而且完全可能。

近些年來,數(shù)值分類學逐漸形成了一個新的分支,稱為聚類分析,聚類分析適用于很多不同類型的數(shù)據(jù)集合,很多研究領域,如工程、生物、醫(yī)藥、語言、人類學、心理學和市場學等,都對聚類技術的發(fā)展和應用起到了推動作用。

1、什么是聚類分析?

聚類分析也稱群分析或點群分析,它是研究多要素事物分類問題的數(shù)量方法,是一種新興的多元統(tǒng)計方法,是當代分類學與多元分析的結合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學方法按照某種相似性或差異性指標,定量地確定樣本之間的親疏關系,并按這種親疏關系程度對樣本進行聚類。

聚類分析是將分類對象置于一個多維空問中,按照它們空問關系的親疏程度進行分類。

通俗的講,聚類分析就是根據(jù)事物彼此不同的屬性進行辨認,將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。

聚類分析方法,是定量地研究地理事物分類問題和地理分區(qū)問題的重要方法,常見的聚類分析方法有系統(tǒng)聚類法、動態(tài)聚類法和模糊聚類法等。

2、聚類分析方法的特征

(1)、聚類分析簡單、直觀。

(2)、聚類分析主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析。

(3)、不管實際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解。

(4)、聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對最終的解都可能產生實質性的影響。

(5)、研究者在使用聚類分析時應特別注意可能影響結果的各個因素。

(6)、異常值和特殊的變量對聚類有較大影響,當分類變量的測量尺度不一致時,需要事先做標準化處理。

3、聚類分析的發(fā)展歷程

在過去的幾年中聚類分析發(fā)展方向有兩個:加強現(xiàn)有的聚類算法和發(fā)明新的聚類算法。現(xiàn)在已經有一些加強的算法用來處理大型數(shù)據(jù)庫和高維度數(shù)據(jù),例如小波變換使用多分辨率算法,網(wǎng)格從粗糙到密集從而提高聚類簇的質量。

然而,對于數(shù)據(jù)量大、維度高并且包含許多噪聲的集合,要找到一個“全能”的聚類算法是非常困難的。某些算法只能解決其中的兩個問題,同時能很好解決三個問題的算法還沒有,現(xiàn)在最大的困難是高維度(同時包含大量噪聲)數(shù)據(jù)的處理。

算法的可伸縮性是一個重要的指標,通過采用各種技術,一些算法具有很好的伸縮性。這些技術包括:數(shù)據(jù)采樣、信息濃縮、網(wǎng)格和索引。

CLARANS是最早使用數(shù)據(jù)采樣的算法,CURE使用優(yōu)選的采樣點,信息濃縮技術在BIRCH方法和DECLIJE方法中得到應用。

許多算法都使用了索引技術,典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網(wǎng)格技術。

但是以上方法仍然不能很好地處理高維度并且大數(shù)據(jù)量的集合。

最近馬海祥還發(fā)現(xiàn)了一些新的技術如:STING+方法引入動態(tài)數(shù)據(jù)挖掘觸發(fā)器:mAFIA方法引入間距尺寸自適應網(wǎng)格分割算法;OptiGrid算法使用迭代和網(wǎng)格等技術處理高維度數(shù)據(jù)。

新技術的引進大大加強了聚類算法的效能,尤其提升了處理高維度數(shù)據(jù)的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對于剛接觸數(shù)據(jù)分析的博友,可以先看下馬海祥博客的《解讀常用的10種可用性研究數(shù)據(jù)類型方法》相關介紹。

4、系統(tǒng)聚類分析

系統(tǒng)聚類法(Hierarchical Clustering Method)是目前國內外使用晟多的一種方法,有關它的研究極為豐富。其基本思想是:先將11個樣本各自看成一類,然后規(guī)定樣本之間的距離和類與類之間的距離;然后選擇距離最小的一對并成一個新類,計算新類和其他類的距離;再將距離最小的兩類合并,這樣每次減少一類,直至所有的樣本都成為一類為止。

在馬海祥看來系統(tǒng)聚類法的優(yōu)點在于:利用樣本之問的距離最近原則進行聚類。這種系統(tǒng)歸類過程與所規(guī)定的歸類指數(shù)有關,同時也與具體的歸類方法有關系,整個聚類過程可用一張聚類圖(樹)形象表示。

聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結果的準確性和可靠性,在地理分類和研究分區(qū)中,被聚類的對象常常是多個要素構成的。

不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會對分類結果產生影響,因此當分類要素的對象確定之后,在進行聚類分析之前,首先要對數(shù)據(jù)要素進行處理。

聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種:

①、總和標準化

②、標準差標準化

③、極大值標準化

④、極差的標準化

經過這種標準化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。

距離是事物之間差異性的測度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎。

5、聚類分析的3種方法

聚類分析是數(shù)據(jù)挖掘中的一個很活躍的研究領域,并提出了許多聚類算法。

(1)、直接聚類法

直接聚類法是根據(jù)距離矩陣的結構一次并類得到結果,其基本步驟如下:

①、把各個分類對象單獨視為一類;

②、根據(jù)距離最小的原則,依次選出一對分類對象,并成新類;

③、如果其中一個分類對象已歸于一類,則把另一個也歸入該類;如果一對分類對象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對象所在的列與列序相同的行;

④、那么,經過m-1次就可以把全部分類對象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖,直接聚類法雖然簡便,但在歸并過程中是劃去行和列的,因而難免有信息損失,因此,直接聚類法并不是最好的系統(tǒng)聚類方法。

(2)、最短距離聚類法

最短距離聚類法是在原來的m×m距離矩陣的非對角元素中找出 ,把分類對象Gp和Gq歸并為一新類Gr,然后按計算公式計算原來各類與新類之間的距離,這樣就得到一個新的(m-1)階的距離矩陣。

再從新的距離矩陣中選出最小者,把Gi和Gj歸并成新類;再計算各類與新類的距離,這樣一直下去,直至各分類對象被歸為一類為止。

(3)、最遠距離聚類法

最遠距離聚類法與最短距離聚類法的區(qū)別在于計算原來的類與新類距離采用的公式不同。

6、系統(tǒng)聚類方法的步驟

(1)、對數(shù)據(jù)進行變換處理;(不是必須的,當數(shù)量級相差很大或指標變量具有不同單位時是必要的)

(2)、構造n個類,每個類只包含一個樣本;

(3)、計算n個樣本兩兩間的距離;

(4)、合并距離最近的兩類為一新類;

(5)、計算新類與當前各類的距離,若類的個數(shù)等于1,轉到6;否則回4;

(6)、畫聚類圖;

(7)、決定類的個數(shù),從而得出分類結果。

7、聚類分析的主要應用

對于聚類分析的應用,馬海祥簡單的從以下6個領域為大家總結了一下:

(1)、商業(yè)

聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。

聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。

(2)、生物

聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識。

(3)、地理

聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫商趨于的相似性。

(4)、保險行業(yè)

聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據(jù)住宅類型,價值,地理位置來鑒定一個城市的房產分組。

(5)、因特網(wǎng)

聚類分析被用來在網(wǎng)上進行文檔歸類來修復信息(關于這點我也曾在馬海祥博客的《實例解析關鍵詞聚類的方法策略》一文中跟大家詳細的介紹過)。

(6)、電子商務

聚類分析在電子商務中網(wǎng)站建設數(shù)據(jù)挖掘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合適的服務。

馬海祥博客點評:

聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類,聚類分析所使用方法的不同,常常會得到不同的結論,不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。

本文為馬海祥博客原創(chuàng)文章,如想轉載,請注明原文網(wǎng)址摘自于,注明出處;否則,禁止轉載;謝謝配合!


  本文關鍵詞:聚類分析,由筆耕文化傳播整理發(fā)布。



本文編號:130035

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/zhongyixuelunwen/130035.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶84029***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com