基于密度的改進(jìn)型層次聚類算法研究
本文關(guān)鍵詞:基于密度的改進(jìn)型層次聚類算法研究
更多相關(guān)文章: 聚類分析 層次聚類 CURE算法 CBDP算法
【摘要】:數(shù)據(jù)挖掘是幫助我們從海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息的一種重要工具,而聚類分析又是數(shù)據(jù)挖掘中的一個(gè)重要的研究方向。聚類分析在生物學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、商業(yè)決策等領(lǐng)域都得到了成功應(yīng)用。目前的聚類算法都比較有針對(duì)性,所以對(duì)于更高效、更準(zhǔn)確、更全面的聚類算法的研究仍然是一大熱點(diǎn)。層次聚類是聚類分析的一個(gè)重要分支,本文重點(diǎn)分析研究了層次聚類算法,并對(duì)一些代表算法的聚類性能進(jìn)行了分析比較。CURE算法是一種典型的層次聚類算法,該算法對(duì)收縮因子這一參數(shù)很敏感,而且噪聲和孤立點(diǎn)很難界定。針對(duì)CURE算法存在的不足,本文提出了一種改進(jìn)的基于密度分層的層次聚類算法。改進(jìn)算法將數(shù)據(jù)集中的點(diǎn)按照密度大小排序,將密度最小的約10%的點(diǎn)作為偏離點(diǎn)(包括噪聲和孤立點(diǎn))排除掉。將剩余的點(diǎn)按照密度大小分層,在密度最大和最小兩層上分別進(jìn)行凝聚層次聚類,然后在分層聚類的基礎(chǔ)上對(duì)所有剩余點(diǎn)進(jìn)行凝聚層次聚類。最后將偏離點(diǎn)劃分到與之最近的已聚好的類中。改進(jìn)算法對(duì)噪聲和孤立點(diǎn)不敏感,不需要收縮因子這一參數(shù),對(duì)多種非球形簇有很好的聚類效果。通過對(duì)比實(shí)驗(yàn)證明,改進(jìn)算法的聚類效果明顯優(yōu)于CURE算法,算法效率也在一定程度上優(yōu)于CURE算法。另外,本文還詳細(xì)分析了2014年Alex Rodriguez在science上發(fā)表的文章Clustering by Fast Search and Find of Density Peaks中提出的一種新穎的基于密度的CBDP算法。針對(duì)CBDP算法只能處理類內(nèi)數(shù)據(jù)分布不均勻、不同類的數(shù)據(jù)密度差距不大的數(shù)據(jù)集的缺點(diǎn),提出了一種改進(jìn)的層次聚類算法。改進(jìn)算法通過計(jì)算數(shù)據(jù)的密度和距離,排除了密度很小而距離很大的噪聲和孤立點(diǎn),使改進(jìn)算法對(duì)噪聲和孤立點(diǎn)不敏感。通過繪制數(shù)據(jù)的密度和距離乘積分布圖,即i—ρi*δi分布圖來確定密度峰值點(diǎn)。然后以密度峰值點(diǎn)為中心,計(jì)算最小類間距離,不斷進(jìn)行類的合并,直至達(dá)到聚類數(shù)目。在二維和多維數(shù)據(jù)集上的實(shí)驗(yàn)證明了改進(jìn)算法的聚類結(jié)果明顯優(yōu)于CBDP算法,而且聚類效果更穩(wěn)定。
【關(guān)鍵詞】:聚類分析 層次聚類 CURE算法 CBDP算法
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 緒論8-11
- 1.1 研究背景及意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-10
- 1.3 論文內(nèi)容和結(jié)構(gòu)安排10-11
- 第二章 聚類算法研究11-20
- 2.1 聚類分析概述11-13
- 2.1.1 聚類基礎(chǔ)知識(shí)和應(yīng)用11
- 2.1.2 聚類的過程11-12
- 2.1.3 聚類算法應(yīng)具備的特征12-13
- 2.2 聚類算法的分類13-16
- 2.2.1 基于劃分的聚類算法13-14
- 2.2.2 基于層次的聚類算法14-15
- 2.2.3 基于密度的聚類算法15
- 2.2.4 基于網(wǎng)格的聚類算法15-16
- 2.2.5 基于模型的聚類算法16
- 2.3 常用聚類算法的比較16-17
- 2.4 聚類質(zhì)量評(píng)價(jià)方法17-19
- 2.5 小結(jié)19-20
- 第三章 CURE聚類算法及其改進(jìn)20-36
- 3.1 層次方法概述20-22
- 3.1.1 兩種類型層次聚類方法20-21
- 3.1.2 簇間距離度量方法21-22
- 3.2 CURE算法22-24
- 3.2.1 CURE算法的思想和實(shí)現(xiàn)過程22-23
- 3.2.2 CURE算法的不足23-24
- 3.3 改進(jìn)的層次聚類算法24-30
- 3.3.1 改進(jìn)算法的基本思想24-25
- 3.3.2 改進(jìn)算法的實(shí)現(xiàn)步驟25-30
- 3.4 實(shí)驗(yàn)結(jié)果分析30-35
- 3.4.1 二維數(shù)據(jù)集應(yīng)用實(shí)例30-33
- 3.4.2 多維數(shù)據(jù)集應(yīng)用實(shí)例33-34
- 3.4.3 改進(jìn)算法的效率分析34-35
- 3.5 小結(jié)35-36
- 第四章 CBDP聚類算法及其改進(jìn)36-44
- 4.1 CBDP算法36-38
- 4.1.1 CBDP算法的思想和實(shí)現(xiàn)過程36-37
- 4.1.2 CBDP算法的不足37-38
- 4.2 改進(jìn)算法38-41
- 4.2.1 改進(jìn)算法的基本思想38-39
- 4.2.2 改進(jìn)算法的實(shí)現(xiàn)步驟39-41
- 4.3 實(shí)驗(yàn)結(jié)果分析41-43
- 4.3.1 二維數(shù)據(jù)集應(yīng)用實(shí)例41-42
- 4.3.2 多維數(shù)據(jù)集應(yīng)用實(shí)例42-43
- 4.4 小結(jié)43-44
- 第五章 總結(jié)與展望44-46
- 5.1 總結(jié)44-45
- 5.2 展望45-46
- 參考文獻(xiàn)46-48
- 致謝48
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳旭玲;樓佩煌;;改進(jìn)層次聚類算法在文獻(xiàn)分析中的應(yīng)用[J];數(shù)值計(jì)算與計(jì)算機(jī)應(yīng)用;2009年04期
2 楊棟;詹海亮;蘇錦旗;;基于區(qū)域最近鄰生長的層次聚類算法[J];化工自動(dòng)化及儀表;2010年05期
3 王嫻;楊緒兵;周宇;周溜溜;;一種基于類中心矯正的層次聚類算法[J];微電子學(xué)與計(jì)算機(jī);2011年10期
4 謝振平;王士同;王曉明;;一種基于軟邊界球分的分裂式層次聚類算法[J];模式識(shí)別與人工智能;2008年04期
5 姚玉欽;李金廣;;一種基于網(wǎng)格的層次聚類算法[J];河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年04期
6 李俊輝;;基于不確定圖的層次聚類算法研究[J];中國管理信息化;2012年24期
7 李新良;;基于層次聚類算法的改進(jìn)研究[J];軟件導(dǎo)刊;2007年19期
8 劉興波;;凝聚型層次聚類算法的研究[J];科技信息(科學(xué)教研);2008年11期
9 郭曉娟;劉曉霞;李曉玲;;層次聚類算法的改進(jìn)及分析[J];計(jì)算機(jī)應(yīng)用與軟件;2008年06期
10 史變霞;張明新;;一種改進(jìn)的層次聚類算法[J];微電子學(xué)與計(jì)算機(jī);2010年12期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前3條
1 馬曉艷;唐雁;;層次聚類算法研究[A];2008年計(jì)算機(jī)應(yīng)用技術(shù)交流會(huì)論文集[C];2008年
2 饒金通;董槐林;姜青山;;基于孤立因子的層次聚類算法與應(yīng)用[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
3 吳楠楠;史亮;饒金通;姜青山;董槐林;;一種改進(jìn)的高效層次聚類算法[A];第二十二屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳遠(yuǎn)浩;非監(jiān)督的結(jié)構(gòu)學(xué)習(xí)及其應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 郭芳芳;面向分類型集值數(shù)據(jù)的層次聚類算法研究[D];山西大學(xué);2015年
2 李彩云;基于密度的改進(jìn)型層次聚類算法研究[D];蘭州大學(xué);2016年
3 瞿俊;基于重疊度的層次聚類算法研究及其應(yīng)用[D];廈門大學(xué);2007年
4 楊海斌;一種新的層次聚類算法的研究及應(yīng)用[D];西北師范大學(xué);2011年
5 張冬梅;基于輪廓系數(shù)的層次聚類算法研究[D];燕山大學(xué);2010年
6 李慧馳;基于三度信息的雙重層次聚類算法[D];武漢理工大學(xué);2013年
7 張文開;基于密度的層次聚類算法研究[D];中國科學(xué)技術(shù)大學(xué);2015年
8 段明秀;層次聚類算法的研究及應(yīng)用[D];中南大學(xué);2009年
9 李欣欣;基于MPI的層次聚類算法的研究及實(shí)現(xiàn)[D];哈爾濱理工大學(xué);2012年
10 畢鵬;改進(jìn)的Chameleon層次聚類算法在目標(biāo)分群中的應(yīng)用研究[D];浙江大學(xué);2009年
,本文編號(hào):645186
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/645186.html