高維數(shù)據(jù)的聚類(lèi)算法及其距離度量的研究
發(fā)布時(shí)間:2022-07-19 14:48
目前,高維數(shù)據(jù)在我們的日常生活隨處可見(jiàn),如何從高維數(shù)據(jù)中獲取我們所需要的信息是當(dāng)前研究的一個(gè)熱點(diǎn)。對(duì)于高維數(shù)據(jù)的聚類(lèi)問(wèn)題,可以通過(guò)降維后使用傳統(tǒng)的聚類(lèi)算法,也可使用子空間聚類(lèi)算法進(jìn)行聚類(lèi),亦可使用新的距離度量方式來(lái)計(jì)算各樣本點(diǎn)之間的距離從而來(lái)衡量相似性。本文的工作主要包括以下兩個(gè)方面。(1)合適的距離度量函數(shù)對(duì)于聚類(lèi)結(jié)果有重要的影響。針對(duì)大規(guī)模高維數(shù)據(jù)集,使用增量式聚類(lèi)算法進(jìn)行距離度量的選擇分析。SpFCM算法是將大規(guī)模數(shù)據(jù)集分成小樣本進(jìn)行增量分批聚類(lèi),可在有限的計(jì)算機(jī)內(nèi)存中獲得較好的聚類(lèi)結(jié)果。在傳統(tǒng)的SpFCM算法的基礎(chǔ)上,使用不同的距離度量函數(shù)來(lái)衡量樣本之間的相似性,以得出不同的距離度量對(duì)SpFCM算法的影響。在不同的大規(guī)模高維數(shù)據(jù)集中,使用歐式距離、余弦距離、相關(guān)系數(shù)距離和擴(kuò)展的杰卡德距離來(lái)計(jì)算距離。實(shí)驗(yàn)結(jié)果表明,后三個(gè)距離度量相對(duì)于歐式距離可以很大程度提高聚類(lèi)效果,其中相關(guān)系數(shù)距離可以得到較好的結(jié)果,余弦距離次之,擴(kuò)展的杰卡德距離效果比較一般。(2)針對(duì)含有高斯噪聲的高維數(shù)據(jù)的聚類(lèi)問(wèn)題,提出一種使用新的距離度量方式的增量式聚類(lèi)算法(Anti-noise fuzzy(c+p)-m...
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外相關(guān)研究
1.3 本文主要研究?jī)?nèi)容
第二章 聚類(lèi)的基本理論
2.1 聚類(lèi)理論基礎(chǔ)
2.1.1 聚類(lèi)概念
2.1.2 聚類(lèi)定義
2.2 聚類(lèi)方法
2.2.1 五類(lèi)聚類(lèi)算法
2.2.1.1 基于劃分的聚類(lèi)算法
2.2.1.2 基于層次的聚類(lèi)算法
2.2.1.3 基于密度的聚類(lèi)算法
2.2.1.4 基于網(wǎng)格的聚類(lèi)算法
2.2.1.5 基于模型的聚類(lèi)算法
2.2.2 模糊C均值聚類(lèi)算法
2.3 距離度量
2.3.1 距離度量方法
2.3.2 相似性度量
2.4 高維數(shù)據(jù)的聚類(lèi)問(wèn)題
2.4.1 對(duì)高維數(shù)據(jù)進(jìn)行特征約簡(jiǎn)
2.4.2 對(duì)高維數(shù)據(jù)相似性度量進(jìn)行改進(jìn)
2.4.3 采用子空間聚類(lèi)技術(shù)
2.5 總結(jié)
第三章 高維數(shù)據(jù)的增量式聚類(lèi)算法的距離度量選擇研究
3.1 引言
3.2 實(shí)驗(yàn)算法
3.2.1 加權(quán)模糊C均值算法
3.2.2 單程模糊C均值算法
3.3 不同的距離度量
3.3.1 基于余弦距離的SpFCM算法
3.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
3.4.1 算法評(píng)價(jià)指標(biāo)
3.4.2 實(shí)驗(yàn)結(jié)果及分析
3.5 結(jié)束語(yǔ)
第四章 具有抗噪性能適用高維數(shù)據(jù)的增量式聚類(lèi)算法
4.1 引言
4.2 相關(guān)工作
4.2.1 FCPM算法
4.3 具有抗噪性能的增量式模糊聚類(lèi)算法
4.3.1 ANFCM(c+p)算法
4.3.2 算法實(shí)現(xiàn)
4.4 實(shí)驗(yàn)研究
4.4.1 評(píng)價(jià)指標(biāo)
4.4.2 實(shí)驗(yàn)結(jié)果
4.4.2.1 實(shí)驗(yàn)環(huán)境
4.4.2.2 實(shí)驗(yàn)數(shù)據(jù)集
4.4.2.3 實(shí)驗(yàn)參數(shù)設(shè)置
4.4.2.4 算法性能比較
4.5 本章小結(jié)
總結(jié)與展望
總結(jié)
研究展望
致謝
參考文獻(xiàn)
附錄 :作者在攻讀碩士學(xué)位期間發(fā)表的論文
【參考文獻(xiàn)】:
期刊論文
[1]面向混合屬性數(shù)據(jù)集的改進(jìn)半監(jiān)督FCM聚類(lèi)方法[J]. 李曉慶,唐昊,司加勝,苗剛中. 自動(dòng)化學(xué)報(bào). 2018(12)
[2]基于余弦距離選取初始簇中心的文本聚類(lèi)研究[J]. 王彬宇,劉文芬,胡學(xué)先,魏江宏. 計(jì)算機(jī)工程與應(yīng)用. 2018(10)
[3]基于密度峰值優(yōu)化的模糊C均值聚類(lèi)算法[J]. 劉滄生,許青林. 計(jì)算機(jī)工程與應(yīng)用. 2018(14)
[4]一種基于決策粗糙集的模糊C均值聚類(lèi)數(shù)的確定方法[J]. 石文峰,商琳. 計(jì)算機(jī)科學(xué). 2017(09)
[5]基于融合歐氏距離與Kendall Tau距離度量的譜聚類(lèi)算法(英文)[J]. 光俊葉,邵偉,孫亮,張道強(qiáng). 控制理論與應(yīng)用. 2017(06)
[6]基于混合距離學(xué)習(xí)的魯棒的模糊C均值聚類(lèi)算法[J]. 卞則康,王士同. 智能系統(tǒng)學(xué)報(bào). 2017(04)
[7]基于貝葉斯距離的K-modes聚類(lèi)算法[J]. 趙亮,劉建輝,張昭昭. 計(jì)算機(jī)工程與科學(xué). 2017(01)
[8]基于密度和混合距離度量方法的混合屬性數(shù)據(jù)聚類(lèi)研究[J]. 陳晉音,何輝豪. 控制理論與應(yīng)用. 2015(08)
[9]一種非噪聲敏感性的模糊C均值聚類(lèi)算法[J]. 陳加順,皮德常. 小型微型計(jì)算機(jī)系統(tǒng). 2014(06)
[10]一種快速的廣義噪聲聚類(lèi)算法[J]. 武斌,武小紅,賈紅雯. 計(jì)算機(jī)工程與應(yīng)用. 2013(13)
博士論文
[1]數(shù)據(jù)挖掘中聚類(lèi)若干問(wèn)題研究[D]. 趙恒.西安電子科技大學(xué) 2005
[2]高維數(shù)據(jù)挖掘中若干關(guān)鍵問(wèn)題的研究[D]. 楊風(fēng)召.復(fù)旦大學(xué) 2003
碩士論文
[1]高維數(shù)據(jù)聚類(lèi)若干關(guān)鍵問(wèn)題研究[D]. 謝明霞.解放軍信息工程大學(xué) 2011
本文編號(hào):3663612
【文章頁(yè)數(shù)】:61 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外相關(guān)研究
1.3 本文主要研究?jī)?nèi)容
第二章 聚類(lèi)的基本理論
2.1 聚類(lèi)理論基礎(chǔ)
2.1.1 聚類(lèi)概念
2.1.2 聚類(lèi)定義
2.2 聚類(lèi)方法
2.2.1 五類(lèi)聚類(lèi)算法
2.2.1.1 基于劃分的聚類(lèi)算法
2.2.1.2 基于層次的聚類(lèi)算法
2.2.1.3 基于密度的聚類(lèi)算法
2.2.1.4 基于網(wǎng)格的聚類(lèi)算法
2.2.1.5 基于模型的聚類(lèi)算法
2.2.2 模糊C均值聚類(lèi)算法
2.3 距離度量
2.3.1 距離度量方法
2.3.2 相似性度量
2.4 高維數(shù)據(jù)的聚類(lèi)問(wèn)題
2.4.1 對(duì)高維數(shù)據(jù)進(jìn)行特征約簡(jiǎn)
2.4.2 對(duì)高維數(shù)據(jù)相似性度量進(jìn)行改進(jìn)
2.4.3 采用子空間聚類(lèi)技術(shù)
2.5 總結(jié)
第三章 高維數(shù)據(jù)的增量式聚類(lèi)算法的距離度量選擇研究
3.1 引言
3.2 實(shí)驗(yàn)算法
3.2.1 加權(quán)模糊C均值算法
3.2.2 單程模糊C均值算法
3.3 不同的距離度量
3.3.1 基于余弦距離的SpFCM算法
3.4 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
3.4.1 算法評(píng)價(jià)指標(biāo)
3.4.2 實(shí)驗(yàn)結(jié)果及分析
3.5 結(jié)束語(yǔ)
第四章 具有抗噪性能適用高維數(shù)據(jù)的增量式聚類(lèi)算法
4.1 引言
4.2 相關(guān)工作
4.2.1 FCPM算法
4.3 具有抗噪性能的增量式模糊聚類(lèi)算法
4.3.1 ANFCM(c+p)算法
4.3.2 算法實(shí)現(xiàn)
4.4 實(shí)驗(yàn)研究
4.4.1 評(píng)價(jià)指標(biāo)
4.4.2 實(shí)驗(yàn)結(jié)果
4.4.2.1 實(shí)驗(yàn)環(huán)境
4.4.2.2 實(shí)驗(yàn)數(shù)據(jù)集
4.4.2.3 實(shí)驗(yàn)參數(shù)設(shè)置
4.4.2.4 算法性能比較
4.5 本章小結(jié)
總結(jié)與展望
總結(jié)
研究展望
致謝
參考文獻(xiàn)
附錄 :作者在攻讀碩士學(xué)位期間發(fā)表的論文
【參考文獻(xiàn)】:
期刊論文
[1]面向混合屬性數(shù)據(jù)集的改進(jìn)半監(jiān)督FCM聚類(lèi)方法[J]. 李曉慶,唐昊,司加勝,苗剛中. 自動(dòng)化學(xué)報(bào). 2018(12)
[2]基于余弦距離選取初始簇中心的文本聚類(lèi)研究[J]. 王彬宇,劉文芬,胡學(xué)先,魏江宏. 計(jì)算機(jī)工程與應(yīng)用. 2018(10)
[3]基于密度峰值優(yōu)化的模糊C均值聚類(lèi)算法[J]. 劉滄生,許青林. 計(jì)算機(jī)工程與應(yīng)用. 2018(14)
[4]一種基于決策粗糙集的模糊C均值聚類(lèi)數(shù)的確定方法[J]. 石文峰,商琳. 計(jì)算機(jī)科學(xué). 2017(09)
[5]基于融合歐氏距離與Kendall Tau距離度量的譜聚類(lèi)算法(英文)[J]. 光俊葉,邵偉,孫亮,張道強(qiáng). 控制理論與應(yīng)用. 2017(06)
[6]基于混合距離學(xué)習(xí)的魯棒的模糊C均值聚類(lèi)算法[J]. 卞則康,王士同. 智能系統(tǒng)學(xué)報(bào). 2017(04)
[7]基于貝葉斯距離的K-modes聚類(lèi)算法[J]. 趙亮,劉建輝,張昭昭. 計(jì)算機(jī)工程與科學(xué). 2017(01)
[8]基于密度和混合距離度量方法的混合屬性數(shù)據(jù)聚類(lèi)研究[J]. 陳晉音,何輝豪. 控制理論與應(yīng)用. 2015(08)
[9]一種非噪聲敏感性的模糊C均值聚類(lèi)算法[J]. 陳加順,皮德常. 小型微型計(jì)算機(jī)系統(tǒng). 2014(06)
[10]一種快速的廣義噪聲聚類(lèi)算法[J]. 武斌,武小紅,賈紅雯. 計(jì)算機(jī)工程與應(yīng)用. 2013(13)
博士論文
[1]數(shù)據(jù)挖掘中聚類(lèi)若干問(wèn)題研究[D]. 趙恒.西安電子科技大學(xué) 2005
[2]高維數(shù)據(jù)挖掘中若干關(guān)鍵問(wèn)題的研究[D]. 楊風(fēng)召.復(fù)旦大學(xué) 2003
碩士論文
[1]高維數(shù)據(jù)聚類(lèi)若干關(guān)鍵問(wèn)題研究[D]. 謝明霞.解放軍信息工程大學(xué) 2011
本文編號(hào):3663612
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3663612.html
最近更新
教材專(zhuān)著