面向混合屬性數(shù)據(jù)的自適應(yīng)三支聚類算法的研究
發(fā)布時(shí)間:2020-07-04 05:09
【摘要】:聚類分析作為一種有效的無(wú)監(jiān)督數(shù)據(jù)挖掘方法,已經(jīng)廣泛地應(yīng)用在教育、商業(yè)、農(nóng)業(yè)等許多實(shí)際領(lǐng)域中。為了克服傳統(tǒng)二支聚類算法不能夠有效表示數(shù)據(jù)對(duì)象與類簇之間存在的不確定性關(guān)系,三支聚類算法應(yīng)運(yùn)而生。在三支聚類表示中,類簇用兩個(gè)集合表示,其將數(shù)據(jù)空間劃分為三個(gè)域,即:核心域中的數(shù)據(jù)對(duì)象確定屬于該類簇,邊緣域中的數(shù)據(jù)對(duì)象可能屬于該類簇,瑣碎域中的數(shù)據(jù)對(duì)象確定不屬于該類簇。一方面,目前的三支決策方法研究中,往往需要通過(guò)合適的評(píng)價(jià)函數(shù)以及相應(yīng)的閾值來(lái)獲得三支結(jié)果。但是,閾值的設(shè)定往往沒(méi)有科學(xué)且高效的方法。另外一方面,現(xiàn)實(shí)生活中存在著大量混合屬性數(shù)據(jù)。因此,論文針對(duì)面向混合屬性數(shù)據(jù)的自適應(yīng)三支聚類算法進(jìn)行了深入的研究。針對(duì)三支聚類閾值問(wèn)題,論文提出了一種基于引力搜索的自適應(yīng)三支聚類算法。受物理學(xué)中萬(wàn)有引力定律的啟發(fā),根據(jù)二支聚類結(jié)果中數(shù)據(jù)對(duì)象局部質(zhì)量的分布,以萬(wàn)有引力公式作為評(píng)價(jià)函數(shù),將初始聚類結(jié)果中未被聚類的數(shù)據(jù)對(duì)象,根據(jù)萬(wàn)有引力大小劃分至其鄰居類簇的核心域、邊緣域或者瑣碎域中。同時(shí),在聚類的過(guò)程中,針對(duì)每一個(gè)未被聚類的數(shù)據(jù)對(duì)象,三支決策閾值能夠自適應(yīng)地調(diào)整。通過(guò)多組實(shí)驗(yàn)分析,保證聚類效果的同時(shí),基于引力搜索的自適應(yīng)三支聚類算法不僅能夠有效保留二支類簇的形狀信息,而且能夠有效解決重疊聚類的問(wèn)題。同時(shí),為保證工作的完整性,論文提出了一種改進(jìn)密度峰值聚類算法作為二支聚類算法,獲得二支聚類結(jié)果并發(fā)現(xiàn)沒(méi)有明確類簇歸屬的數(shù)據(jù)對(duì)象。針對(duì)混合屬性數(shù)據(jù)相似性度量問(wèn)題,論文提出了一種基于加權(quán)樹(shù)結(jié)構(gòu)的混合屬性數(shù)據(jù)相似性度量方式,能夠有效減少相似性度量過(guò)程中屬性值信息的損失。針對(duì)分類屬性以及有序?qū)傩?構(gòu)建加權(quán)樹(shù)結(jié)構(gòu),充分考慮了屬性值語(yǔ)義、屬性值個(gè)數(shù)以及屬性值在數(shù)據(jù)集中出現(xiàn)的頻率;針對(duì)數(shù)值屬性,進(jìn)行歸一化處理。同時(shí),結(jié)合基于引力搜索的自適應(yīng)三支聚類算法,論文進(jìn)一步提出了面向混合屬性數(shù)據(jù)的自適應(yīng)三支聚類算法。在真實(shí)數(shù)據(jù)集上進(jìn)行的多組實(shí)驗(yàn)結(jié)果說(shuō)明了新算法的合理性以及有效性。
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.13
【圖文】:
決策思想的啟發(fā),我們通過(guò)一對(duì)集合表示一個(gè)類簇。三支類簇表示更適合處理不確定性,因?yàn)樗軌蛴行д故究赡軐儆陬惔氐臄?shù)據(jù)對(duì)象。同時(shí),傳統(tǒng)的二支聚類算法通常僅僅是發(fā)現(xiàn)可能邊緣的數(shù)據(jù)對(duì)象,而不是對(duì)它們進(jìn)行進(jìn)一步自動(dòng)地劃分,并且往往稱這樣的數(shù)據(jù)對(duì)象為“噪聲點(diǎn)”。為了能夠進(jìn)一步對(duì)這些數(shù)據(jù)對(duì)象進(jìn)行自動(dòng)地劃分,我們提出了一種有效的三支聚類算法,TWC-GS。算法基于萬(wàn)有引力思想,能夠在聚類過(guò)程中,自適應(yīng)的調(diào)整閾值,得到數(shù)據(jù)對(duì)象與類簇之間更加詳細(xì)的歸屬信息。同時(shí),為保證工作的完整性,我們同樣提出了一種二支聚類算法來(lái)獲取二支聚類結(jié)果,并發(fā)現(xiàn)未被聚類的數(shù)據(jù)對(duì)象。實(shí)驗(yàn)結(jié)果說(shuō)明,論文提出的三支聚類算法,不僅能夠根據(jù)二支聚類結(jié)果自動(dòng)地得到三支聚類結(jié)果,而且在 Accuracy、F-measure、NMI、RI 四個(gè)指標(biāo)下優(yōu)于對(duì)比算法。3.1 算法框架概述
實(shí)例的初始聚類結(jié)果
本文編號(hào):2740687
【學(xué)位授予單位】:重慶郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:TP311.13
【圖文】:
決策思想的啟發(fā),我們通過(guò)一對(duì)集合表示一個(gè)類簇。三支類簇表示更適合處理不確定性,因?yàn)樗軌蛴行д故究赡軐儆陬惔氐臄?shù)據(jù)對(duì)象。同時(shí),傳統(tǒng)的二支聚類算法通常僅僅是發(fā)現(xiàn)可能邊緣的數(shù)據(jù)對(duì)象,而不是對(duì)它們進(jìn)行進(jìn)一步自動(dòng)地劃分,并且往往稱這樣的數(shù)據(jù)對(duì)象為“噪聲點(diǎn)”。為了能夠進(jìn)一步對(duì)這些數(shù)據(jù)對(duì)象進(jìn)行自動(dòng)地劃分,我們提出了一種有效的三支聚類算法,TWC-GS。算法基于萬(wàn)有引力思想,能夠在聚類過(guò)程中,自適應(yīng)的調(diào)整閾值,得到數(shù)據(jù)對(duì)象與類簇之間更加詳細(xì)的歸屬信息。同時(shí),為保證工作的完整性,我們同樣提出了一種二支聚類算法來(lái)獲取二支聚類結(jié)果,并發(fā)現(xiàn)未被聚類的數(shù)據(jù)對(duì)象。實(shí)驗(yàn)結(jié)果說(shuō)明,論文提出的三支聚類算法,不僅能夠根據(jù)二支聚類結(jié)果自動(dòng)地得到三支聚類結(jié)果,而且在 Accuracy、F-measure、NMI、RI 四個(gè)指標(biāo)下優(yōu)于對(duì)比算法。3.1 算法框架概述
實(shí)例的初始聚類結(jié)果
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 蔡莉;魏云剛;;教育資源共享網(wǎng)絡(luò)中教師聚類的提取與應(yīng)用[J];現(xiàn)代教育技術(shù);2010年06期
相關(guān)碩士學(xué)位論文 前1條
1 張聰;一種基于樹(shù)結(jié)構(gòu)的三支增量聚類算法研究[D];重慶郵電大學(xué);2015年
本文編號(hào):2740687
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2740687.html
最近更新
教材專著