基于鄰域鏈條的混合聚類算法研究
發(fā)布時(shí)間:2021-07-31 12:41
傳統(tǒng)的聚類分析僅可處理一些簡(jiǎn)單的數(shù)據(jù)集合,復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和龐大的數(shù)據(jù)規(guī)模對(duì)這些傳統(tǒng)方法來說是一個(gè)重大的難題。由于形狀不規(guī)則、密度不均勻的數(shù)據(jù)集合,使得存在明顯局限性的傳統(tǒng)方法無法解決這些問題。為了提升聚類效果及其廣泛的應(yīng)用性,本文圍繞如何解決任意數(shù)據(jù)集合中不同類型簇的準(zhǔn)確識(shí)別的問題展開研究,論文主要工作如下:(1)基于簇結(jié)構(gòu)的有向鄰域鏈條方法。傳統(tǒng)聚類算法中,基于幾何距離的相似度量標(biāo)準(zhǔn),在處理任意形狀、任意密度簇的聚類問題時(shí),不符合實(shí)際情況而且丟失一些能夠反映真實(shí)情況的重要信息。本文從數(shù)據(jù)點(diǎn)之間的鄰域關(guān)系入手,建立鄰域鏈條的最優(yōu)模型,以準(zhǔn)確刻畫數(shù)據(jù)點(diǎn)之間的相似度。通過分析發(fā)現(xiàn)鄰域鏈條具有非對(duì)稱性,為了避免對(duì)稱運(yùn)算帶來新的問題,提出了有向鄰域鏈條,實(shí)現(xiàn)簇內(nèi)點(diǎn)相似度的最大化和簇間點(diǎn)相似度的最小化。(2)基于簇結(jié)構(gòu)的有向鄰域鏈條聚類方法(FDNCCS)。假設(shè)相似度量為有向鄰域鏈條,但是不同的聚類方式同樣會(huì)導(dǎo)致大的聚類誤差。為了提高聚類效果,本文在有向鄰域鏈條的基礎(chǔ)上提出了一種新的聚類方法:最優(yōu)母點(diǎn)匹配法,并在有向鄰域鏈條模型基礎(chǔ)上改進(jìn)得到新的模型。主要任務(wù)就是讓每個(gè)點(diǎn)找到與其相似度最高的高優(yōu)...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:86 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于不同鄰域數(shù),A與C的鄰域可達(dá)情況
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-11-是同樣的處理方式。最終兩點(diǎn)0+1{,}ncc之間的相似度通過一個(gè)對(duì)稱化操作定義為:(,")0+1(,)1/(e(maxs(,),maxs(,)))0,,kkniii+1iii+1CMNCccccc"c"in(2-13)式(2-13)中的可以根據(jù)不同需要定義成不同的對(duì)稱化操作。圖2-2給出算法流程,首先設(shè)置最近鄰域點(diǎn)數(shù)為2,先找出起點(diǎn)的最近2鄰域中與終點(diǎn)最近的點(diǎn),如果存在這個(gè)點(diǎn)且這個(gè)點(diǎn)不違背公式(2-11)的約束條件2,則將該點(diǎn)作為鏈條序列中的下一個(gè)中間點(diǎn),按照上述原則繼續(xù)搜索下一個(gè)中間點(diǎn),直到抵達(dá)終點(diǎn)。如果這個(gè)點(diǎn)違背公式(2-11)的約束條件2,則說明無法滿足建立鄰域鏈條的條件,因此最近鄰域點(diǎn)數(shù)加一,再重復(fù)上面的過程,直到出現(xiàn)一條從起點(diǎn)到終點(diǎn)的鄰域鏈條,這樣的鏈條稱為成功鏈條,在此之前的所有鏈條都為失敗鏈條。圖2-2基于不同鄰域數(shù),A與C的鄰域可達(dá)情況成功鏈條所對(duì)應(yīng)的最近鄰域點(diǎn)數(shù)就是最小需求鄰域數(shù),這個(gè)值越大說明建立鏈條的復(fù)雜度越高,進(jìn)而反映了起點(diǎn)和終點(diǎn)有很大的分布差異。鄰域可達(dá)代價(jià)主要是由數(shù)據(jù)之間的連接性造成,連接性越差,建立成功鏈條所對(duì)應(yīng)的最小需求鄰域數(shù)越大,相應(yīng)的鄰域可達(dá)代價(jià)越高。這只是衡量了數(shù)據(jù)之間的連接性,只能粗略地描述數(shù)據(jù)分布特點(diǎn)。為了更加細(xì)致地描述數(shù)據(jù)地分布
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-15-1不在數(shù)據(jù)點(diǎn)3的最近2鄰域內(nèi),這意味著基于2鄰域的從點(diǎn)3到點(diǎn)1的鄰域鏈條無法建立。注意,在有向最近4鄰域圖中數(shù)據(jù)點(diǎn)1在數(shù)據(jù)點(diǎn)3的鄰域內(nèi),意味著基于4鄰域從點(diǎn)3到點(diǎn)1的鄰域鏈條可以建立。圖3-1K鄰域圖大多數(shù)相似矩陣都是對(duì)稱的,因此在CMNC中需要一個(gè)對(duì)稱運(yùn)算。如果最小化作為CMNC的對(duì)稱操作,則會(huì)引入大量的連接,分離性不好的簇可能會(huì)被合并為一個(gè)簇。如果最大化作為CMNC的對(duì)稱操作,則會(huì)減少簇內(nèi)部的連接,存在局部變動(dòng)的簇可能會(huì)被劃分為很多組。為了避免對(duì)稱操作帶來的這些問題,本章提出了基于簇結(jié)構(gòu)的有向鄰域鏈條,這種鏈條可以放大簇內(nèi)點(diǎn)的相似度和簇間點(diǎn)的差異度。從圖3-1可以看出從數(shù)據(jù)點(diǎn)1到數(shù)據(jù)點(diǎn)3的鄰域鏈條需要更小的鄰域數(shù)相比于從數(shù)據(jù)點(diǎn)3到數(shù)據(jù)點(diǎn)1的鄰域鏈條。很明顯數(shù)據(jù)點(diǎn)1的密度要比數(shù)據(jù)點(diǎn)3的密度小,也就是說,數(shù)據(jù)點(diǎn)1的鄰域分布更稀疏。因?yàn)榇剡吔琰c(diǎn)相比于簇核心點(diǎn)的鄰域分布要稀疏,為了放大簇內(nèi)部數(shù)據(jù)點(diǎn)的相似度,從簇邊界到簇核心的有向鄰域鏈條將是很好的一個(gè)選擇。而且同時(shí)放大簇間的差異度也很重要,因此對(duì)于分離性不好的簇從高密度簇到低密度簇的有向鄰域鏈條將是最優(yōu)的選擇。3.2.2簇結(jié)構(gòu)在介紹有向鄰域鏈條之前,先來介紹兩種簇結(jié)構(gòu)分別是從簇核心到簇邊緣的結(jié)構(gòu)和從低密度簇到高密度簇的結(jié)構(gòu),如圖3-2到3-5所示,x軸坐標(biāo)代表數(shù)據(jù)點(diǎn)在簇結(jié)構(gòu)中的索引,y軸坐標(biāo)代表數(shù)據(jù)點(diǎn)的所有鄰域點(diǎn)數(shù)目n與鄰域點(diǎn)
【參考文獻(xiàn)】:
博士論文
[1]聚類分析及其在圖像處理中的應(yīng)用[D]. 肖宇.北京交通大學(xué) 2012
[2]聚類分析及其應(yīng)用研究[D]. 唐東明.電子科技大學(xué) 2010
碩士論文
[1]圖像聚類及其在圖像檢索中的應(yīng)用研究[D]. 楊傳慧.南京師范大學(xué) 2013
本文編號(hào):3313488
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:86 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
基于不同鄰域數(shù),A與C的鄰域可達(dá)情況
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-11-是同樣的處理方式。最終兩點(diǎn)0+1{,}ncc之間的相似度通過一個(gè)對(duì)稱化操作定義為:(,")0+1(,)1/(e(maxs(,),maxs(,)))0,,kkniii+1iii+1CMNCccccc"c"in(2-13)式(2-13)中的可以根據(jù)不同需要定義成不同的對(duì)稱化操作。圖2-2給出算法流程,首先設(shè)置最近鄰域點(diǎn)數(shù)為2,先找出起點(diǎn)的最近2鄰域中與終點(diǎn)最近的點(diǎn),如果存在這個(gè)點(diǎn)且這個(gè)點(diǎn)不違背公式(2-11)的約束條件2,則將該點(diǎn)作為鏈條序列中的下一個(gè)中間點(diǎn),按照上述原則繼續(xù)搜索下一個(gè)中間點(diǎn),直到抵達(dá)終點(diǎn)。如果這個(gè)點(diǎn)違背公式(2-11)的約束條件2,則說明無法滿足建立鄰域鏈條的條件,因此最近鄰域點(diǎn)數(shù)加一,再重復(fù)上面的過程,直到出現(xiàn)一條從起點(diǎn)到終點(diǎn)的鄰域鏈條,這樣的鏈條稱為成功鏈條,在此之前的所有鏈條都為失敗鏈條。圖2-2基于不同鄰域數(shù),A與C的鄰域可達(dá)情況成功鏈條所對(duì)應(yīng)的最近鄰域點(diǎn)數(shù)就是最小需求鄰域數(shù),這個(gè)值越大說明建立鏈條的復(fù)雜度越高,進(jìn)而反映了起點(diǎn)和終點(diǎn)有很大的分布差異。鄰域可達(dá)代價(jià)主要是由數(shù)據(jù)之間的連接性造成,連接性越差,建立成功鏈條所對(duì)應(yīng)的最小需求鄰域數(shù)越大,相應(yīng)的鄰域可達(dá)代價(jià)越高。這只是衡量了數(shù)據(jù)之間的連接性,只能粗略地描述數(shù)據(jù)分布特點(diǎn)。為了更加細(xì)致地描述數(shù)據(jù)地分布
哈爾濱工業(yè)大學(xué)工程碩士學(xué)位論文-15-1不在數(shù)據(jù)點(diǎn)3的最近2鄰域內(nèi),這意味著基于2鄰域的從點(diǎn)3到點(diǎn)1的鄰域鏈條無法建立。注意,在有向最近4鄰域圖中數(shù)據(jù)點(diǎn)1在數(shù)據(jù)點(diǎn)3的鄰域內(nèi),意味著基于4鄰域從點(diǎn)3到點(diǎn)1的鄰域鏈條可以建立。圖3-1K鄰域圖大多數(shù)相似矩陣都是對(duì)稱的,因此在CMNC中需要一個(gè)對(duì)稱運(yùn)算。如果最小化作為CMNC的對(duì)稱操作,則會(huì)引入大量的連接,分離性不好的簇可能會(huì)被合并為一個(gè)簇。如果最大化作為CMNC的對(duì)稱操作,則會(huì)減少簇內(nèi)部的連接,存在局部變動(dòng)的簇可能會(huì)被劃分為很多組。為了避免對(duì)稱操作帶來的這些問題,本章提出了基于簇結(jié)構(gòu)的有向鄰域鏈條,這種鏈條可以放大簇內(nèi)點(diǎn)的相似度和簇間點(diǎn)的差異度。從圖3-1可以看出從數(shù)據(jù)點(diǎn)1到數(shù)據(jù)點(diǎn)3的鄰域鏈條需要更小的鄰域數(shù)相比于從數(shù)據(jù)點(diǎn)3到數(shù)據(jù)點(diǎn)1的鄰域鏈條。很明顯數(shù)據(jù)點(diǎn)1的密度要比數(shù)據(jù)點(diǎn)3的密度小,也就是說,數(shù)據(jù)點(diǎn)1的鄰域分布更稀疏。因?yàn)榇剡吔琰c(diǎn)相比于簇核心點(diǎn)的鄰域分布要稀疏,為了放大簇內(nèi)部數(shù)據(jù)點(diǎn)的相似度,從簇邊界到簇核心的有向鄰域鏈條將是很好的一個(gè)選擇。而且同時(shí)放大簇間的差異度也很重要,因此對(duì)于分離性不好的簇從高密度簇到低密度簇的有向鄰域鏈條將是最優(yōu)的選擇。3.2.2簇結(jié)構(gòu)在介紹有向鄰域鏈條之前,先來介紹兩種簇結(jié)構(gòu)分別是從簇核心到簇邊緣的結(jié)構(gòu)和從低密度簇到高密度簇的結(jié)構(gòu),如圖3-2到3-5所示,x軸坐標(biāo)代表數(shù)據(jù)點(diǎn)在簇結(jié)構(gòu)中的索引,y軸坐標(biāo)代表數(shù)據(jù)點(diǎn)的所有鄰域點(diǎn)數(shù)目n與鄰域點(diǎn)
【參考文獻(xiàn)】:
博士論文
[1]聚類分析及其在圖像處理中的應(yīng)用[D]. 肖宇.北京交通大學(xué) 2012
[2]聚類分析及其應(yīng)用研究[D]. 唐東明.電子科技大學(xué) 2010
碩士論文
[1]圖像聚類及其在圖像檢索中的應(yīng)用研究[D]. 楊傳慧.南京師范大學(xué) 2013
本文編號(hào):3313488
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3313488.html
最近更新
教材專著