核密度估計(jì)的聚類算法
發(fā)布時(shí)間:2020-01-18 07:27
【摘要】:相似性度量是聚類分析的重要基礎(chǔ),如何有效衡量類屬型符號(hào)間的相似性是相似性度量的一個(gè)難點(diǎn).文中根據(jù)離散符號(hào)的核概率密度衡量符號(hào)間的相似性,與傳統(tǒng)的簡(jiǎn)單符號(hào)匹配及符號(hào)頻度估計(jì)方法不同,該相似性度量在核函數(shù)帶寬的作用下,不再依賴同一屬性上符號(hào)間獨(dú)立性假設(shè).隨后建立類屬型數(shù)據(jù)的貝葉斯聚類模型,定義基于似然的類屬型對(duì)象-簇間相似性度量,給出基于模型的聚類算法.采用留一估計(jì)和最大似然估計(jì),提出3種求解方法在聚類過(guò)程中動(dòng)態(tài)確定最優(yōu)的核帶寬.實(shí)驗(yàn)表明,相比使用特征加權(quán)或簡(jiǎn)單匹配距離的聚類算法,文中算法可以獲得更高的聚類精度,估計(jì)的核函數(shù)帶寬在重要特征識(shí)別等應(yīng)用中具有實(shí)際意義.
【圖文】:
?]為帶寬,Xd為對(duì)應(yīng)簇ck屬性d的離散隨機(jī)變量.符號(hào)xd的概率密度可以使用如下核密度估計(jì):^p(xd;bkd)=1nk∑y∈ckκ(xdyd;bkd)=bkdmd+(1-bkd)fk(xd),(3)其中fk(xd)=1nk∑y∈ckI(xd=yd),(4)為符號(hào)xd在ck第d個(gè)屬性上的頻度估計(jì).由于核函數(shù)實(shí)質(zhì)上是一種相似性度量[12,,18],只要給定恰當(dāng)?shù)膸,符?hào)(包括不同符號(hào)和相同符號(hào))間的相似性可以通過(guò)KDE計(jì)算.使用KDE估計(jì)離散符號(hào)概率密度的實(shí)例如圖1所示,帶寬值體現(xiàn)各符號(hào)概率分布的平滑程度.圖1核密度估計(jì)的例子Fig.1Exampleforkerneldensityestimation由式(2)可知,當(dāng)帶寬bkd≠0,對(duì)于2個(gè)不同的符號(hào)s≠s',有κ(ss';bkd)>0,這個(gè)特點(diǎn)是傳統(tǒng)“非此即彼”型符號(hào)匹配方法[4,8-9]不具備的.在這個(gè)度量中,符號(hào)間的距離不再依賴于符號(hào)的簡(jiǎn)單匹配,而是根據(jù)它們(視為離散隨機(jī)變量Xd的觀測(cè)值)概率密度的差異以衡量.式(2)還表明,這實(shí)際上是一種條件概率,由此定義的距離度量不受符號(hào)間獨(dú)立假設(shè)的限制,但取決于帶寬bkd的值.如何在數(shù)據(jù)驅(qū)動(dòng)方式下估計(jì)最優(yōu)核函數(shù)帶寬是現(xiàn)階段研究和應(yīng)用KDE的難點(diǎn)問(wèn)題[14,16-17].如式(3)所示,核密度估計(jì)器需滿足漸進(jìn)性質(zhì)[14,16],當(dāng)nk→!時(shí)^p(xd;bkd)應(yīng)為p(xdk)的一致估計(jì)(ConsistentEstimator).使用式(2)等核函數(shù)時(shí),該性質(zhì)要求nk→!時(shí)bkd→0,^p(xd;bkd)退化為頻度估計(jì),根據(jù)大數(shù)定理,該估計(jì)為p(xdk)的一致估計(jì).2核密度估計(jì)的類屬型數(shù)據(jù)聚類2.1聚類模型及其優(yōu)化基于概率模型的聚類算法以最大化樣本(相對(duì)于其所在簇)的似然
閂嘀蠆話閂噌舳
本文編號(hào):2570758
【圖文】:
?]為帶寬,Xd為對(duì)應(yīng)簇ck屬性d的離散隨機(jī)變量.符號(hào)xd的概率密度可以使用如下核密度估計(jì):^p(xd;bkd)=1nk∑y∈ckκ(xdyd;bkd)=bkdmd+(1-bkd)fk(xd),(3)其中fk(xd)=1nk∑y∈ckI(xd=yd),(4)為符號(hào)xd在ck第d個(gè)屬性上的頻度估計(jì).由于核函數(shù)實(shí)質(zhì)上是一種相似性度量[12,,18],只要給定恰當(dāng)?shù)膸,符?hào)(包括不同符號(hào)和相同符號(hào))間的相似性可以通過(guò)KDE計(jì)算.使用KDE估計(jì)離散符號(hào)概率密度的實(shí)例如圖1所示,帶寬值體現(xiàn)各符號(hào)概率分布的平滑程度.圖1核密度估計(jì)的例子Fig.1Exampleforkerneldensityestimation由式(2)可知,當(dāng)帶寬bkd≠0,對(duì)于2個(gè)不同的符號(hào)s≠s',有κ(ss';bkd)>0,這個(gè)特點(diǎn)是傳統(tǒng)“非此即彼”型符號(hào)匹配方法[4,8-9]不具備的.在這個(gè)度量中,符號(hào)間的距離不再依賴于符號(hào)的簡(jiǎn)單匹配,而是根據(jù)它們(視為離散隨機(jī)變量Xd的觀測(cè)值)概率密度的差異以衡量.式(2)還表明,這實(shí)際上是一種條件概率,由此定義的距離度量不受符號(hào)間獨(dú)立假設(shè)的限制,但取決于帶寬bkd的值.如何在數(shù)據(jù)驅(qū)動(dòng)方式下估計(jì)最優(yōu)核函數(shù)帶寬是現(xiàn)階段研究和應(yīng)用KDE的難點(diǎn)問(wèn)題[14,16-17].如式(3)所示,核密度估計(jì)器需滿足漸進(jìn)性質(zhì)[14,16],當(dāng)nk→!時(shí)^p(xd;bkd)應(yīng)為p(xdk)的一致估計(jì)(ConsistentEstimator).使用式(2)等核函數(shù)時(shí),該性質(zhì)要求nk→!時(shí)bkd→0,^p(xd;bkd)退化為頻度估計(jì),根據(jù)大數(shù)定理,該估計(jì)為p(xdk)的一致估計(jì).2核密度估計(jì)的類屬型數(shù)據(jù)聚類2.1聚類模型及其優(yōu)化基于概率模型的聚類算法以最大化樣本(相對(duì)于其所在簇)的似然
閂嘀蠆話閂噌舳
本文編號(hào):2570758
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2570758.html
最近更新
教材專著