一種基于信息熵的混合數(shù)據(jù)屬性加權(quán)聚類算法
發(fā)布時(shí)間:2018-01-02 16:04
本文關(guān)鍵詞:一種基于信息熵的混合數(shù)據(jù)屬性加權(quán)聚類算法 出處:《計(jì)算機(jī)研究與發(fā)展》2016年05期 論文類型:期刊論文
更多相關(guān)文章: 聚類分析 混合數(shù)據(jù) 屬性加權(quán) 信息熵 相異性度量
【摘要】:同時(shí)兼具數(shù)值型和分類型屬性的混合數(shù)據(jù)在實(shí)際應(yīng)用中普通存在,混合數(shù)據(jù)的聚類分析越來(lái)越受到廣泛的關(guān)注.為解決高維混合數(shù)據(jù)聚類中屬性加權(quán)問(wèn)題,提出了一種基于信息熵的混合數(shù)據(jù)屬性加權(quán)聚類算法,以提升模式發(fā)現(xiàn)的效果.工作主要包括:首先為了更加準(zhǔn)確客觀地度量對(duì)象與類之間的差異性,設(shè)計(jì)了針對(duì)混合數(shù)據(jù)的擴(kuò)展歐氏距離;然后,在信息熵框架下利用類內(nèi)信息熵和類間信息熵給出了聚類結(jié)果中類內(nèi)抱團(tuán)性及一個(gè)類與其余類分離度的統(tǒng)一度量機(jī)制,并基于此給出了一種屬性重要性度量方法,進(jìn)而設(shè)計(jì)了一種基于信息熵的屬性加權(quán)混合數(shù)據(jù)聚類算法.在10個(gè)UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出的算法在4種聚類評(píng)價(jià)指標(biāo)下優(yōu)于傳統(tǒng)的屬性未加權(quán)聚類算法和已有的屬性加權(quán)聚類算法,并通過(guò)統(tǒng)計(jì)顯著性檢驗(yàn)表明本文提出算法的聚類結(jié)果與已有算法聚類結(jié)果具有顯著差異性.
[Abstract]:In order to solve the problem of attribute weighting in high - dimensional mixed data cluster , an extended Euclidean distance for mixed data is proposed in order to solve the problem of attribute weighting in high - dimensional mixed data cluster . The results show that the proposed algorithm is superior to the traditional attribute - weighted clustering algorithm and the existing attribute - weighted clustering algorithm under the information entropy framework .
【作者單位】: 山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院;計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室(山西大學(xué));
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61432011,U1435212,61402272) 國(guó)家“九七三”重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃基金項(xiàng)目(2013CB329404) 山西省自然科學(xué)基金項(xiàng)目(2013021018-1)~~
【分類號(hào)】:TP311.13
【正文快照】: This work was supported by the National Natural Science Foundation of China(61432011,U1435212,61402272),the NationalBasic Research Program of China(973Program)(2013CB329404),and the Natural Science Foundation of Shanxi Province ofChina(2013021018-1).(zha,
本文編號(hào):1369924
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1369924.html
最近更新
教材專著