基于特征關系的聚類集成研究
發(fā)布時間:2017-12-10 17:25
本文關鍵詞:基于特征關系的聚類集成研究
更多相關文章: 機器學習 聚類分析 集成學習 特征工程 提升學習
【摘要】:聚類分析是一種應用性很強的機器學習策略,它主要用于將原數(shù)據(jù)集劃分成具有明顯區(qū)分邊界的若干組數(shù)據(jù)。由于該策略對數(shù)據(jù)自身性質(zhì)的敏感性,所以在聚類分析的具體實現(xiàn)方法中不存在一種通用的方法,可以處理任意性質(zhì)的數(shù)據(jù)集。為了解決這個問題,許多學者提出并研究使用集成學習來改進聚類分析,取得了很好的的效果。然而,在大部分學者的研究中,他們將重點放在了集成學習的算法實現(xiàn)上,而對數(shù)據(jù)本身并沒有過多的關注。但是,在機器學習這一領域中,數(shù)據(jù)自身性質(zhì)會對其最終的學習質(zhì)量產(chǎn)生很大的影響,特別是當數(shù)據(jù)中特征較多并且關系較為復雜時,特征工程可以非常顯著地提升機器學習的學習質(zhì)量。因此,論文從數(shù)據(jù)特征的角度出發(fā),對聚類集成進行了如下研究:1.對于聚類集成的第一個過程,我們以降低特征之間相關性為目標,生成聚類成員所使用的的特征子集,由此可以提高聚類成員之間的差異性,使其在集成時獲得更優(yōu)的聚類質(zhì)量。2.對于聚類集成的第二個過程,我們根據(jù)數(shù)據(jù)自身性質(zhì)的差別,提出了 4種用于評價聚類成員自身效果的權(quán)重計算方法。在對聚類成員進行融合時,根據(jù)數(shù)據(jù)自身的性質(zhì)針對性地使用這些權(quán)重計算方法,可以得到最佳的聚類結(jié)果。3.對于以迭代優(yōu)化為核心的聚類集成策略,我們考察了一種傳統(tǒng)的基于提升學習(Boosting)的聚類集成方法,并深入分析了該方法應用于聚類集成的困難與挑戰(zhàn),同時以數(shù)據(jù)特征為出發(fā)點對其進行了改進。改進后的方法在判斷數(shù)據(jù)的聚類質(zhì)量時更加穩(wěn)定,并且比傳統(tǒng)方法具有更好的時間性能。
【學位授予單位】:華東師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13;TP181
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 潘俊;王瑞琴;;基于選擇性聚類集成的客戶細分[J];計算機集成制造系統(tǒng);2015年06期
2 沈暢;樂天;;遺傳算法中的變異算子的述評[J];科技視界;2012年23期
3 張玉芳;王勇;熊忠陽;劉明;;不平衡數(shù)據(jù)集上的文本分類特征選擇新方法[J];計算機應用研究;2011年12期
4 鄧春燕;;遺傳算法的交叉算子分析[J];農(nóng)業(yè)網(wǎng)絡信息;2009年05期
5 陽琳峗;周海京;卓晴;王文淵;;基于屬性重要性的加權(quán)聚類融合[J];計算機科學;2009年04期
6 朱強生;何華燦;周延泉;;譜聚類算法對輸入數(shù)據(jù)順序的敏感性[J];計算機應用研究;2007年04期
,本文編號:1275318
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1275318.html
最近更新
教材專著