多尺度聚類(lèi)挖掘方法
本文關(guān)鍵詞:多尺度聚類(lèi)挖掘方法,由筆耕文化傳播整理發(fā)布。
【摘要】:聚類(lèi)挖掘是數(shù)據(jù)挖掘研究領(lǐng)域的一個(gè)重要研究分支,在語(yǔ)音識(shí)別、圖像分割、市場(chǎng)營(yíng)銷(xiāo)、金融保險(xiǎn)、電子商務(wù)等諸多領(lǐng)域廣泛應(yīng)用。聚類(lèi)挖掘的實(shí)質(zhì)是旨在將樣本集按其自身屬性聚成若干類(lèi),以保證類(lèi)內(nèi)樣本相似度盡可能高,而類(lèi)間樣本相似度盡可能低。多尺度聚類(lèi)是典型的跨學(xué)科課題,其本質(zhì)是利用聚類(lèi)技術(shù)多尺度、多層次地剖析研究客體的客觀構(gòu)成,研究尺度轉(zhuǎn)換引起的尺度效應(yīng)現(xiàn)象和各尺度間的函數(shù)關(guān)系。多尺度理論已在聚類(lèi)挖掘領(lǐng)域取得了可觀的進(jìn)展,提出了一些多尺度聚類(lèi)挖掘的理論和方法,但研究多局限于空間、圖像數(shù)據(jù),限制了多尺度科學(xué)在聚類(lèi)技術(shù)上的應(yīng)用和推廣。論文結(jié)合多尺度科學(xué)與聚類(lèi)挖掘各自領(lǐng)域特點(diǎn),進(jìn)一步研究面向一般數(shù)據(jù)集的多尺度理論與多尺度聚類(lèi)挖掘方法。在聚類(lèi)挖掘領(lǐng)域引入多尺度科學(xué)的相關(guān)理論與方法,提出以概念分層為基準(zhǔn)的廣義尺度定義,分析尺度轉(zhuǎn)換和尺度效應(yīng)實(shí)質(zhì),構(gòu)建多尺度聚類(lèi)挖掘系統(tǒng)結(jié)構(gòu),最終形成多尺度聚類(lèi)挖掘理論體系;以多尺度聚類(lèi)挖掘理論與方法為指導(dǎo)思想,結(jié)合無(wú)偏最優(yōu)估計(jì)的克里格方法,提出多尺度聚類(lèi)挖掘的尺度上推挖掘算法和尺度下推挖掘算法,實(shí)現(xiàn)數(shù)據(jù)聚類(lèi)的多尺度化;最后,提出基于信息熵的多尺度聚類(lèi)尺度轉(zhuǎn)換結(jié)果評(píng)價(jià)指標(biāo),為最終的多尺度聚類(lèi)挖掘結(jié)果提供了理論和方法支持。本文立足聚類(lèi)挖掘,借助多尺度科學(xué)理論,探索構(gòu)建多尺度聚類(lèi)挖掘理論體系,研究多尺度聚類(lèi)尺度轉(zhuǎn)換方法以及尺度轉(zhuǎn)換結(jié)果評(píng)價(jià)指標(biāo)。主要研究?jī)?nèi)容包括以下幾個(gè)方面:1)探討構(gòu)建多尺度聚類(lèi)挖掘理論體系傳統(tǒng)的聚類(lèi)挖掘未對(duì)數(shù)據(jù)的多尺度特性進(jìn)行深入研究,并且已有的多尺度聚類(lèi)挖掘理論和方法多局限于空間、圖像數(shù)據(jù)。針對(duì)存在的問(wèn)題,從多尺度數(shù)據(jù)集、尺度轉(zhuǎn)換、尺度效應(yīng)和多尺度聚類(lèi)挖掘系統(tǒng)結(jié)構(gòu)四個(gè)方面研究多尺度聚類(lèi)挖掘理論體系。首先,提出基于概念分層的數(shù)據(jù)尺度、尺度劃分和多尺度數(shù)據(jù)集以及多尺度數(shù)據(jù)集之間祖孫、父子、兄弟和上下層關(guān)系的定義,確立理論基礎(chǔ);其次,分析多尺度聚類(lèi)挖掘核心——尺度轉(zhuǎn)換的定義、原因、分類(lèi)和途徑;再次,歸納多尺度聚類(lèi)尺度效應(yīng)的定義及其影響;最后,在傳統(tǒng)數(shù)據(jù)挖掘過(guò)程的基礎(chǔ)上,提出多尺度聚類(lèi)挖掘系統(tǒng)結(jié)構(gòu),為多尺度聚類(lèi)的后續(xù)研究提供理論支撐和實(shí)現(xiàn)思路。2)提出多尺度聚類(lèi)挖掘算法多尺度聚類(lèi)挖掘理論體系為尺度轉(zhuǎn)換提供了理論基礎(chǔ),結(jié)合尺度轉(zhuǎn)換過(guò)程,構(gòu)造多尺度聚類(lèi)挖掘算法框架;分析克里格法可用于一般數(shù)據(jù)集的本質(zhì);通過(guò)分析目前地學(xué)、圖像學(xué)、生物學(xué)等學(xué)科較為成熟的尺度轉(zhuǎn)換方法思想,基于塊狀克里格法BK(Block Kriging)提出多尺度聚類(lèi)挖掘尺度上推算法MSCSUA(Multi-Scale Clustering Scaling Up Algorithm),并基于回歸面到點(diǎn)克里格法ATPRK(Area To Point Regression Kriging)提出多尺度聚類(lèi)挖掘尺度下推算法MSCSDA(Multi-Scale Clustering Scaling Down Algorithm)。算法實(shí)現(xiàn)了聚類(lèi)挖掘知識(shí)的多尺度化,與傳統(tǒng)聚類(lèi)算法直接在目標(biāo)尺度進(jìn)行聚類(lèi)的結(jié)果進(jìn)行比對(duì),并對(duì)算法的正確性和可行性進(jìn)行分析。3)提出多尺度聚類(lèi)有效性指標(biāo)多尺度聚類(lèi)有效性指標(biāo)是對(duì)多尺度聚類(lèi)尺度上推和下推結(jié)果的定量評(píng)估,是對(duì)尺度轉(zhuǎn)換算法直觀的分析評(píng)價(jià)。論文結(jié)合多尺度領(lǐng)域尺度轉(zhuǎn)換精度評(píng)價(jià)指標(biāo)和聚類(lèi)有效性指標(biāo),引入信息熵度量不同聚類(lèi)有效性指標(biāo)下聚類(lèi)結(jié)果尺度效應(yīng)的不確定程度,并將信息熵結(jié)果歸一化后作為各聚類(lèi)有效性指標(biāo)的權(quán)重,加權(quán)集成得到多尺度聚類(lèi)有效性指標(biāo)MSCVI(Multi-Scale Clustering Validity Index),以便更好地適于不同實(shí)際應(yīng)用。4)驗(yàn)證多尺度聚類(lèi)挖掘算法和多尺度聚類(lèi)有效性指標(biāo)針對(duì)提出的多尺度聚類(lèi)挖掘算法及多尺度聚類(lèi)有效性指標(biāo)應(yīng)用于多個(gè)UCI公用數(shù)據(jù)集和真實(shí)數(shù)據(jù)H省全員人口數(shù)據(jù)進(jìn)行測(cè)試分析。實(shí)驗(yàn)結(jié)果表明本文算法相比傳統(tǒng)聚類(lèi)算法正確率高,運(yùn)行時(shí)間短,是可行的聚類(lèi)算法;本文有效性指標(biāo)也較傳統(tǒng)聚類(lèi)有效性指標(biāo)正確率有較大提升,對(duì)高維數(shù)據(jù)集也表現(xiàn)出良好的評(píng)價(jià)效果。
【關(guān)鍵詞】:多尺度聚類(lèi)挖掘 尺度轉(zhuǎn)換 尺度效應(yīng) 克里格法 信息熵
【學(xué)位授予單位】:河北師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:TP311.13
【目錄】:
- 摘要4-6
- Abstract6-12
- 1 緒論12-19
- 1.1 選題背景及研究意義12-13
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀13-16
- 1.2.1 聚類(lèi)挖掘13-14
- 1.2.2 多尺度聚類(lèi)挖掘14-15
- 1.2.3 尺度轉(zhuǎn)換15-16
- 1.3 論文主要研究?jī)?nèi)容16-18
- 1.4 論文組織與結(jié)構(gòu)18-19
- 2 聚類(lèi)挖掘19-36
- 2.1 聚類(lèi)數(shù)據(jù)挖掘19-22
- 2.1.1 聚類(lèi)挖掘定義19-20
- 2.1.2 類(lèi)內(nèi)相似性度量20-21
- 2.1.3 類(lèi)間距離測(cè)度21-22
- 2.2 聚類(lèi)算法與分類(lèi)22-30
- 2.2.1 基于劃分的聚類(lèi)挖掘算法24-25
- 2.2.2 基于層次的聚類(lèi)挖掘算法25-27
- 2.2.3 基于密度的聚類(lèi)挖掘算法27-28
- 2.2.4 基于網(wǎng)格的聚類(lèi)挖掘算法28-29
- 2.2.5 其它聚類(lèi)挖掘算法29-30
- 2.3 聚類(lèi)算法衡量標(biāo)準(zhǔn)及比較30-31
- 2.4 聚類(lèi)有效性評(píng)價(jià)31-35
- 2.4.1 外部評(píng)價(jià)指標(biāo)32-33
- 2.4.2 內(nèi)部評(píng)價(jià)指標(biāo)33-34
- 2.4.3 相對(duì)評(píng)價(jià)指標(biāo)34
- 2.4.4 模糊評(píng)價(jià)指標(biāo)34-35
- 2.5 本章小結(jié)35-36
- 3 多尺度聚類(lèi)挖掘理論36-47
- 3.1 尺度與多尺度數(shù)據(jù)集36-39
- 3.1.1 尺度36-37
- 3.1.2 尺度劃分37-38
- 3.1.3 多尺度數(shù)據(jù)集38-39
- 3.2 尺度轉(zhuǎn)換39-42
- 3.2.1 多尺度聚類(lèi)尺度轉(zhuǎn)換定義40
- 3.2.2 尺度轉(zhuǎn)換原因40
- 3.2.3 尺度轉(zhuǎn)換分類(lèi)40-41
- 3.2.4 尺度轉(zhuǎn)換途徑41-42
- 3.3 尺度效應(yīng)42
- 3.4 多尺度聚類(lèi)挖掘系統(tǒng)結(jié)構(gòu)42-46
- 3.4.1 數(shù)據(jù)預(yù)處理44
- 3.4.2 構(gòu)建多尺度數(shù)據(jù)集44
- 3.4.3 基準(zhǔn)尺度聚類(lèi)挖掘44-45
- 3.4.4 尺度轉(zhuǎn)換45
- 3.4.5 模式評(píng)估45
- 3.4.6 可視化表示45-46
- 3.5 本章小結(jié)46-47
- 4 多尺度聚類(lèi)挖掘算法47-64
- 4.1 多尺度聚類(lèi)挖掘算法框架47-48
- 4.2 克里格法可用于一般數(shù)據(jù)集的本質(zhì)48-49
- 4.3 多尺度聚類(lèi)尺度上推算法MSCSUA49-52
- 4.3.1 塊狀克里格法BK50-51
- 4.3.2 MSCSUA算法實(shí)現(xiàn)51-52
- 4.4 多尺度聚類(lèi)尺度下推算法MSCSDA52-56
- 4.4.1 回歸面到點(diǎn)克里格法ATPRK52-56
- 4.4.2 MSCSDA算法步驟56
- 4.5 實(shí)驗(yàn)分析與驗(yàn)證56-63
- 4.5.1 實(shí)驗(yàn)數(shù)據(jù)集57
- 4.5.2 聚類(lèi)評(píng)價(jià)指標(biāo)57-58
- 4.5.3 尺度上推實(shí)驗(yàn)分析58-61
- 4.5.4 尺度下推實(shí)驗(yàn)分析61-63
- 4.6 本章小結(jié)63-64
- 5 多尺度聚類(lèi)有效性指標(biāo)64-73
- 5.1 信息熵65
- 5.2 多尺度聚類(lèi)有效性指標(biāo)MSCVI65-68
- 5.2.1 Xie_Beni有效性指標(biāo)XB66
- 5.2.2 S.H.Kown有效性指標(biāo)VK66-67
- 5.2.3 Rezaee.M有效性指標(biāo)VW67
- 5.2.4 Sun.H有效性指標(biāo)PBMF67-68
- 5.2.5 MSCVI68
- 5.3 實(shí)驗(yàn)分析與驗(yàn)證68-72
- 5.3.1 實(shí)驗(yàn)數(shù)據(jù)集69
- 5.3.2 實(shí)驗(yàn)結(jié)果分析69-72
- 5.4 本章小結(jié)72-73
- 6 總結(jié)與展望73-76
- 6.1 總結(jié)73-75
- 6.2 展望75-76
- 參考文獻(xiàn)76-84
- 致謝84-85
- 攻讀學(xué)位期間取得的科研成果清單85
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 李勇;王新穎;;聚類(lèi)挖掘在電子商務(wù)中的應(yīng)用[J];商場(chǎng)現(xiàn)代化;2007年25期
2 時(shí)念云;孔靜;;基于語(yǔ)義和領(lǐng)域相關(guān)的聚類(lèi)挖掘方法研究[J];微計(jì)算機(jī)應(yīng)用;2008年11期
3 劉洪偉;石雅強(qiáng);梁周揚(yáng);肖岳;;面向聚類(lèi)挖掘的局部旋轉(zhuǎn)擾動(dòng)隱私保護(hù)算法[J];廣東工業(yè)大學(xué)學(xué)報(bào);2012年03期
4 陳平;宋玉蓉;蔣國(guó)平;;基于多維聚類(lèi)挖掘的異常檢測(cè)方法研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年07期
5 張文華;王新穎;;聚類(lèi)挖掘在遠(yuǎn)程教育中的應(yīng)用[J];唐山師范學(xué)院學(xué)報(bào);2007年05期
6 王新穎;王向麗;張文華;;基于關(guān)聯(lián)規(guī)則的聚類(lèi)挖掘在遠(yuǎn)程教育中的應(yīng)用[J];現(xiàn)代遠(yuǎn)距離教育;2008年04期
7 關(guān)莉莉;;銀行卡客戶(hù)群體聚類(lèi)挖掘研究[J];微計(jì)算機(jī)信息;2008年30期
8 韓存鴿;;聚類(lèi)挖掘在高校圖書(shū)館管理系統(tǒng)中的應(yīng)用[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2012年11期
9 王東;羅可;;基于變異粒子群的聚類(lèi)挖掘[J];計(jì)算機(jī)工程與應(yīng)用;2011年21期
10 尹云飛,鐘智;一種聚類(lèi)挖掘軟件數(shù)據(jù)的方法[J];河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前2條
1 張德輝;唐世渭;楊冬青;馬秀莉;姜力爭(zhēng);;一種在OLAP中保持聚類(lèi)挖掘結(jié)果的有效方法[A];第二十四屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2007年
2 金妮;;一種基于數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)的聚類(lèi)挖掘系統(tǒng)[A];中國(guó)儀器儀表學(xué)會(huì)第九屆青年學(xué)術(shù)會(huì)議論文集[C];2007年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 熊文;基于群智的特征選擇、分類(lèi)與聚類(lèi)挖掘的研究[D];北京郵電大學(xué);2010年
2 劉兵;時(shí)間序列與聚類(lèi)挖掘相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2006年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 王玉雷;面向大數(shù)據(jù)的聚類(lèi)挖掘算法研究[D];南京郵電大學(xué);2015年
2 韓玉輝;多尺度聚類(lèi)挖掘方法[D];河北師范大學(xué);2016年
3 李雄;面向大數(shù)據(jù)的聚類(lèi)挖掘算法研究[D];南京郵電大學(xué);2014年
4 劉宇;基于云計(jì)算的聚類(lèi)挖掘算法及其應(yīng)用研究[D];南京郵電大學(xué);2014年
5 江哲雅;聚類(lèi)挖掘在電信客戶(hù)分類(lèi)中的研究與應(yīng)用[D];上海交通大學(xué);2013年
6 董瑋;可視化空間聚類(lèi)挖掘算法的研究與應(yīng)用[D];吉林農(nóng)業(yè)大學(xué);2012年
7 徐鵬;零售業(yè)顧客忠誠(chéng)度的模型研究與聚類(lèi)挖掘[D];大連交通大學(xué);2008年
8 蘇東海;基于加權(quán)向量提升的多尺度聚類(lèi)挖掘算法[D];河北師范大學(xué);2014年
9 管明君;Ramsey理論在聚類(lèi)挖掘中的應(yīng)用研究及實(shí)現(xiàn)[D];云南大學(xué);2014年
10 顏小林;基于本體的Web頁(yè)面聚類(lèi)挖掘[D];太原理工大學(xué);2007年
本文關(guān)鍵詞:多尺度聚類(lèi)挖掘方法,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):450693
本文鏈接:http://www.sikaile.net/guanlilunwen/yingxiaoguanlilunwen/450693.html