XML文檔數(shù)據(jù)集聚類問(wèn)題研究
發(fā)布時(shí)間:2017-07-19 23:00
本文關(guān)鍵詞:XML文檔數(shù)據(jù)集聚類問(wèn)題研究
更多相關(guān)文章: 數(shù)據(jù)挖掘 半結(jié)構(gòu)化數(shù)據(jù) 文檔聚類 層數(shù) boosting
【摘要】:XML文檔是典型的半結(jié)構(gòu)化數(shù)據(jù),XML是可擴(kuò)展標(biāo)記語(yǔ)言(eXtensibleMarkup Language)的英文簡(jiǎn)稱。在1998年,萬(wàn)維網(wǎng)聯(lián)盟W3C就開(kāi)發(fā)并制定XML的標(biāo)準(zhǔn)并提出了XML格式,即XML1.0標(biāo)準(zhǔn),并同時(shí)提出了文檔定義類型DTD(Document Type Definition)標(biāo)準(zhǔn)和規(guī)范。XML數(shù)據(jù)是典型的半結(jié)構(gòu)化數(shù)據(jù),具備層次特性及動(dòng)態(tài)可變特性和自述特性等半結(jié)構(gòu)化數(shù)據(jù)的一般基本屬性。 隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,以XML格式為代表的半結(jié)構(gòu)化數(shù)據(jù)被廣泛應(yīng)用于各種數(shù)據(jù)庫(kù)系統(tǒng)中。目前,可以在網(wǎng)絡(luò)中獲得大量的XML文檔數(shù)據(jù),而如何在這些的基于XML文檔類型的海量數(shù)據(jù)中挖掘出來(lái)用戶關(guān)注的知識(shí),即XML文檔數(shù)據(jù)挖掘已經(jīng)成為新時(shí)期數(shù)據(jù)挖掘領(lǐng)域研究的熱點(diǎn)問(wèn)題之一。 在XML文檔數(shù)據(jù)挖掘研究領(lǐng)域,XML文檔數(shù)據(jù)集聚類問(wèn)題是研究重點(diǎn)之一。XML文檔聚類問(wèn)題主要研究如何將具有相似特征的XML文檔歸為一簇,主要用于對(duì)具有相似特征的XML文檔數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析。在進(jìn)行XML文檔數(shù)據(jù)集聚類之前,如何有效準(zhǔn)確的衡量?jī)善猉ML文檔數(shù)據(jù)或多篇XML文檔數(shù)據(jù)間的相似程度(距離)是需要解決的重要問(wèn)題,當(dāng)考慮XML文檔內(nèi)容信息和領(lǐng)域知識(shí)后,正確的衡量XML文檔數(shù)據(jù)集中各個(gè)元素的相似程度變得更加復(fù)雜?梢哉f(shuō),XML文檔數(shù)據(jù)相似性度量算法的優(yōu)劣直接影響XML文檔數(shù)據(jù)集聚類結(jié)果的質(zhì)量高低。 本文歸納總結(jié)了目前已提出XML文檔聚類問(wèn)題的解決方法。首先簡(jiǎn)單介紹了XML文檔聚類的核心問(wèn)題,即XML文檔相似性度量問(wèn)題。其次從樹(shù)編輯距離相似性度量方法的角度列舉了相關(guān)的聚類方法。之后從信息檢索相似性度量方法的角度列舉了相關(guān)的聚類算法。最后列舉了基于其他理論方法進(jìn)行相似性度量的XML文檔聚類方法。 在第三章,本文提出了一種基于層次數(shù)據(jù)的XML文檔聚類方法,稱為CXLI算法。CXLI算法過(guò)程首先創(chuàng)建XML文檔的線性數(shù)構(gòu)表,然后根據(jù)線性結(jié)構(gòu)表的信息將文檔中的重復(fù)嵌套結(jié)構(gòu)刪除。在本文中,還提出了在考慮層數(shù)信息的前提下,XML文檔各種基本編輯操作約束條件。之后,提出一種使用動(dòng)態(tài)規(guī)劃方法的帶有XML文檔層數(shù)信息文檔間相似性度量方法,該方法在進(jìn)行XML文檔間相似性度量時(shí),將XML文檔數(shù)據(jù)的層數(shù)作為影響XML文檔相似度的因素進(jìn)行計(jì)算。CXLI方法可以用于計(jì)算XML文檔相似度的所有應(yīng)用領(lǐng)域中。最后,提出了基于凝聚型層次聚類思想的XML文檔數(shù)據(jù)集聚類方法。計(jì)算機(jī)驗(yàn)證實(shí)驗(yàn)在人工數(shù)據(jù)集和ACM Sigmod真實(shí)數(shù)據(jù)集中進(jìn)行,實(shí)驗(yàn)結(jié)果顯示了本文提出的方法是有效的。 在第四章,為了進(jìn)一步提高聚類結(jié)果的正確率,提出了一種基于boosting理論的XML文檔聚類方法。首先討論了Boosting能夠提高聚類質(zhì)量(尤其是弱聚類算法)的基本原理。然后,提出了一個(gè)命名為ICBQ的算法用來(lái)有效的提高XML文檔數(shù)據(jù)集聚類方法的聚類質(zhì)量。通過(guò)實(shí)驗(yàn)表明,我們的方法具有很好的效率,并且具有更高的準(zhǔn)確率,基于Boosting理論的能夠有效地提高XML文檔的聚類結(jié)果,實(shí)驗(yàn)結(jié)果表明,,無(wú)論在真實(shí)數(shù)據(jù)集還是在人工生成的數(shù)據(jù)集上,使用ICQB方法都能夠使得Nierman的方法、Dalamagas的方法和Flesca的方法聚類結(jié)果有明顯的提高。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 半結(jié)構(gòu)化數(shù)據(jù) 文檔聚類 層數(shù) boosting
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP311.13
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-20
- 1.1 研究背景及意義10-12
- 1.2 知識(shí)基礎(chǔ)12-17
- 1.2.1 XML 類型12-13
- 1.2.2 XML 數(shù)據(jù)模型13-14
- 1.2.3 樹(shù)型數(shù)據(jù)結(jié)構(gòu)14-15
- 1.2.4 XML 數(shù)據(jù)模式15-17
- 1.2.5 XML 數(shù)據(jù)特點(diǎn)17
- 1.3 本文組織結(jié)構(gòu)17-18
- 1.4 本章小結(jié)18-20
- 第2章 XML文檔聚類理論基礎(chǔ)20-44
- 2.1 XML 文檔相似性度量簡(jiǎn)介20-21
- 2.2 樹(shù)編輯距離度量方法21-29
- 2.2.1 樹(shù)編輯距離基本概念21-24
- 2.2.2 樹(shù)編輯距離研究現(xiàn)狀24-29
- 2.3 信息檢索度量方法29-35
- 2.3.1 XML 文檔相似性度量信息檢索方法介紹29
- 2.3.2 信息檢索研究現(xiàn)狀29-35
- 2.4 XML 相似度的其它技術(shù)35-43
- 2.4.1 基于 XML 結(jié)構(gòu)的度量方法35-38
- 2.4.2 基于 XML 文檔結(jié)構(gòu)和內(nèi)容度量方法38-43
- 2.5 本章小結(jié)43-44
- 第3章 基于層數(shù)信息的XML文檔聚類44-60
- 3.1 問(wèn)題提出45-47
- 3.1.1 相關(guān)工作45-46
- 3.1.2 層數(shù)信息問(wèn)題描述46-47
- 3.2 考慮層數(shù)信息的 CXLI 算法47-54
- 3.2.1 符號(hào)表示47-48
- 3.2.2 元素屬性處理48-50
- 3.2.3 線性結(jié)構(gòu)表50-51
- 3.2.4 編輯操作約束51-52
- 3.2.5 相似性度量與聚類52-54
- 3.3 CXLI 算法實(shí)驗(yàn)結(jié)果與分析54-59
- 3.3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集54-55
- 3.3.2 結(jié)果與分析55-59
- 3.4 本章小結(jié)59-60
- 第4章 基于BOOSTING的XML文檔聚類方法60-72
- 4.1 研究背景60-61
- 4.2 相關(guān)工作61-63
- 4.3 ICQB 算法63-66
- 4.3.1 AdaBoost63
- 4.3.2 ICQB 算法63-66
- 4.4 實(shí)驗(yàn)結(jié)果與分析66-71
- 4.5 本章小結(jié)71-72
- 第5章 總結(jié)與展望72-74
- 參考文獻(xiàn)74-86
- 攻讀博士期間發(fā)表的學(xué)術(shù)論文86-88
- 致謝88
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前7條
1 高明霞;姚文集;毛國(guó)君;;XML數(shù)據(jù)流中面向聚類的指數(shù)直方圖[J];北京工業(yè)大學(xué)學(xué)報(bào);2011年08期
2 汪衛(wèi),周皓峰,袁晴晴,樓宇波,施伯樂(lè);基于圖論的頻繁模式挖掘[J];計(jì)算機(jī)研究與發(fā)展;2005年02期
3 張
本文編號(hào):565162
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/565162.html
最近更新
教材專著