針對搜索結果的位圖表示及聚類算法改進研究
【學位單位】:武漢理工大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:TP391.3
【部分圖文】:
21(c)數(shù)據集 Clustering 的聚類結果圖 2-4 不同參數(shù)下的聚類結果4 中每條曲線的交點為一組 α、β 得到的 DBI 值。從 yz 方向重要度 α 相同的情況下,隨著特征轉換閾值 β 的增長,其原因是:當 β 較小時,所有特征的特征值都為 1,這會低,導致特征向量無法準確的表示搜索結果,聚類效果必可以提高聚類效果、降低 DBI 值;但如果 β 較大,特征向征才能表達,丟失了很多表示搜索結果的特征,這會使聚當 β 達到某個閾值,繼續(xù)增大 β 會降低聚類效果、增大 方向可以觀察到在特征轉換閾值 β 相同的情況下,隨著標
24(c)數(shù)據集 Clustering 的聚類耗時圖 2-6 不同文本表示方法的聚類耗時從圖 2-6 可以看出,在相同的數(shù)據集中,VSM 文本表示方法聚類耗時比 BM和 BTM 兩種文本表示方法聚類耗時長。分析原因主要是 VSM 采用普通的四則混合運算計算相似度,而 BM 和 BTM 均是采用計算速率比四則混合運算快的布爾邏輯運算計算相似度。從圖中還可以看出,BTM 比 BM 聚類耗時少,其中一個原因是 BTM 表示的特征向量進行了壓縮,所以需要計算的長度比 BM 少;另一個原因是 BTM 文本表示方法對搜索結果表示的更加準確,這樣 K-means 算法在迭代過程中,迭代的次數(shù)會相應減少,聚類速率相應提高。從圖 2-6 還可以看出,隨著數(shù)據量的增大(三組數(shù)據集的數(shù)據量從小到大依
圖 3-1 定義 3.3 的實例 3-1 中 A1、A2、A3屬于集合 A,B1、B2、B3屬于集合 B。為了求出 A 的最大距離,首先求出 B 中每個點到集合 A 的最小距離,比如 B1到集合 A 中各個點的距離為紅色連線段的長度,其中紅色虛線度最小,即點 B1到集合 A 的最小距離為線段 A1B1的長度。同理, A 的最小距離分別為黑色虛線 A2B2、藍色虛線 A2B3線段的長度,虛線段的長度,找到三條虛線段長度的最大值,即圖 3-1 中黑色加2。因此集合 B 到集合 A 的最大距離是點 B2到點 A2的距離,而 B2使集合 B 到集合 A 最大距離成立的數(shù)據點。 PC 算法滿足初始聚類中心第一準則證明C 算法是為了滿足初始聚類中心第一準則的要求提出的,為驗證算本節(jié)需要證明 PC 算法中所有涉及到初始聚類中心選擇的步驟都滿心第一準則的要求。PC 算法中包含初始聚類中心選擇的步驟有步
【相似文獻】
相關期刊論文 前10條
1 曹宇;尹剛;李翔;程榮斌;王懷民;;聚類搜索引擎研究進展淺析[J];電腦知識與技術;2011年22期
2 黃建年;侯漢清;;聚類搜索引擎探究[J];圖書館學研究;2009年01期
3 蘇建華;張燦;;聚類搜索引擎研究[J];新世紀圖書館;2009年06期
4 袁津生;程超然;;基于文本聚類搜索引擎的查詢擴展算法[J];計算機工程與應用;2012年03期
5 王倩;;文檔聚類技術在搜索引擎中的應用研究[J];圖書館學研究;2008年11期
6 靖培棟;田亮;;聚類在搜索引擎中的應用[J];情報理論與實踐;2006年04期
7 盧希;;聚類搜索在電子商務中的應用研究[J];科技信息;2012年24期
8 周鴻;朱東華;董萍萍;;聚類搜索引擎研究進展綜述[J];計算機系統(tǒng)應用;2012年05期
9 蒼宏宇;譚宗穎;;聚類搜索引擎發(fā)展現(xiàn)狀研究[J];圖書情報工作;2009年02期
10 王佳樂;;搜索引擎的文本聚類研究[J];商業(yè)經濟;2014年03期
相關會議論文 前1條
1 李斌;曲維光;陳小荷;;名詞轉喻的自動理解[A];中國計算機語言學研究前沿進展(2007-2009)[C];2009年
相關碩士學位論文 前9條
1 陳臘生;針對搜索結果的位圖表示及聚類算法改進研究[D];武漢理工大學;2018年
2 陳飛;聚類搜索引擎關鍵技術的研究[D];北京郵電大學;2011年
3 陳平;中文聚類搜索引擎中主要技術的研究[D];吉林大學;2009年
4 程超然;基于文本聚類搜索引擎查詢擴展算法的研究與實現(xiàn)[D];北京林業(yè)大學;2012年
5 玉兆輝;基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn)[D];電子科技大學;2014年
6 謝紅偉;基于Nutch的聚類搜索引擎的研究與實現(xiàn)[D];華南理工大學;2013年
7 羅克剛;基于自組織映射的文本聚類研究[D];哈爾濱工業(yè)大學;2007年
8 戴雪梅;面向購物的聚類搜索引擎的研究與實現(xiàn)[D];北京交通大學;2011年
9 郭峰;面向行業(yè)搜索引擎的WEB文本挖掘技術研究[D];蘭州大學;2006年
本文編號:2833495
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2833495.html