針對搜索結果的位圖表示及聚類算法改進研究

發(fā)布時間：2020-10-09 08:48

　　網絡科技和搜索技術的迅猛發(fā)展使得人們越來越多地通過互聯(lián)網和搜索引擎獲取信息,搜索結果種類多、排列亂是影響用戶快速獲取有效信息的重要因素。為提高用戶獲取有效信息的速度、改善用戶的搜索體驗,聚類分析技術被廣泛應用到搜索結果中。目前,針對搜索結果聚類的大部分研究集中于聚類方式,忽略了搜索結果的表示方法對聚類效果和收斂速率的影響;此外,常用于搜索結果聚類的K-means算法的聚類效果和收斂速率受初始聚類中心影響較大,而當前關于初始聚類中心的研究仍然存在一些不足。基于此,本文從搜索結果的表示方法和初始聚類中心的選擇兩個方面展開研究,具體完成了以下幾項工作:(1)針對向量空間模型存在文本相似度計算耗時以及存儲空間需求較大的問題,本文結合向量空間模型和布爾模型各自的優(yōu)點提出了基于位圖的文本表示方法表示搜索結果。該方法先用向量空間模型將搜索結果表示成特征向量,然后將特征權重轉換為對應的布爾值,最后以位為單位存儲布爾值形成位圖特征向量。實驗結果表明,本文提出的位圖文本表示方法可以有效的提高搜索結果的文本相似度計算速率,同時減少特征矩陣所需的存儲空間。(2)針對K-means算法隨機選擇初始聚類中心導致算法不可重復實現(xiàn),同時可能使算法陷入局部最優(yōu)解、減緩算法收斂速率的問題,本文提出了基于悲觀準則和近鄰算法的初始聚類中心選擇算法。通過悲觀準則選擇K個相距最遠的數(shù)據作為備選初始聚類中心,然后尋找各個備選初始聚類中心的近鄰簇,最后以各個近鄰簇的中心作為初始聚類中心。實驗結果表明,本文提出的基于悲觀準則和近鄰算法的初始聚類中心選擇算法可以有效的提高K-means算法的聚類效果和收斂速率,同時保證了算法的穩(wěn)定性。(3)針對現(xiàn)有聚類搜索引擎產品存在的問題,本文設計并實現(xiàn)了一個基于本文研究成果的聚類搜索引擎原型系統(tǒng)。該原型系統(tǒng)實現(xiàn)了搜索結果獲取、預處理、特征表示、初始聚類中心選擇、聚類以及搜索結果展示等功能。其運行效果表明,將本文研究成果應用到搜索結果聚類中,能夠有效地提高用戶獲取信息的效率,改善用戶的使用體驗,同時為將來類似的聚類搜索引擎系統(tǒng)的研發(fā)提供了借鑒參考。
【學位單位】：武漢理工大學
【學位級別】：碩士
【學位年份】：2018
【中圖分類】：TP391.3
【部分圖文】：

不同參數(shù),聚類,聚類效果,特征轉換

21（c）數(shù)據集 Clustering 的聚類結果圖 2-4 不同參數(shù)下的聚類結果4 中每條曲線的交點為一組 α、β 得到的 DBI 值。從 yz 方向重要度 α 相同的情況下，隨著特征轉換閾值 β 的增長，其原因是：當 β 較小時，所有特征的特征值都為 1，這會低，導致特征向量無法準確的表示搜索結果，聚類效果必可以提高聚類效果、降低 DBI 值；但如果 β 較大，特征向征才能表達，丟失了很多表示搜索結果的特征，這會使聚當 β 達到某個閾值，繼續(xù)增大 β 會降低聚類效果、增大方向可以觀察到在特征轉換閾值 β 相同的情況下，隨著標

不同文本,聚類,表示方法,文本表示

24（c）數(shù)據集 Clustering 的聚類耗時圖 2-6 不同文本表示方法的聚類耗時從圖 2-6 可以看出，在相同的數(shù)據集中，VSM 文本表示方法聚類耗時比 BM和 BTM 兩種文本表示方法聚類耗時長。分析原因主要是 VSM 采用普通的四則混合運算計算相似度，而 BM 和 BTM 均是采用計算速率比四則混合運算快的布爾邏輯運算計算相似度。從圖中還可以看出，BTM 比 BM 聚類耗時少，其中一個原因是 BTM 表示的特征向量進行了壓縮，所以需要計算的長度比 BM 少；另一個原因是 BTM 文本表示方法對搜索結果表示的更加準確，這樣 K-means 算法在迭代過程中，迭代的次數(shù)會相應減少，聚類速率相應提高。從圖 2-6 還可以看出，隨著數(shù)據量的增大（三組數(shù)據集的數(shù)據量從小到大依

實例圖,初始聚類中心,最大距離,最小距離

圖 3-1 定義 3.3 的實例 3-1 中 A1、A2、A3屬于集合 A，B1、B2、B3屬于集合 B。為了求出 A 的最大距離，首先求出 B 中每個點到集合 A 的最小距離，比如 B1到集合 A 中各個點的距離為紅色連線段的長度，其中紅色虛線度最小，即點 B1到集合 A 的最小距離為線段 A1B1的長度。同理， A 的最小距離分別為黑色虛線 A2B2、藍色虛線 A2B3線段的長度，虛線段的長度，找到三條虛線段長度的最大值，即圖 3-1 中黑色加2。因此集合 B 到集合 A 的最大距離是點 B2到點 A2的距離，而 B2使集合 B 到集合 A 最大距離成立的數(shù)據點。 PC 算法滿足初始聚類中心第一準則證明C 算法是為了滿足初始聚類中心第一準則的要求提出的，為驗證算本節(jié)需要證明 PC 算法中所有涉及到初始聚類中心選擇的步驟都滿心第一準則的要求。PC 算法中包含初始聚類中心選擇的步驟有步

【相似文獻】

相關期刊論文前10條

1 曹宇;尹剛;李翔;程榮斌;王懷民;;聚類搜索引擎研究進展淺析[J];電腦知識與技術;2011年22期

2 黃建年;侯漢清;;聚類搜索引擎探究[J];圖書館學研究;2009年01期

3 蘇建華;張燦;;聚類搜索引擎研究[J];新世紀圖書館;2009年06期

4 袁津生;程超然;;基于文本聚類搜索引擎的查詢擴展算法[J];計算機工程與應用;2012年03期

5 王倩;;文檔聚類技術在搜索引擎中的應用研究[J];圖書館學研究;2008年11期

6 靖培棟;田亮;;聚類在搜索引擎中的應用[J];情報理論與實踐;2006年04期

7 盧希;;聚類搜索在電子商務中的應用研究[J];科技信息;2012年24期

8 周鴻;朱東華;董萍萍;;聚類搜索引擎研究進展綜述[J];計算機系統(tǒng)應用;2012年05期

9 蒼宏宇;譚宗穎;;聚類搜索引擎發(fā)展現(xiàn)狀研究[J];圖書情報工作;2009年02期

10 王佳樂;;搜索引擎的文本聚類研究[J];商業(yè)經濟;2014年03期

相關會議論文前1條

1 李斌;曲維光;陳小荷;;名詞轉喻的自動理解[A];中國計算機語言學研究前沿進展（2007-2009）[C];2009年

相關碩士學位論文前9條

1 陳臘生;針對搜索結果的位圖表示及聚類算法改進研究[D];武漢理工大學;2018年

2 陳飛;聚類搜索引擎關鍵技術的研究[D];北京郵電大學;2011年

3 陳平;中文聚類搜索引擎中主要技術的研究[D];吉林大學;2009年

4 程超然;基于文本聚類搜索引擎查詢擴展算法的研究與實現(xiàn)[D];北京林業(yè)大學;2012年

5 玉兆輝;基于MapReduce的分布式聚類搜索引擎設計與實現(xiàn)[D];電子科技大學;2014年

6 謝紅偉;基于Nutch的聚類搜索引擎的研究與實現(xiàn)[D];華南理工大學;2013年

7 羅克剛;基于自組織映射的文本聚類研究[D];哈爾濱工業(yè)大學;2007年

8 戴雪梅;面向購物的聚類搜索引擎的研究與實現(xiàn)[D];北京交通大學;2011年

9 郭峰;面向行業(yè)搜索引擎的WEB文本挖掘技術研究[D];蘭州大學;2006年

本文編號：2833495

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2833495.html

上一篇：電子偵察飛機的航路規(guī)劃與設計
下一篇：基于CS-PSO優(yōu)化BN的列控車載設備故障診斷研究

論文發(fā)表

·知網|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

針對搜索結果的位圖表示及聚類算法改進研究