天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

應用于文本搜索引擎的聚類算法研究

發(fā)布時間:2018-06-27 01:53

  本文選題:搜索引擎 + 中文聚類; 參考:《上海交通大學》2012年碩士論文


【摘要】:當今搜索引擎應用中亟待解決的一個問題是:如何針對用戶的非確切性查詢返回一個較為友好的查詢結果,最大限度地提高用戶的查詢效率。傳統搜索引擎應用如Google、百度、Bing等,由于僅僅采用經典的相關度排序算法顯示所有查詢結果,使得用戶經常把時間浪費在過濾大量無關信息的工作上,查詢效率較低,用戶友好程度不高。因此,如何有效地對查詢結果的標題和摘要信息聚類化,使之能返回一個友好的聚類查詢結果,是當前的研究熱點之一。 文本聚類的首要問題是如何將文本數據用數學形式表示。目前多數文本聚類算法采用向量空間模型(Vector Space Model,VSM)為基礎,雖然簡單,卻容易引起“高維稀疏”問題,而且,對于同義詞、多義詞的處理也沒有得到很好的解決,造成聚類的效率和準確程度降低,聚類效果不佳。本文針對中文的文本聚類技術,對文本搜索引擎中的聚類算法進行了研究,,使用一種基于后綴樹與《知網》語義相似度計算的中文文本聚類算法,結合相應開發(fā)工具,實現了一個中文聚類搜索引擎(Chinese Clustering SearchEngine,CCSE)。該方法首先通過后綴樹算法將搜索結果的逐條文本建立到一顆后綴樹上,同時選擇出那些包含名詞(或動詞、形容詞等),并且最后是名詞(或動詞)結尾的短語;然后結合TF-IDF(Term Frequency Inverse Document Frequency,一種用于詞頻統計的權值計算方法)評分確定出所有后綴短語中描述性較強的短語作為候選聚類標簽;再按照后綴樹聚類算法(Suffix Tree Clustering,STC)根據已選定的候選聚類標簽進行聚類合并;接著利用語義相似度計算方式對剩下的標簽短語進行逐一計算比較,找出其中語義相似度較高的短語進行合并,只保留它們中得分最高的那個;最后,再使用聚類內部相似度(Intra-ClusterSimilarity,ICS)來保證聚類內部各摘要之間的高度相似性,淘汰掉一些與聚類中心向量的平均相似度較低的聚類,產生最終呈現給用戶的聚類結果。其中,在語義相似度計算方面,本文利用《知網》工具選用了一種面向語義、可擴展的相似度計算方法?梢酝ㄟ^對未登錄詞進行適當的概念切分、自動生成語義,較好的解決了未登錄詞不能有效參與語義相似度計算的問題,增強了聚類效果;同時,由于整個算法是由確定理想聚類標簽開始的,使得在聚類呈現階段,該方法還可以保證聚類標簽能夠較好的反映出聚類內容,從而優(yōu)化了查詢的呈現效果。 論文首先對聚類算法在搜索引擎中的應用可行性進行了分析,對搜索引擎的結構、聚類模型、以及《知網》工具進行了介紹;然后對文本搜索引擎的總體框架、流程及體系結構進行了設計描述;接著對系統涉及的未登錄詞處理、短語相似度計算、聚類算法實現等關鍵技術做了詳細的討論,描述了CCSE系統所采用的聚類算法的設計思想和算法模型;最后論文對CCSE系統進行了測試,并對測試結果進行了分析,從而驗證了系統設計的可行性和實用性。
[Abstract]:One of the most urgent problems in search engine application is how to query the user ' s non - deterministic query returns a more friendly query result to maximize user ' s query efficiency . Traditional search engine applications such as Google , Baidu , Bing , etc . make users often waste their time on the work of filtering a lot of irrelevant information , the query efficiency is low , and the user - friendliness is not high . Therefore , how to effectively clustering the header and summary information of the query result can be returned to a friendly clustering query result , which is one of the current research hotspots .

The first problem of text clustering is how to express text data in mathematical form . At present , most text clustering algorithms are based on Vector Space Model , which is easy to cause " high - dimensional sparse " problem . the method comprises the following steps : firstly , establishing a line - by - line text of a search result to a suffix tree through a suffix tree algorithm , and simultaneously selecting those phrases which contain a noun ( or a verb , adjective , etc . ) , and finally , the end of the noun ( or verb ) ;
鐒跺悗緇撳悎TF-IDF(Term Frequency Inverse Document Frequency,涓

本文編號:2072222

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2072222.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶6a66a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com