搜索引擎瀏覽廣告賺錢_搜索引擎中的聚類瀏覽技術
本文關鍵詞:搜索引擎中的聚類瀏覽技術,,由筆耕文化傳播整理發(fā)布。
搜索引擎中的聚類瀏覽技術
3期李紅梅等:搜索引擎中的聚類瀏覽技術
57
查詢意圖,幾乎一半的查詢結果是與用戶無關的[1],而對搜索引擎日志的分析則表明多數(shù)用戶只愿意瀏覽10~30個查詢結果[2],那么排列在后面的相關信息就很難被發(fā)現(xiàn)。另外,大多數(shù)查詢趨向于短查詢[3],由于查詢詞的多義性,使得查詢結果往往包含多個主題內(nèi)容,用戶需要仔細瀏覽文檔列表,排除不相關的內(nèi)容,查找自己感興趣的信息。因此,為了滿足日益增長的網(wǎng)絡用戶對查詢質量的要求,必須提高搜索引擎查詢結果的可瀏覽性。
一種方法是采用Web文檔分類技術[4~6],一般需要預先對分類器進行訓練來建立整個Web分層類目文獻[,然后將搜索結果映射到這些分層組織的類目中。這種分類方法過于復雜,查找新的主題;存在于分類目錄中,是十分有效[7,8]。
,進行自動、行聚類,創(chuàng)建類目體系,使同類中文檔內(nèi)容的相似度盡可能地大,而類與類之間文檔的相似度盡可能地小,并對每個類目用相應的主題詞加以描述。然后把類目呈現(xiàn)給用戶,使用戶能在更高的主題層次上來查看搜索引擎返回的結果,方便地查找到感興趣的信息,從而可大大縮小用戶所需瀏覽的結果數(shù)量,縮短用戶查詢所需要的時間,搜索結果的聚類瀏覽技術已經(jīng)成為研究的一個熱點。
息,因此應該避免把每個文檔只聚類到單獨的一個類目,可以疊加聚類。
(4)快速性:聚類算法應該能夠快速聚類,將查詢結果顯示給用戶前不能有很大的延遲。
(5)Snippets聚類:由于搜索結果處理的實時性,大多數(shù)用戶不愿等待系統(tǒng)下載原始文檔形成聚類,因此,對搜索結果的聚類是基于短文文摘的,即snippets聚類,這就要求根據(jù)搜索引擎返回的標題和文摘(Snippets)也應形成高質量的聚類。標之一,搜索引擎的聚類瀏覽技術實質上是為了方便用戶的瀏覽,將聚類技術用于信息檢索結果的可視化輸出。聚類算法和聚類標識是聚類瀏覽技術的兩個重要組成部分。聚類算法決定了搜索結果的組織結構和運行效率,而聚類標識則是幫助用戶迅速確認生成的文檔類目相關與否的重要信息[12],是提高可瀏覽性的基本體現(xiàn)。
聚類瀏覽技術按照聚類標識分為關鍵詞標識(SingleWords)和短語標識(Phrases),,比詞表達的信息更加豐富。根據(jù)聚類算法可將聚類(類()。扁平聚類只對數(shù)據(jù)進行一層的劃分,將產(chǎn)生的類目組織成樹形結構以便于用戶瀏覽2 聚類瀏覽技術的基本要求
大多數(shù)傳統(tǒng)的聚類算法不能直接應用于搜索結果的在線聚類,其實用性對聚類算法提出了幾個基本要求[9,10]:
(1)相關性:該算法應該能夠聚類相同/相似的文檔,把與用戶查詢條件相關的文檔與不相關的文檔分開。
(2)概括性:用戶通過快速瀏覽就能找到自己感興趣的內(nèi)容,因此聚類算法需要對每個類目提供簡明準確的概括描述,。標識的質量取決于好的結構性(即文本符合句法和語法規(guī)范)、描述能力(即能夠很好地描述聚類中所包含的內(nèi)容)和區(qū)分能力(即能夠很好地將所描述的類目與其他類目區(qū)分開來)[11]。
(3)重疊性:因為文檔會涉及多個主題的信
4 聚類瀏覽技術的主要算法
聚類和標識是Web聚類瀏覽系統(tǒng)的兩個基本組成部分,但目前提出的方法各有側重,成聚類另外一些方法則將對信息的聚類作為最重要的步驟,。以下將討論聚類瀏覽技術中常用的聚類算法及改進方法。4.1 傳統(tǒng)聚類算法的應用
文獻中有關文本聚類的算法很多。層次聚合算
本文關鍵詞:搜索引擎中的聚類瀏覽技術,由筆耕文化傳播整理發(fā)布。
本文編號:142627
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/142627.html