天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

自動分類在搜索引擎性能優(yōu)化中的應(yīng)用

發(fā)布時間:2016-08-25 19:09

  本文關(guān)鍵詞:自動分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。


216

情報科學(xué)

22卷

即還沒有被集聚到任何一類中的網(wǎng)頁;松散型網(wǎng)頁,它們與已經(jīng)存在的類中心相似度比較小,尚不具備被聚于某婁的條件;已被聚類的網(wǎng)頁,在聚類開始時,所有的阿頁都可以看作未聚類網(wǎng)頁。用D,表示某篇網(wǎng)頁,如果它同時滿足以下兩個條件,則可以將D.作為類別中心:至少有n1篇潮頁,它們與D.的相似系數(shù)都超過T1;至少有n2篇網(wǎng)頁,,它們與D。的相似系數(shù)都超過T2,其中T1≥T2且n1≤n2。T1、T2、n】、n2都是事先給定的參數(shù)。聚類的過程如下:在未聚類網(wǎng)頁中任取一篇,把它作為聚類中心并對其進行密度測試,測試范圍為尚未聚類和松

散型的網(wǎng)頁。如果測試失敗,即被測試的網(wǎng)頁周圍

不具有指定數(shù)量的網(wǎng)頁,則該網(wǎng)頁被作為松散型網(wǎng)頁。然后在未聚類網(wǎng)頁中重新選取網(wǎng)頁測試聚類中

心:如果{員4試成功,即被測試網(wǎng)頁周圍集聚一定預(yù)

定值范圍內(nèi)的相似網(wǎng)頁,則該網(wǎng)頁被作為一個聚類中心,并將其中相似度超過T1的網(wǎng)頁視為已聚類

阿頁,對于相似度小于T1又大于T2的網(wǎng)頁,視為松散型網(wǎng)頁,其他網(wǎng)頁不改變原有類型。聚類過程一直持續(xù)下去到?jīng)]有未聚類網(wǎng)頁為止。最后將剩下

的松散型網(wǎng)頁就近聚集到已存在的類別中。3

自動分類在搜索引擎中應(yīng)用的實例

3.1

wwlib自動歸類系統(tǒng)

www(http:

∥www.scit/wlv.ac.uk/ww—

lib/)是伍爾弗漢普頓網(wǎng)絡(luò)圖書館的簡稱(WolverhamptonWebI,ibrary),它是使用了自動歸類技術(shù)的網(wǎng)絡(luò)信息檢索系統(tǒng)。它的主要組成部分

如下:

①蜘蛛:任務(wù)是自動從網(wǎng)絡(luò)上抓取網(wǎng)頁。②索引器:它接收蜘蛛抓回來的網(wǎng)頁并在本地服務(wù)器上儲存一個副本,給網(wǎng)頁一個唯一的索取母,同時創(chuàng)建一個新的元數(shù)據(jù)模板,將本地的副本分配給分析器,建造和增加分類器的元數(shù)據(jù)模板。③分析器:對嵌入網(wǎng)頁中的超鏈接進行分析。如果發(fā)現(xiàn)是有效的超鏈接,就將它的網(wǎng)址傳遞給索引器并檢查它是否屬于英國。④分類器:在對索引尉頁進行分析的同時給出杜威十進分類法分類號。⑤構(gòu)建器:分析索引器提供的網(wǎng)頁及其元數(shù)據(jù),建立索引數(shù)據(jù)庫,確

定索引號和關(guān)鍵詞之問的對應(yīng)關(guān)系,使得使用索引

號就可以迅速獲得相應(yīng)的燕鍵詞。⑥搜索器:接受用戶的檢索提問,在構(gòu)建器的索引數(shù)據(jù)庫中進行查

詢,用得出的索取號獲得相應(yīng)的元數(shù)據(jù)和本地副本,使用以上的信息得到一個詳細的結(jié)果,并按相關(guān)度排列檢索結(jié)果。

WWlib中分類器對網(wǎng)頁的處理方法如下:首先,對網(wǎng)頁進行自動標引,對瞬頁中的語詞根據(jù)它們的詞頻和網(wǎng)頁中出現(xiàn)的位置賦予權(quán)重。然后將處理后得到的語詞集合與杜威十進分類法分類表中的每一個款目進行比較。每個款目包括它們的分類號、一長串關(guān)鍵詞和它們的同義詞。從一級類日開始比較,直到出現(xiàn)比較顯著的匹配值為止,此時將該網(wǎng)頁歸人此類。匹配值是在綜合考慮到語詞的相似度

以及文檔的長短等因素之后給出的。

WWlib提供的檢索途徑有關(guān)鍵詞檢索、分類號檢索、瀏覽類目下收錄的網(wǎng)頁等。wwlib也支持布爾邏輯檢索和截詞檢索。檢索結(jié)果分為兩行,第一行為分類號、網(wǎng)頁標題,第二行是網(wǎng)頁內(nèi)容摘要。wWIib主要的問題是數(shù)據(jù)庫規(guī)模太小,筆者在2003年4月18日查看時其款且只有4874個。但是它的方法對于今后大規(guī)模網(wǎng)頁的自動分類仍然有一定的借鑒意義。

3.z

Gmuper自動聚類系統(tǒng)

Grouper是orenZamir和orenEt2ioni研制的一個自動聚類系統(tǒng),它的主要作用是對Husky—

search(這個是他們開發(fā)的一個元搜索引擎)返回的結(jié)果進行自動聚類。他們在Grouper:A

dynamic

clusterinfinterface

to

websearch

results一文中詳

細描述了它的原理和功能,很遺憾的是隨著Oren

Zam.r和OrenEtzioni的畢業(yè)離校,這兩個系統(tǒng)也

停止了對外服務(wù),但是Gmuper還是具有很大的參考價值。

Grouper采用的是一種叫做后綴樹聚類(Suffix

Tree

Clustering)的算法(簡稱STC)。STC是一種

線性時問聚類算法,根據(jù)待聚類網(wǎng)頁中的相似短語進行聚類。這里所說的短語就是指幾個有序的詞。此算法可以分為三個步驟。

(1)網(wǎng)頁“清洗”。這一步驟可以看作是網(wǎng)頁特征的抽取。它對代表網(wǎng)頁特征的字符串進行過濾,標明各旬之間的間隔,去掉不是文字的標記符號(如HTML標記、大部分的標點)。

(2)確定基本聚類串。基本聚類串是一些具有共同短語網(wǎng)頁的集合。它是在對網(wǎng)頁特征進行抽取

的同時使用STC算法進行計算后得到的。對于每~

個基本聚類串,根據(jù)它包含的網(wǎng)頁特征的數(shù)量以及

博泰典藏網(wǎng)btdcw.com包含總結(jié)匯報、外語學(xué)習(xí)、高中教育、高等教育、表格模板、教學(xué)研究、出國留學(xué)、行業(yè)論文、初中教育以及自動分類在搜索引擎性能優(yōu)化中的應(yīng)用_圖文等內(nèi)容。

本文共2頁12


  本文關(guān)鍵詞:自動分類在搜索引擎性能優(yōu)化中的應(yīng)用,由筆耕文化傳播整理發(fā)布。



本文編號:103528

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/103528.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f2e3b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com