WEB數(shù)據(jù)挖掘和個性化搜索引擎研究
本文關(guān)鍵詞:Web數(shù)據(jù)挖掘和個性化搜索引擎研究,由筆耕文化傳播整理發(fā)布。
Web數(shù)據(jù)挖掘和個性化搜索引擎研究
碩士學位論文:We數(shù)據(jù)挖掘和個性化搜索引擎研究 b
索引數(shù)據(jù)庫的建立關(guān)系到用戶能否最迅速地找到最準確、 最廣泛的信息,索
引一般按照倒排文件的格式存放〔 ratl。如果索引不能及時更新,Sie G rtO] a pdr帶回的新信息就不能被使用搜索引擎的用戶查到。對網(wǎng)頁采用基于網(wǎng)頁內(nèi)容分析和基于超鏈分析相結(jié)合的方法進行相關(guān)度評價,能夠客觀地對網(wǎng)頁進行排序,從而極大限度地保證搜索出的結(jié)果與用戶的查詢串相一致。在設計一個索引數(shù)據(jù)庫時,要針對實際需要確定索引數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)和存儲方式。由于搜索引擎系統(tǒng)通常處理的都是海量的信息,因此還要設計一定的壓縮策略,對索引庫進行有效的壓縮,以提高檢索的速度。新浪搜索引擎對網(wǎng)站數(shù)據(jù)建立索引的過程中采取了按照關(guān)鍵詞在網(wǎng)站標題、 網(wǎng)站描述、網(wǎng)站UL R等不同位置的出現(xiàn)或網(wǎng)站的質(zhì)量等級等建立索引庫,從而保證搜索出的結(jié)果與用戶的查詢串相一致。新浪搜索引擎在索引庫建立的過程中,對所有數(shù)據(jù)采用多進程并行的方式,對新的信息采取增量式的方法建立索引庫,從而保證能夠迅速建立索引,使數(shù)據(jù)能夠得到及時的更新。新浪搜索引擎在建立索引庫的過程中還對用戶搜索的查詢串進行跟蹤,并對查詢頻率高的查詢串建立 C ce ah頁。
3用戶檢索的過程 .這是對前兩個過程的檢驗, 檢驗該搜索引擎能否給出最準確、最廣泛的信息,檢驗該搜索引擎能否迅速地給出用戶最想得到的信息。對于網(wǎng)站數(shù)據(jù)的檢索,不同搜索引擎有不同的做法。比如新浪搜索引擎采用 Cin/ev結(jié)構(gòu)、多進程 letSre的方式在索引庫中檢索,大大減少了用戶的等待時間,并且在用戶查詢高峰時服務器的負擔不會過高(平均檢索時間在 03 .秒左右)而作為國內(nèi)眾多門戶網(wǎng)站的;網(wǎng)頁檢索技術(shù)提供商的百度公司,其搜索引擎則運用了先進的多線程技術(shù),采用高效的搜索算法和穩(wěn)定的UI平臺,因 NX此可大大縮短對用戶搜索請求的響應時間。作為慧聰工系列應用軟件產(chǎn)品之一的 ISac20采用的超大規(guī)模動態(tài)緩 -erh00存技術(shù),使一級響應的覆蓋率達到 7%以上, 5獨有的自學習能力可自動將二級響應的搜蓋率擴充到2%以 0上。仁 hoO] C onO a 1 .搜索引擎的發(fā)展歷史 .2 4
Ie t e實現(xiàn)了 nr t n全世界人們信息共享的愿望,,然而,信息的增長是無止境的, 為了能迅速、全面又準確地找到用戶感興趣的信息,就需要
一種工具來檢索 We b
上的信息,這種工具被稱之為搜索引擎;ヂ(lián)網(wǎng)從早期的APNt前的工tre, RAe到目 nent已經(jīng)發(fā)展了近五十年。互聯(lián)網(wǎng)上的信息越來越多,而且正在以每月近千萬的數(shù)量增長。因此迫切需要一種信息
檢索工具。 91 XAS 19年, WI提供了一個界面友好的信息搜索系統(tǒng),但是這個系統(tǒng) 要求很特殊的文件格式。在同一年還出現(xiàn)了另外一個信息檢索系統(tǒng) GP E O HR
Word文檔免費下載:Web數(shù)據(jù)挖掘和個性化搜索引擎研究 (下載1-4頁,共4頁)
本文關(guān)鍵詞:Web數(shù)據(jù)挖掘和個性化搜索引擎研究,由筆耕文化傳播整理發(fā)布。
本文編號:96929
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/96929.html