垂直搜索引擎的主題爬蟲策略
本文關鍵詞:垂直搜索引擎的主題爬蟲策略,由筆耕文化傳播整理發(fā)布。
Computer與技術電腦知識與技術ComputerKnowledgeKnowledgeandandTechnologyTechnology電腦知識
Vol.6,No.15,May2010,pp.3962-39631009-3044第6卷第15期(2010年5月):xsjl@:+86-551-56909635690964垂直搜索引擎的主題爬蟲策略
張麗敏
(湖南涉外經濟學院,湖南長沙410205)
摘要:隨著互聯(lián)網絡的迅猛發(fā)展,更專業(yè)化更高準確率的垂直搜索引擎已成為人們獲取所需的知識必不可少的工具。以何種策略有效地訪問網絡資源是搜索引擎中網絡爬蟲研究的主要問題。該文對垂直搜索引擎中網絡爬蟲的搜索策略進行簡要分析,比較各種搜索算法的優(yōu)缺點,使人們對網絡爬蟲的搜索算法有個大概了解。最后對搜索引擎未來網絡爬蟲研究趨勢做了說明。
關鍵詞:垂直搜索引擎;主題爬蟲;搜索策略
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2010)15-3962-02
FocusedCrawler'SStrategiesontheVerticalSearchEngine
ZHANGLi-min
(HunanInternationalEconomicsUniversity,Changsha410205,China)
Abstract:WiththerapiddevelopmentofInternet,verticalsearchenginesofmorespecializedhigheraccuracyofverticalsearchengineshavebecomeindispensabletoobtaintherequiredknowledgetools.Itisthem'ssearchingstrategies,comparestheiradvantageanddisad-vantage.Thispaperwantstomakepeopleknowthewebcrawler'sstrategy.Finally,itisillustratedtothefutureofWebcrawlersearchen-gineresearchtrends.
Keywords:verticalsearchengine;focusedcrawler;searchingstrategy
隨著互聯(lián)網絡的快速發(fā)展,已使Internet成為一個海量的信息庫。如何快速而準確的從Internet中獲得自己想要的知識是每個使用網絡的人都很關心的問題。傳統(tǒng)搜索引擎如google,百度等結果里往往存在大量的重復信息和垃圾信息,用戶越來越難迅速的找到真正需要的信息。為了提高信息的查準率和減少誤差率,垂直搜索引擎應運而生。
垂直搜索引擎是針對某一個行業(yè)的專業(yè)搜索引擎.是搜索引擎的細分和延伸。它對信息精細分類,過濾篩選,,對網頁庫中的某類專門的信息進行一次整合使信息定位更精準,使搜索服務更好的服務于用戶,更為用戶所歡迎。
垂直搜索引擎主要由主題爬蟲模塊.索引模塊,檢索模塊,用戶接口等四個部分組成。
網絡爬蟲(Crawler,robots,bots,wanderer或Spider)是一個自動下載Web網頁的程序,是搜索引擎的基礎與核心。網絡爬蟲在采集web信息時通常從一個“種子集”(如用戶查詢、種子鏈接或種子頁面)出發(fā),通過HTTP協(xié)議請求并下載Web頁面,分析頁面并提取鏈接,然后再以循環(huán)迭代的方式訪問Web。網絡爬蟲在搜索時往往采用一定的搜索策略。網絡爬蟲的搜索策略與搜索引擎的性質和任務密切相關。
1主題爬蟲搜索策略
第一代網絡爬蟲所用的搜索策略主要是基于傳統(tǒng)的圖算法,如寬度優(yōu)先或深度優(yōu)先算法來索引整個Web。一個核心的URL集被用來作為一個種子集合,這種算法遞歸的跟蹤超鏈接到其它頁面,而通常不管頁面的內容,因為最終的目標是這種跟蹤能覆蓋整個Web。寬度和深度優(yōu)先搜索策略通常用在通用搜索引擎中,因為通用搜索引擎獲得的網頁越多越好,沒有特定的要求。
主題爬蟲的爬行策略只挑出某一個特定主題的頁面。它依據(jù)“最好優(yōu)先原則”進行訪問,能夠快速、有效地獲得更多的與主題相關的頁面。圖1把兩類搜索引擎網絡爬蟲搜索順序做了比較。
按評價鏈接價值采用的方法,把主題爬蟲搜索策略分為以下四類。
1.1基于內容評價的搜索策略
基于內容評價的搜索策略都是根據(jù)主題(如關鍵詞、主題相關文
檔)與鏈接頁面內容的相似度來評價鏈接價值的高低。此種搜索策略早
期是利用文本相似度的計算方法評價頁面文本與主題集之間的相似程
度。這類搜索策略比較有代表性的主要有Fish—Search算法和Fish—a)通用搜索引擎
圖1b)垂直搜索引擎Search改進算法Best-First算法。
性”,很難反映Web的整體情況,使得這類網絡爬蟲普遍存在“近視”的缺點。兩類搜索引擎網絡爬蟲搜索順序比較最近的研究表明,這類網絡爬蟲在距離相關頁面集較近的地方搜索時表現(xiàn)出良好的性能。但由于頁面中的文本信息缺乏“全局
收稿日期:2010-03-11
作者簡介:張麗敏(1978-),女,湖南常德人,助理實驗師,在讀研究生,研究方向為搜索引擎,計算機網絡。
:謝媛媛
本文關鍵詞:垂直搜索引擎的主題爬蟲策略,由筆耕文化傳播整理發(fā)布。
本文編號:150200
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/150200.html