垂直搜索引擎關(guān)鍵技術(shù)研究綜述
本文關(guān)鍵詞:垂直搜索引擎關(guān)鍵技術(shù)研究綜述,由筆耕文化傳播整理發(fā)布。
系統(tǒng)總結(jié)了垂直搜索引擎的關(guān)鍵技術(shù)及國內(nèi)外應(yīng)用現(xiàn)狀,預(yù)測了未來的發(fā)展趨勢。
21 0 2年 l O月
情報(bào)探索
第 1 0期 ( 10期 )總 8
垂直搜索引擎關(guān)鍵技術(shù)研究綜述 季春姜琴吳錚悅 201) 108 (南京市科學(xué)技術(shù)信息研究所江蘇 關(guān)鍵詞:索引擎搜垂直搜索網(wǎng)頁信息抽取 摘要:系統(tǒng)總結(jié)了垂直搜索 g擎的關(guān)鍵技術(shù)及國內(nèi)外應(yīng)用現(xiàn)狀,測了未來的發(fā)展趨勢。 l預(yù)
中圖分類號(hào):P 9 . T 3 1 3
文獻(xiàn)標(biāo)識(shí)碼: A
d i1.9 9 i n10— 0 52 1 . . 1 o:03 6 ̄.s. 5 89 . 21 0 s 0 0 03
今天的資訊時(shí)代,互聯(lián)網(wǎng)的信息量呈爆炸趨勢增長,,傳統(tǒng)的綜合性搜索引擎在面對(duì)海量信息的快速定位時(shí)已經(jīng)顯得力不從心。實(shí)中,現(xiàn)我們經(jīng)常碰到這樣的情況,在谷歌或者百度中輸入一個(gè)主題,能得到成千上萬的結(jié)果,存在大量死鏈接、復(fù)信息或但重不相關(guān)信息,用戶很難在短時(shí)間內(nèi)準(zhǔn)確地篩選出需要的內(nèi)容。因此,有信息與擁有無限多的信息,沒結(jié)果是一樣的。傳統(tǒng)的綜合性搜索引擎可以為用戶提供龐大的網(wǎng)絡(luò)信息資源,但卻很容易讓用戶迷失其中,法準(zhǔn)確、速地找到自己需要的信息,直搜無快垂索引擎的出現(xiàn)解決了這個(gè)問題。 1垂直搜索引擎的定義根據(jù)搜索的內(nèi)容范圍。搜索引擎可分為綜合型
( )直搜索引擎, 4垂也被稱為專業(yè)或?qū)S盟阉饕?.就是專為查詢某一個(gè)學(xué)科或主題的信息而產(chǎn)生的查詢工具 .門收錄某一方面、專某一行業(yè)或某一主題的信息。在解決某些實(shí)際查詢問題的時(shí)候比綜合 搜索引擎有效。]
( )所謂專業(yè)搜索引擎就是以構(gòu)筑某一專題或 5學(xué)科領(lǐng)域的 It nt ne e網(wǎng)絡(luò)信息資源庫為目標(biāo),能地 r智在互聯(lián)網(wǎng)上搜集符合這一專題或領(lǐng)域需要的信息資源。能夠?yàn)榘▽W(xué)科信息門戶、專業(yè)信息機(jī)構(gòu)、定特行業(yè)領(lǐng)域、司信息中心、公行業(yè)專家等等在內(nèi)的信息用戶,提供整套的網(wǎng)絡(luò)信息資源開發(fā)方案[。 6] 2垂直搜索引擎的工作原理
和專題型,即水平搜索引擎與垂直搜索引擎 n。綜也]合搜索引擎的資源包羅萬象,用戶可利用它們檢索幾乎任何類型、有主題的資源,所但缺點(diǎn)是收錄雖廣但不精,且死鏈接較多,息質(zhì)量難以保證。與之而
信相對(duì)應(yīng)的垂直搜索引擎,目前學(xué)術(shù)界對(duì)其定義的表 述有以下幾種:
垂直搜索引擎主要是由主題爬蟲模塊、索引模塊、索模塊、戶接口等部分組成[見圖 1檢用,。
( )直搜索引擎,專業(yè)搜索引擎,是專為 1垂即就查詢某一學(xué)科或主題的信息而產(chǎn)生的查詢工具。對(duì)解決實(shí)際查詢問題要比綜合搜索引擎門戶有效得多[ 。 ( )直搜索引擎是針對(duì)某一個(gè)行業(yè)的專業(yè)搜 2垂索引擎,搜索引擎的細(xì)分和延伸,對(duì)網(wǎng)頁庫中是是 的某類專門的信息進(jìn)行一次整合 .向分字段抽取定出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用 戶。引 圖 1垂直搜索引覃的結(jié)構(gòu)
( )垂直搜索引擎是針對(duì)綜合搜索引擎的信息 3量大、查詢不準(zhǔn)確、度不夠等提出來的新的搜索引深擎服務(wù)模式,過針對(duì)某一特定領(lǐng)域、通某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是“、、”且具有行業(yè)色彩,比專精深,相較綜合搜索引擎的海量信息無序化。垂直搜索引擎則更加專業(yè)、具體和深入 _。 4] 收稿日期: 0 2 0— 6 2 1 - 3 0
網(wǎng)絡(luò)爬蟲模塊定時(shí)自動(dòng)啟動(dòng)并讀取 U L列表 R中所指定的網(wǎng)站,抓取指定網(wǎng)站上的數(shù)據(jù);本分析文模塊對(duì)抓取的網(wǎng)頁進(jìn)行分析并保存在文檔數(shù)據(jù)庫中;引模塊將文檔數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行切詞處理、索 數(shù)據(jù)分析和自動(dòng)標(biāo)引,存儲(chǔ)于可供查詢的索引數(shù)據(jù)庫中;用戶接口提供用戶與搜索引擎交互的界面 .當(dāng)用戶輸入關(guān)鍵字進(jìn)行查詢時(shí),檢索模塊根據(jù)關(guān)鍵字
作者簡介:季春 (90 )男,士, 18一,碩工程師,究方向?yàn)橛?jì)算機(jī)信息管理;琴 (9 9 )女,士,理研究員,究方向?yàn)榻?jīng)濟(jì)、研姜 17一,碩助研 信息管理;吳錚悅 ( 9 9 )男,士, 17一,碩工程師,究方向?yàn)橛?jì)算機(jī)信息管理。研 91
Word文檔免費(fèi)下載:垂直搜索引擎關(guān)鍵技術(shù)研究綜述 (下載1-1頁,共1頁)
本文關(guān)鍵詞:垂直搜索引擎關(guān)鍵技術(shù)研究綜述,由筆耕文化傳播整理發(fā)布。
本文編號(hào):58858
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/58858.html