基于多Agent系統(tǒng)的定題爬蟲算法
發(fā)布時間:2018-03-16 10:46
本文選題:定題爬蟲 切入點:主題關鍵字過濾 出處:《計算機工程》2008年16期 論文類型:期刊論文
【摘要】:定題爬蟲的研究是定題搜索引擎的關鍵技術。該文提出一種基于多Agent系統(tǒng)的爬蟲算法,采用本題語義主題關鍵詞過濾的方法來抓取與主題相關的網(wǎng)頁,利用本體庫語義網(wǎng)絡實現(xiàn)本體領域中同近義詞的過濾。憑借HTML網(wǎng)頁標記對關鍵字識別的不同權重和超鏈接錨文本對主題相關網(wǎng)頁進行預測,通過黑板的通信機制實現(xiàn)多Agent交互。實驗結果表明算法在抓取網(wǎng)頁的查準率、查全率方面有一定的改善。
[Abstract]:The research of topic crawler is the key technology of topic search engine. In this paper, a crawler algorithm based on multiple Agent system is proposed. The semantic network of ontology library is used to filter the synonyms in ontology domain. With the help of different weights and hyperlink anchor text recognized by HTML web page tags, the relevant web pages are predicted. The experiment results show that the algorithm can improve the precision and recall of web pages.
【作者單位】: 江蘇大學計算機科學與通信工程學院;
【基金】:江蘇省科技攻關基金資助重點項目(BE2004093)
【分類號】:TP18;TP391.3
【相似文獻】
相關碩士學位論文 前1條
1 鄭健珍;定題爬蟲搜索策略研究[D];廈門大學;2007年
,本文編號:1619587
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1619587.html
最近更新
教材專著