基于Agent的分布式元搜索引擎架構(gòu)研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2024-04-16 21:56

　　現(xiàn)有的搜索引擎在查全率和查準(zhǔn)率方面很難滿足用戶的要求,為了查詢到一個(gè)相關(guān)的內(nèi)容,用戶常常需要使用多個(gè)搜索引擎查詢相同的內(nèi)容,然后綜合出最適合自己的結(jié)果。元搜索引擎通過(guò)調(diào)用多個(gè)成員搜索引擎來(lái)進(jìn)行搜索,因此可以很好地解決上述問(wèn)題。 Web數(shù)據(jù)提取技術(shù)是元搜索引擎的核心,如何準(zhǔn)確、高效地從Web頁(yè)面中提取內(nèi)容對(duì)于一個(gè)元搜索引擎來(lái)說(shuō)至關(guān)重要。作者對(duì)開(kāi)源的Web數(shù)據(jù)提取工具Web-Harvest進(jìn)行了深入的研究,并在此基礎(chǔ)上進(jìn)行了二次開(kāi)發(fā),摒棄了以前的通過(guò)寫配置文件(頁(yè)面抽取規(guī)則)進(jìn)行頁(yè)面抽取的方式,改用API的方式重新封裝了Web-Harvest的幾個(gè)關(guān)鍵部分。這種方式不但提高了程序提取頁(yè)面數(shù)據(jù)的效率,同時(shí)提高了程序開(kāi)發(fā)人員的開(kāi)發(fā)效率。智能Agent是人工智能領(lǐng)域發(fā)展起來(lái)的一個(gè)概念,它所特有的自主性、社會(huì)性、反應(yīng)性和能動(dòng)性可以大大提高系統(tǒng)的靈活性和智能性。作者將Agent技術(shù)應(yīng)用于所構(gòu)建的信息采集系統(tǒng),通過(guò)實(shí)踐證明,可以將整個(gè)信息采集任務(wù)分散到各個(gè)Agent上并發(fā)運(yùn)行,這樣可以極大提高信息采集的效率。元搜索引擎可以幫助用戶整合來(lái)自不同搜索引擎的搜索結(jié)果,最關(guān)鍵的是重新給出相關(guān)度,按新的相關(guān)...

【文章頁(yè)數(shù)】：57 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

圖2一1元搜索引擎體系結(jié)構(gòu)

進(jìn)行控制[16]。2.2元搜索引擎的體系結(jié)構(gòu)元搜索引擎的體系結(jié)構(gòu)一般如圖2一1所示，由檢索請(qǐng)求處理模塊、檢索接口代理模塊、結(jié)果顯示模塊3部分組成。

圖3一1Web數(shù)據(jù)提取流程圖

3.1Web數(shù)據(jù)提取的流程與方法W亡b數(shù)據(jù)提取，就是指從網(wǎng)頁(yè)中提取到我們所需要的信息，然后將其存儲(chǔ)到本地。其流程如圖3一1所示:抓抓取網(wǎng)頁(yè)頁(yè)提取有用信息存儲(chǔ)到本地圖3一1Web數(shù)據(jù)提取流程圖3.1.1抓取網(wǎng)頁(yè)抓取網(wǎng)頁(yè)的過(guò)程和我們平時(shí)使用IE瀏覽器打開(kāi)網(wǎng)頁(yè)的過(guò)程是一樣的。例如，當(dāng)....

圖3一2使用IE瀏覽器打開(kāi)網(wǎng)頁(yè)這個(gè)過(guò)程具體是這樣的:瀏覽器作為一個(gè)客戶端，向服務(wù)器端發(fā)送請(qǐng)求，把服務(wù)器端的文件抓取到本地，并按一定的規(guī)則進(jìn)行解釋和展現(xiàn)，就出現(xiàn)了我們平

服務(wù)器端的文件抓取到本地，并按一定的規(guī)則進(jìn)行解釋和展現(xiàn)，就出現(xiàn)了我們平時(shí)所看到的網(wǎng)頁(yè)。如果我們?cè)跒g覽器端選擇查看源文件命令，就會(huì)看到從服務(wù)器端抓取到的文件源代碼，如圖3一3所示。翼萬(wàn)萬(wàn)圖3一3網(wǎng)頁(yè)源代碼1)Java語(yǔ)盲‘中抓取網(wǎng)頁(yè)的方法Java語(yǔ)一言作為基于網(wǎng)絡(luò)的編程語(yǔ)言，它把....

圖33網(wǎng)頁(yè)源代碼

繆新良首頁(yè)一W;ndowsInternotExpI0rer馨臺(tái)，{登抄一加~;na·二一廠一’吁{豁!鬢孫夕篇收藏夾神登新浪著頁(yè)毅建漢灘茲甲毅癱頁(yè)抉魏幸，L23日盆網(wǎng)兮，睽，澡嘛直播預(yù)告:稍巷~·頁(yè)面(P)甲安全(s)，工具(O}，雄您好，:hang-p二迭擇去向，修改密碼安全退....

本文編號(hào)：3956740

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3956740.html

上一篇：一種基于DBN的入侵檢測(cè)誤報(bào)消除算法
下一篇：基于加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的高鐵接觸網(wǎng)承力索底座裂紋檢測(cè)研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Agent的分布式元搜索引擎架構(gòu)研究與實(shí)現(xiàn)