基于Agent的分布式元搜索引擎架構(gòu)研究與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:57 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2一1元搜索引擎體系結(jié)構(gòu)
進(jìn)行控制[16]。2.2元搜索引擎的體系結(jié)構(gòu)元搜索引擎的體系結(jié)構(gòu)一般如圖2一1所示,由檢索請(qǐng)求處理模塊、檢索接口代理模塊、結(jié)果顯示模塊3部分組成。
圖3一1Web數(shù)據(jù)提取流程圖
3.1Web數(shù)據(jù)提取的流程與方法W亡b數(shù)據(jù)提取,就是指從網(wǎng)頁(yè)中提取到我們所需要的信息,然后將其存儲(chǔ)到本地。其流程如圖3一1所示:抓抓取網(wǎng)頁(yè)頁(yè)提取有用信息存儲(chǔ)到本地圖3一1Web數(shù)據(jù)提取流程圖3.1.1抓取網(wǎng)頁(yè)抓取網(wǎng)頁(yè)的過(guò)程和我們平時(shí)使用IE瀏覽器打開(kāi)網(wǎng)頁(yè)的過(guò)程是一樣的。例如,當(dāng)....
圖3一2使用IE瀏覽器打開(kāi)網(wǎng)頁(yè)這個(gè)過(guò)程具體是這樣的:瀏覽器作為一個(gè)客戶端,向服務(wù)器端發(fā)送請(qǐng)求,把服務(wù)器端的文件抓取到本地,并按一定的規(guī)則進(jìn)行解釋和展現(xiàn),就出現(xiàn)了我們平
服務(wù)器端的文件抓取到本地,并按一定的規(guī)則進(jìn)行解釋和展現(xiàn),就出現(xiàn)了我們平時(shí)所看到的網(wǎng)頁(yè)。如果我們?cè)跒g覽器端選擇查看源文件命令,就會(huì)看到從服務(wù)器端抓取到的文件源代碼,如圖3一3所示。翼萬(wàn)萬(wàn)圖3一3網(wǎng)頁(yè)源代碼1)Java語(yǔ)盲‘中抓取網(wǎng)頁(yè)的方法Java語(yǔ)一言作為基于網(wǎng)絡(luò)的編程語(yǔ)言,它把....
圖33網(wǎng)頁(yè)源代碼
繆新良首頁(yè)一W;ndowsInternotExpI0rer馨臺(tái),{登抄一加~;na·二一廠一’吁{豁!鬢孫夕篇收藏夾神登新浪著頁(yè)毅建漢灘茲甲毅癱頁(yè)抉魏幸,L23日盆網(wǎng)兮,睽,澡嘛直播預(yù)告:稍巷~·頁(yè)面(P)甲安全(s),工具(O},雄您好,:hang-p二迭擇去向,修改密碼安全退....
本文編號(hào):3956740
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3956740.html