WebCollector和ElasticSearch在高校網(wǎng)站群敏感詞檢測中的應(yīng)用研究
【文章頁數(shù)】:5 頁
【部分圖文】:
圖1Webcollector內(nèi)核構(gòu)架圖
WebCollector是一個基于Java的開源爬蟲框架[5],框架提供了精簡的API,只需要做少量的代碼開發(fā)就能實現(xiàn)功能強大的網(wǎng)絡(luò)爬蟲程序[6-7]。如圖1所示,在一開始注入種子任務(wù),通過任務(wù)生成器,按照預(yù)先設(shè)定的運行線程數(shù),單線程或者多線程執(zhí)行每個任務(wù),在執(zhí)行每個任務(wù)前,框架....
圖2ES寫操作原理
分片(Shard),分片是數(shù)據(jù)的容器,文檔保存在分片內(nèi),分片被分配到集群的各個節(jié)點中,分片分為主分片和副本分片,任一一個文檔都屬于一個主分片,副分片只是主分片的一個拷貝。3.3ElasticSearch運行原理
圖3ES讀操作原理
如圖2所示,當(dāng)客戶端向協(xié)調(diào)節(jié)點發(fā)送寫文檔請求時,協(xié)調(diào)節(jié)點會對文檔id使用hash算法進行散列,確定文檔應(yīng)該被索引到哪個分片。散列算法為:shard=hash(document_id)%(num_of_primary_shards)。當(dāng)分片節(jié)點收到協(xié)調(diào)節(jié)點的請求時,會把請求寫入tr....
圖4系統(tǒng)架構(gòu)圖
4.1系統(tǒng)架構(gòu)設(shè)計圖4為系統(tǒng)的架構(gòu)圖,在系統(tǒng)中有WebCollector爬蟲程序,保存配置信息的數(shù)據(jù)庫,存儲網(wǎng)頁數(shù)據(jù)的ES集群,以及定時執(zhí)行任務(wù)的Quartz程序等組件[13]。
本文編號:3942233
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3942233.html