天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

WebCollector和ElasticSearch在高校網(wǎng)站群敏感詞檢測中的應(yīng)用研究

發(fā)布時間:2024-03-30 10:42
  在高校信息化建設(shè)過程中,建設(shè)了大量的網(wǎng)站,這些網(wǎng)站發(fā)布的信息和展示的內(nèi)容很可能含有國家法律禁止或者學(xué)校規(guī)定禁止的敏感詞匯,針對從海量的網(wǎng)站信息中定位到敏感詞匯的目的,本文采用了文獻(xiàn)研究法、個案研究法及實證研究法,通過研究相關(guān)材料文獻(xiàn)和技術(shù)文檔,研究相關(guān)系統(tǒng)設(shè)計案例,結(jié)合實際情況設(shè)計和實現(xiàn)一個能運行的系統(tǒng),得出基于Webcollector爬蟲框架和ElasticSearch搜索引擎設(shè)計和實現(xiàn)網(wǎng)站群敏感詞檢測系統(tǒng)的可行性。

【文章頁數(shù)】:5 頁

【部分圖文】:

圖1Webcollector內(nèi)核構(gòu)架圖

圖1Webcollector內(nèi)核構(gòu)架圖

WebCollector是一個基于Java的開源爬蟲框架[5],框架提供了精簡的API,只需要做少量的代碼開發(fā)就能實現(xiàn)功能強大的網(wǎng)絡(luò)爬蟲程序[6-7]。如圖1所示,在一開始注入種子任務(wù),通過任務(wù)生成器,按照預(yù)先設(shè)定的運行線程數(shù),單線程或者多線程執(zhí)行每個任務(wù),在執(zhí)行每個任務(wù)前,框架....


圖2ES寫操作原理

圖2ES寫操作原理

分片(Shard),分片是數(shù)據(jù)的容器,文檔保存在分片內(nèi),分片被分配到集群的各個節(jié)點中,分片分為主分片和副本分片,任一一個文檔都屬于一個主分片,副分片只是主分片的一個拷貝。3.3ElasticSearch運行原理


圖3ES讀操作原理

圖3ES讀操作原理

如圖2所示,當(dāng)客戶端向協(xié)調(diào)節(jié)點發(fā)送寫文檔請求時,協(xié)調(diào)節(jié)點會對文檔id使用hash算法進行散列,確定文檔應(yīng)該被索引到哪個分片。散列算法為:shard=hash(document_id)%(num_of_primary_shards)。當(dāng)分片節(jié)點收到協(xié)調(diào)節(jié)點的請求時,會把請求寫入tr....


圖4系統(tǒng)架構(gòu)圖

圖4系統(tǒng)架構(gòu)圖

4.1系統(tǒng)架構(gòu)設(shè)計圖4為系統(tǒng)的架構(gòu)圖,在系統(tǒng)中有WebCollector爬蟲程序,保存配置信息的數(shù)據(jù)庫,存儲網(wǎng)頁數(shù)據(jù)的ES集群,以及定時執(zhí)行任務(wù)的Quartz程序等組件[13]。



本文編號:3942233

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3942233.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶da579***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com