面向分布式的通用網(wǎng)絡爬蟲系統(tǒng)關鍵技術研究與實現(xiàn)

發(fā)布時間：2021-07-10 10:31

　　隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡上的數(shù)據(jù)呈指數(shù)增長。用戶獲取信息的一個重要途徑就是通過搜索引擎,搜索引擎通過抓取全網(wǎng)數(shù)據(jù)來為用戶提供搜索。中小型的數(shù)據(jù)抓取需求使用單機爬蟲即可滿足,然而在遇到大型的數(shù)據(jù)抓取需求時,為了提高整體網(wǎng)絡爬蟲系統(tǒng)的性能,需要借助分布式技術,通過有效的分工和多臺機器之間的協(xié)作來提高抓取效率。現(xiàn)有的分布式網(wǎng)絡爬蟲框架在擴展性和可用性上不夠完善,本文提出的面向分布式的通用網(wǎng)絡爬蟲系統(tǒng)采用當前較為成熟的分布式技術,使得爬蟲系統(tǒng)在數(shù)據(jù)抓取的各方面都有優(yōu)異的表現(xiàn)。本文的主要工作如下:1)給出了一種基于歷史數(shù)據(jù)的時效性種子頁面調(diào)度算法。調(diào)度模塊是網(wǎng)絡爬蟲系統(tǒng)的核心模塊,調(diào)度算法的質(zhì)量直接影響到整個系統(tǒng)的成本和效率。針對種子頁面調(diào)度不靈活的問題,提出了基于歷史數(shù)據(jù)的時效性調(diào)度算法。同時,利用回歸預測算法計算模型后,應用在調(diào)度模塊中,使得算法在成本、命中率、延時上都獲得了比較好的效果。2)給出了一種URL歸一化去重的挖掘算法。URL去重是影響網(wǎng)絡爬蟲性能的另一重要因素,去重可以為系統(tǒng)節(jié)約大量的存儲空間,并且提高后續(xù)使用數(shù)據(jù)時的檢索效率。本文通過對去重模塊提出挖掘規(guī)則來改善URL歸一化的...

【文章來源】：北京工業(yè)大學北京市 211工程院校

【文章頁數(shù)】：79 頁

【學位級別】：碩士

【部分圖文】：

通用網(wǎng)絡爬蟲框架

數(shù)據(jù)流圖,數(shù)據(jù)流圖,框架結(jié)構(gòu),引擎

圖 2-1 Scrapy 框架結(jié)構(gòu)及數(shù)據(jù)流圖Figure 2-1 Scrapy framework structure and data flow diagram圖 2-1 顯示了 Scrapy 的架構(gòu)及其模塊的概述，以及系統(tǒng)內(nèi)部的數(shù)據(jù)流的概要，下面提供了這些模塊的簡要說明以及數(shù)據(jù)流的描述。數(shù)據(jù)流描述如下：（1）爬蟲主引擎得到初始化的請求發(fā)送給爬蟲模塊。（2）引擎調(diào)度模塊獲取到請求準備下次調(diào)度。（3）調(diào)度模塊把請求返回給主引擎。（4）主引擎把請求發(fā)送給下載模塊，其中經(jīng)過若干下載中間件。（5）當頁面下載完畢后，下載模塊生成一個頁面的響應并回傳給主引擎，也會經(jīng)過下載中間件。（6）主引擎把響應發(fā)送給爬蟲模塊來處理，其中經(jīng)過若干爬蟲中間件。（7）爬蟲處理請求后返回數(shù)據(jù)和新的響應給主引擎，也會經(jīng)過爬蟲中間件。（8）主引擎把返回的數(shù)據(jù)集發(fā)送給數(shù)據(jù)處理管道，然后發(fā)送新的請求給調(diào)度模塊。（9）進程重復步驟 1~8 直到調(diào)度模塊沒有新的請求為止。相關模塊的描述如下：（1）Scrapy 主引擎負責控制數(shù)據(jù)流圖通過所有其他系統(tǒng)的模塊

工作流圖,工作流圖

圖 2-2 Nutch 工作流圖Figure 2-2 Nutch workflow diagram圖 2-2 為 Nutch 的工作流圖，各個流程的介紹如下：（1）Injector 負責將 URL 注入到 CrawlDB，這里會清理非正常的 URL，并把抓過的 URL 進行標記防止多次抓取。（2）Generator 負責根據(jù) CrawlDB 創(chuàng)建抓取列表，會創(chuàng)建一個抓取的列表，以文件夾的形式存在，存儲于 segments 下面，記錄了當前爬蟲的進度信息。

【參考文獻】：
期刊論文
[1]大數(shù)據(jù)系統(tǒng)和分析技術綜述[J]. 程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.  軟件學報. 2014(09)
[2]一種網(wǎng)絡爬蟲系統(tǒng)中URL去重方法的研究[J]. 成功,李小正,趙全軍.  中國新技術新產(chǎn)品. 2014(12)
[3]國內(nèi)網(wǎng)頁去重技術研究:現(xiàn)狀與總結(jié)[J]. 李志義,梁士金.  圖書情報工作. 2011(07)
[4]基于正文結(jié)構(gòu)和長句提取的網(wǎng)頁去重算法[J]. 黃仁,馮勝,楊吉云,劉宇,敖民.  計算機應用研究. 2010(07)
[5]基于泊松過程的爬蟲調(diào)度策略分析[J]. 徐尚瑜.  現(xiàn)代計算機(專業(yè)版). 2009(12)
[6]高性能網(wǎng)絡爬蟲:研究綜述[J]. 周德懋,李舟軍.  計算機科學. 2009(08)
[7]基于Bloom Filter的大規(guī)模網(wǎng)頁去重策略研究[J]. 丁振國,吳寶貴,辛友強.  現(xiàn)代圖書情報技術. 2008(03)
[8]一個增量搜集中國W eb的系統(tǒng)模型及其實現(xiàn)[J]. 孟濤,閆宏飛,王繼民.  清華大學學報(自然科學版). 2005(S1)
[9]MD5算法在消除重復網(wǎng)頁算法中的應用[J]. 彭曙蓉,章兢,楊文忠.  電腦知識與技術. 2005(29)
[10]網(wǎng)格計算中任務調(diào)度研究綜述[J]. 羅紅,慕德俊,鄧智群,王曉東.  計算機應用研究. 2005(05)

碩士論文
[1]基于Scrapy的分布式網(wǎng)絡爬蟲系統(tǒng)設計與實現(xiàn)[D]. 樊宇豪.電子科技大學 2018
[2]網(wǎng)絡爬蟲技術在云平臺上的研究與實現(xiàn)[D]. 劉小云.電子科技大學 2016
[3]基于Storm云平臺的分布式網(wǎng)絡爬蟲技術研究與實現(xiàn)[D]. 付志鴻.電子科技大學 2015
[4]網(wǎng)頁正文提取及去重技術研究[D]. 胡金棟.浙江大學 2011
[5]基于Hadoop的分布式爬蟲及其實現(xiàn)[D]. 程錦佳.北京郵電大學 2010

本文編號：3275745

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/shengwushengchang/3275745.html

上一篇：基于深度學習的肺結(jié)節(jié)檢測技術的研究
下一篇：基于Hadoop架構(gòu)網(wǎng)站的數(shù)據(jù)清洗研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向分布式的通用網(wǎng)絡爬蟲系統(tǒng)關鍵技術研究與實現(xiàn)