基于Nutch的分布式爬蟲研究與優(yōu)化
本文關(guān)鍵詞:基于Nutch的分布式爬蟲研究與優(yōu)化
更多相關(guān)文章: Nutch 爬蟲 Hadoop Proxy IP 網(wǎng)頁(yè)更新預(yù)測(cè) DBSCAN算法 Map Reduce 泊松過(guò)程
【摘要】:隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)上的數(shù)據(jù)正在迅速膨脹并變大,數(shù)據(jù)的采集速度越來(lái)越不能滿足實(shí)際需要。爬蟲系統(tǒng)需要抓取的網(wǎng)頁(yè)數(shù)量巨大,如何高效、穩(wěn)定地抓取網(wǎng)頁(yè)非常重要。網(wǎng)頁(yè)分布廣及動(dòng)態(tài)變化也使爬蟲系統(tǒng)很難保持本地網(wǎng)頁(yè)時(shí)新性,爬蟲需要及時(shí)更新本地網(wǎng)頁(yè),避免網(wǎng)頁(yè)失效。本文對(duì)Nutch爬蟲進(jìn)行改進(jìn),將改進(jìn)后的Nutch和Hadoop分布式平臺(tái)結(jié)合,設(shè)計(jì)高效、可靠的分布式爬蟲系統(tǒng)。主要研究成果如下:1、Nutch和Hadoop分布式平臺(tái)結(jié)合Nutch單機(jī)運(yùn)行時(shí),受限于單臺(tái)機(jī)器存儲(chǔ)及運(yùn)算性能,且易發(fā)生單點(diǎn)故障,穩(wěn)定性差。我們借助Hadoop分布式平臺(tái)的優(yōu)點(diǎn),將Nutch運(yùn)行的各個(gè)步驟提交給Hadoop,使用Map Reduce分布式計(jì)算完成,并將數(shù)據(jù)存儲(chǔ)在HDFS上。我們分別對(duì)Nutch單機(jī)模式和Nutch分布式模式進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:對(duì)比單機(jī)模式,分布式模式隨著集群中節(jié)點(diǎn)的增多,Nutch爬行的性能會(huì)線性增長(zhǎng);數(shù)據(jù)安全性提高,可靠性增強(qiáng),節(jié)點(diǎn)間負(fù)載均衡。2、提出Proxy IP動(dòng)態(tài)更換模塊在詳細(xì)分析Nutch抓取網(wǎng)頁(yè)數(shù)據(jù)的工作流程后,發(fā)現(xiàn)當(dāng)一個(gè)網(wǎng)站有以IP為依據(jù)的訪問檢測(cè)機(jī)制時(shí),Nutch大規(guī)模訪問很容易被禁止。針對(duì)這個(gè)問題,提出Proxy IP動(dòng)態(tài)更換模塊,與Nutch系統(tǒng)結(jié)合,在Nutch爬行被禁止時(shí),更換Proxy IP,使Nutch能繼續(xù)爬行。經(jīng)過(guò)測(cè)試,Nutch的爬蟲被禁止爬行得到有效解決。3、網(wǎng)頁(yè)更新預(yù)測(cè)優(yōu)化Nutch有網(wǎng)頁(yè)更新模塊,但網(wǎng)頁(yè)更新的參數(shù)需要人為設(shè)定,且對(duì)所有網(wǎng)頁(yè)有效,很難適應(yīng)海量網(wǎng)頁(yè)的差異化。本文提出動(dòng)態(tài)選擇策略來(lái)預(yù)測(cè)網(wǎng)頁(yè)更新周期。在網(wǎng)頁(yè)更新歷史數(shù)據(jù)不足時(shí),通過(guò)基于Map Reduce的DBSCAN聚類算法來(lái)減少爬蟲系統(tǒng)抓取網(wǎng)頁(yè)數(shù)量,將樣本網(wǎng)頁(yè)的更新周期作為所屬類其它網(wǎng)頁(yè)的更新周期;在網(wǎng)頁(yè)更新歷史數(shù)據(jù)較多時(shí),通過(guò)對(duì)網(wǎng)頁(yè)更新歷史數(shù)據(jù)進(jìn)行泊松過(guò)程建模較準(zhǔn)確地預(yù)測(cè)每個(gè)網(wǎng)頁(yè)的更新周期。實(shí)驗(yàn)表明,動(dòng)態(tài)選擇策略節(jié)約了爬蟲的抓取資源,且能較準(zhǔn)確預(yù)測(cè)網(wǎng)頁(yè)的更新周期。
【關(guān)鍵詞】:Nutch 爬蟲 Hadoop Proxy IP 網(wǎng)頁(yè)更新預(yù)測(cè) DBSCAN算法 Map Reduce 泊松過(guò)程
【學(xué)位授予單位】:上海師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【目錄】:
- 摘要2-3
- Abstract3-7
- 第1章 緒論7-11
- 1.1 研究目的和意義7
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀7-9
- 1.3 主要研究?jī)?nèi)容9-10
- 1.4 論文結(jié)構(gòu)10-11
- 第2章 Nutch與Hadoop研究11-25
- 2.1 Nutch11-15
- 2.1.1 Nutch體系結(jié)構(gòu)11-12
- 2.1.2 Nutch爬蟲系統(tǒng)12-14
- 2.1.3 Nutch網(wǎng)頁(yè)更新機(jī)制14-15
- 2.2 Hadoop分布式平臺(tái)15-24
- 2.2.1 分布式文件系統(tǒng)(HDFS)15-18
- 2.2.2 資源管理系統(tǒng)YARN18-21
- 2.2.3 Map Reduce21-24
- 2.3 本章小結(jié)24-25
- 第3章 網(wǎng)頁(yè)更新預(yù)測(cè)相關(guān)研究25-35
- 3.1 網(wǎng)頁(yè)更新25-28
- 3.1.1 網(wǎng)頁(yè)庫(kù)時(shí)新性和過(guò)時(shí)度25-26
- 3.1.2 網(wǎng)頁(yè)更新頻率26
- 3.1.3 網(wǎng)頁(yè)更新策略26-28
- 3.2 泊松過(guò)程28
- 3.2.1 泊松過(guò)程簡(jiǎn)介28
- 3.3 聚類算法28-34
- 3.3.1 聚類的劃分28-31
- 3.3.2 DBSCAN聚類算法31-34
- 3.4 本章小結(jié)34-35
- 第4章 基于Nutch的爬蟲優(yōu)化35-45
- 4.1 Proxy IP動(dòng)態(tài)更換模塊實(shí)現(xiàn)35-37
- 4.1.1 Proxy IP庫(kù)35
- 4.1.2 Proxy IP庫(kù)運(yùn)行流程介紹35-36
- 4.1.3 Proxy IP有效性標(biāo)識(shí)向量36
- 4.1.4 質(zhì)量系數(shù)36
- 4.1.5 Proxy IP動(dòng)態(tài)更換36-37
- 4.2 網(wǎng)頁(yè)更新預(yù)測(cè)優(yōu)化37-44
- 4.2.1 動(dòng)態(tài)選擇策略37-38
- 4.2.2 基于Map Reduce的DBSCAN算法38-43
- 4.2.3 基于泊松過(guò)程的網(wǎng)頁(yè)更新預(yù)測(cè)43-44
- 4.3 本章小結(jié)44-45
- 第5章 實(shí)驗(yàn)與結(jié)果分析45-56
- 5.1 實(shí)驗(yàn)環(huán)境45-50
- 5.1.1 硬件環(huán)境45
- 5.1.2 系統(tǒng)部署45-50
- 5.2 實(shí)驗(yàn)測(cè)試50-55
- 5.2.1 Proxy IP動(dòng)態(tài)更換模塊實(shí)驗(yàn)50-52
- 5.2.2 網(wǎng)頁(yè)更新預(yù)測(cè)實(shí)驗(yàn)52-54
- 5.2.3 爬蟲系統(tǒng)性能實(shí)驗(yàn)54-55
- 5.3 實(shí)驗(yàn)結(jié)果分析55
- 5.4 本章小結(jié)55-56
- 第6章 總結(jié)與展望56-58
- 參考文獻(xiàn)58-60
- 攻讀碩士學(xué)位期間取得的研究成果60-61
- 致謝61-63
- 附件63
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條
1 潘濤;梁正友;;Nutch中網(wǎng)頁(yè)排序效果的改進(jìn)方法[J];計(jì)算機(jī)工程;2010年13期
2 呂韓飛,王申康;一種重要性與時(shí)新性結(jié)合的網(wǎng)頁(yè)更新策略[J];計(jì)算機(jī)應(yīng)用研究;2005年11期
3 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計(jì)算機(jī)科學(xué)與探索;2011年01期
4 周世龍;陳興蜀;羅永剛;;Hadoop視角下的Nutch爬行性能優(yōu)化[J];計(jì)算機(jī)應(yīng)用;2013年10期
5 孟濤,閆宏飛,王繼民;一個(gè)增量搜集中國(guó)W eb的系統(tǒng)模型及其實(shí)現(xiàn)[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
6 孫吉貴;劉杰;趙連宇;;聚類算法研究[J];軟件學(xué)報(bào);2008年01期
7 徐尚瑜;;基于泊松過(guò)程的爬蟲調(diào)度策略分析[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2009年12期
8 徐健;張智雄;;基于Nutch的Web網(wǎng)站定向采集系統(tǒng)[J];現(xiàn)代圖書情報(bào)技術(shù);2009年04期
9 劉俊嶺;孫煥良;王大玲;牛志成;;一種優(yōu)化的基于網(wǎng)格的聚類算法[J];小型微型計(jì)算機(jī)系統(tǒng);2006年10期
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前7條
1 鄭洪英;數(shù)據(jù)挖掘聚類算法的分析和應(yīng)用研究[D];重慶大學(xué);2002年
2 蘇曉珂;基于Nutch的主題爬蟲研究與實(shí)現(xiàn)[D];昆明理工大學(xué);2007年
3 馮朝一;云理論在數(shù)據(jù)挖掘中的應(yīng)用研究[D];廣西大學(xué);2007年
4 李東海;基于Nutch技術(shù)的主題搜索引擎實(shí)現(xiàn)[D];吉林大學(xué);2008年
5 吳翠雁;基于Nutch的信息采集系統(tǒng)的研究與實(shí)現(xiàn)[D];華南理工大學(xué);2010年
6 李偉雄;基于密度的聚類算法研究[D];湖南大學(xué);2010年
7 萬(wàn)文宏;基于Nutch的分布式搜索引擎的研究與優(yōu)化[D];武漢理工大學(xué);2013年
,本文編號(hào):562132
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/562132.html