一種基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與設(shè)計

發(fā)布時間：2017-04-27 17:00

本文關(guān)鍵詞：一種基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與設(shè)計，，由筆耕文化傳播整理發(fā)布。

【摘要】：信息技術(shù)的飛速發(fā)展,尤其是近些年來互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,深刻的改變著我們生活的世界。信息技術(shù)產(chǎn)業(yè)以及信息技術(shù)與傳統(tǒng)產(chǎn)業(yè)的結(jié)合已經(jīng)成為世界經(jīng)濟(jì)的重要組成部分。而當(dāng)前隨著網(wǎng)絡(luò)將越來越多事物連接起來,人們需要面對的信息量也激增了,因此一個新的課題也就產(chǎn)生了——如何找到有價值的信息。對于個體用戶面對互聯(lián)網(wǎng)的情況,這一問題的答案就是搜索引擎。而對于想獲得海量數(shù)據(jù)當(dāng)中隱藏的價值的企業(yè),這一問題的答案就是數(shù)據(jù)分析與數(shù)據(jù)挖掘。對于這些解決辦法而言,信息處理的第一步就是獲取互聯(lián)網(wǎng)上的海量的信息。本論文的研究課題就是從互聯(lián)網(wǎng)上獲取海量信息的網(wǎng)絡(luò)爬蟲技術(shù),由于當(dāng)前單機(jī)平臺已經(jīng)難以應(yīng)對互聯(lián)網(wǎng)大數(shù)據(jù)量的挑戰(zhàn),本課題借助分布式平臺來作為應(yīng)用的底層平臺。本論文的主要研究工作包括以下幾個方面：網(wǎng)絡(luò)爬蟲研究的背景技術(shù)與相關(guān)理論�；ヂ�(lián)網(wǎng)信息的爆發(fā)式增長,衍生出了搜索引擎技術(shù),而網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。本論文研究分析了搜索引擎的基本工作原理與關(guān)鍵模塊的技術(shù)細(xì)節(jié),主要是建立搜索索引和搜索結(jié)果排序的技術(shù)原理。在這些研究的基礎(chǔ)上,本論文對網(wǎng)絡(luò)爬蟲的原理進(jìn)行了分析。對于網(wǎng)絡(luò)爬蟲涉及的一些關(guān)鍵的技術(shù)給出了詳細(xì)的介紹與分析。本論文研究了云計算發(fā)展?fàn)顩r與Hadoop分布式平臺的主要構(gòu)成和關(guān)鍵技術(shù),并介紹了云計算的產(chǎn)生與發(fā)展現(xiàn)狀,詳細(xì)研究了云計算的關(guān)鍵技術(shù)特征。Hadoop分布式平臺的主要構(gòu)成包括HDFS、 MapReduce編程模型和HBase分布式數(shù)據(jù)庫。本論文對于他們的技術(shù)細(xì)節(jié)進(jìn)行了分析,并著重分析了Hadoop平臺作為分布式開發(fā)框架的主要特征和優(yōu)勢。本課題完成了分布式網(wǎng)絡(luò)爬蟲的設(shè)計實現(xiàn)、部署與測試。在前述技術(shù)研究的基礎(chǔ)上,本課題研究并設(shè)計了基于Hadoop分布式平臺的網(wǎng)絡(luò)爬蟲,詳細(xì)分析了各關(guān)鍵模塊的主要功能,以及在MapReduce編程框架下的實現(xiàn)。完成了該網(wǎng)絡(luò)爬蟲在20臺服務(wù)器組成的小型服務(wù)器集群上的部署與測試。最后,本論文通過實驗證明這套設(shè)計方案切實可行,該設(shè)計是使用開源分布式系統(tǒng)的很好地嘗試。本課題對網(wǎng)絡(luò)爬蟲技術(shù)和分布式系統(tǒng)的研究很有參考價值。
【關(guān)鍵詞】：網(wǎng)絡(luò)爬蟲 云計算 分布式系統(tǒng) Hadoop
【學(xué)位授予單位】：北京郵電大學(xué)
【學(xué)位級別】：碩士
【學(xué)位授予年份】：2014
【分類號】：TP391.3
【目錄】：

摘要4-6
ABSTRACT6-11
第一章緒論11-15
1.1 課題的研究背景11-12
1.2 課題的研究內(nèi)容與現(xiàn)狀12-14
1.3 本文的內(nèi)容和結(jié)構(gòu)14
1.4 本章小結(jié)14-15
第二章相關(guān)研究工作綜述15-34
2.1 搜索引擎技術(shù)綜述15-19
2.1.1 搜索引擎中索引的建立16-18
2.1.2 搜索引擎中搜索結(jié)果排序18-19
2.2 網(wǎng)絡(luò)爬蟲概述19-22
2.2.1 網(wǎng)絡(luò)爬蟲的基本構(gòu)成19-20
2.2.2 網(wǎng)絡(luò)爬蟲的研究現(xiàn)狀20-22
2.3 云計算發(fā)展綜述22-27
2.3.1 云計算的發(fā)展現(xiàn)狀23-24
2.3.2 云計算的特點24-25
2.3.3 云計算的體系結(jié)構(gòu)與服務(wù)層次25-27
2.4 Hadoop分布式系統(tǒng)綜述27-33
2.4.1 Hadoop的分布式文件系統(tǒng)27-28
2.4.2 HBase數(shù)據(jù)庫與Zookeeper28-30
2.4.3 MapReduce分布式框架編程模型30-33
2.5 本章小結(jié)33-34
第三章分布式網(wǎng)絡(luò)爬蟲的分析與概要設(shè)計34-47
3.1 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)布局34-36
3.1.1 分布式平臺的系統(tǒng)架構(gòu)34-35
3.1.2 分布式爬蟲的總體流程設(shè)計35-36
3.2 網(wǎng)絡(luò)爬蟲的爬取相關(guān)技術(shù)分析36-41
3.2.1 網(wǎng)絡(luò)爬蟲的爬取深度策略36-37
3.2.2 Robots 協(xié)議簡介37-38
3.2.3 DNS以及爬蟲相關(guān)解決方案分析38-39
3.2.4 網(wǎng)絡(luò)爬蟲消重策略分析39-40
3.2.5 跨語言服務(wù)開發(fā)框架Apache Thrift40-41
3.3 分布式網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計41-46
3.3.1 配置模塊設(shè)計42-44
3.3.2 存儲模塊設(shè)計44-46
3.3.3 任務(wù)管理模塊設(shè)計46
3.3.4 爬取模塊設(shè)計46
3.4 本章小結(jié)46-47
第四章分布式網(wǎng)絡(luò)爬蟲的詳細(xì)設(shè)計與實現(xiàn)47-57
4.1 分布式網(wǎng)絡(luò)爬蟲的接口設(shè)計47-51
4.1.1 網(wǎng)頁接口的設(shè)計與實現(xiàn)47-48
4.1.2 Thrift程序接口的設(shè)計與實現(xiàn)48-51
4.2 分布式網(wǎng)絡(luò)爬蟲的數(shù)據(jù)信息51-52
4.2.1 URL的狀態(tài)信息51
4.2.2 頁面信息51
4.2.3 頁面解析信息51-52
4.3 分布式爬蟲的主要模塊分析與實現(xiàn)52-56
4.3.1 URL注入模塊52-53
4.3.2 待爬取URL列表生成模塊53-55
4.3.3 爬取與更新模塊55-56
4.4 本章小結(jié)56-57
第五章分布式網(wǎng)絡(luò)爬蟲的實驗測試與分析57-69
5.1 分布式平臺的軟硬件環(huán)境57-60
5.1.1 硬件環(huán)境介紹57-58
5.1.2 軟件環(huán)境介紹58-60
5.2 分布式網(wǎng)絡(luò)爬蟲的部署60-64
5.2.1 系統(tǒng)環(huán)境配置60-63
5.2.2 爬蟲的部署與基本測試63-64
5.3 分布式網(wǎng)絡(luò)爬蟲的系統(tǒng)測試與分析64-68
5.3.1 基本功能測試65-66
5.3.2 性能測試66-67
5.3.3 測試結(jié)果分析67-68
5.4 本章小結(jié)68-69
第六章總結(jié)與展望69-71
6.1 總結(jié)69-70
6.2 工作展望70-71
參考文獻(xiàn)71-73
致謝73

【參考文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 李翔;劉文兵;馬超;劉海艷;;基于云計算的空間數(shù)據(jù)處理技術(shù)[J];測繪與空間地理信息;2012年09期

2 欒亞建;黃爛

本文編號：330997

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/330997.html

上一篇：面向網(wǎng)絡(luò)文學(xué)的垂直搜索引擎的研究與實現(xiàn)
下一篇：基于局部特征檢測的圖像搜索引擎的設(shè)計與實現(xiàn)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與設(shè)計