一種基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與設(shè)計
發(fā)布時間:2017-04-27 17:00
本文關(guān)鍵詞:一種基于Hadoop的分布式網(wǎng)絡(luò)爬蟲的研究與設(shè)計,,由筆耕文化傳播整理發(fā)布。
【摘要】:信息技術(shù)的飛速發(fā)展,尤其是近些年來互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展,深刻的改變著我們生活的世界。信息技術(shù)產(chǎn)業(yè)以及信息技術(shù)與傳統(tǒng)產(chǎn)業(yè)的結(jié)合已經(jīng)成為世界經(jīng)濟(jì)的重要組成部分。而當(dāng)前隨著網(wǎng)絡(luò)將越來越多事物連接起來,人們需要面對的信息量也激增了,因此一個新的課題也就產(chǎn)生了——如何找到有價值的信息。對于個體用戶面對互聯(lián)網(wǎng)的情況,這一問題的答案就是搜索引擎。而對于想獲得海量數(shù)據(jù)當(dāng)中隱藏的價值的企業(yè),這一問題的答案就是數(shù)據(jù)分析與數(shù)據(jù)挖掘。對于這些解決辦法而言,信息處理的第一步就是獲取互聯(lián)網(wǎng)上的海量的信息。本論文的研究課題就是從互聯(lián)網(wǎng)上獲取海量信息的網(wǎng)絡(luò)爬蟲技術(shù),由于當(dāng)前單機(jī)平臺已經(jīng)難以應(yīng)對互聯(lián)網(wǎng)大數(shù)據(jù)量的挑戰(zhàn),本課題借助分布式平臺來作為應(yīng)用的底層平臺。 本論文的主要研究工作包括以下幾個方面: 網(wǎng)絡(luò)爬蟲研究的背景技術(shù)與相關(guān)理論;ヂ(lián)網(wǎng)信息的爆發(fā)式增長,衍生出了搜索引擎技術(shù),而網(wǎng)絡(luò)爬蟲是搜索引擎的重要組成部分。本論文研究分析了搜索引擎的基本工作原理與關(guān)鍵模塊的技術(shù)細(xì)節(jié),主要是建立搜索索引和搜索結(jié)果排序的技術(shù)原理。在這些研究的基礎(chǔ)上,本論文對網(wǎng)絡(luò)爬蟲的原理進(jìn)行了分析。對于網(wǎng)絡(luò)爬蟲涉及的一些關(guān)鍵的技術(shù)給出了詳細(xì)的介紹與分析。 本論文研究了云計算發(fā)展?fàn)顩r與Hadoop分布式平臺的主要構(gòu)成和關(guān)鍵技術(shù),并介紹了云計算的產(chǎn)生與發(fā)展現(xiàn)狀,詳細(xì)研究了云計算的關(guān)鍵技術(shù)特征。Hadoop分布式平臺的主要構(gòu)成包括HDFS、 MapReduce編程模型和HBase分布式數(shù)據(jù)庫。本論文對于他們的技術(shù)細(xì)節(jié)進(jìn)行了分析,并著重分析了Hadoop平臺作為分布式開發(fā)框架的主要特征和優(yōu)勢。 本課題完成了分布式網(wǎng)絡(luò)爬蟲的設(shè)計實現(xiàn)、部署與測試。在前述技術(shù)研究的基礎(chǔ)上,本課題研究并設(shè)計了基于Hadoop分布式平臺的網(wǎng)絡(luò)爬蟲,詳細(xì)分析了各關(guān)鍵模塊的主要功能,以及在MapReduce編程框架下的實現(xiàn)。完成了該網(wǎng)絡(luò)爬蟲在20臺服務(wù)器組成的小型服務(wù)器集群上的部署與測試。最后,本論文通過實驗證明這套設(shè)計方案切實可行,該設(shè)計是使用開源分布式系統(tǒng)的很好地嘗試。本課題對網(wǎng)絡(luò)爬蟲技術(shù)和分布式系統(tǒng)的研究很有參考價值。
【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲 云計算 分布式系統(tǒng) Hadoop
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-11
- 第一章 緒論11-15
- 1.1 課題的研究背景11-12
- 1.2 課題的研究內(nèi)容與現(xiàn)狀12-14
- 1.3 本文的內(nèi)容和結(jié)構(gòu)14
- 1.4 本章小結(jié)14-15
- 第二章 相關(guān)研究工作綜述15-34
- 2.1 搜索引擎技術(shù)綜述15-19
- 2.1.1 搜索引擎中索引的建立16-18
- 2.1.2 搜索引擎中搜索結(jié)果排序18-19
- 2.2 網(wǎng)絡(luò)爬蟲概述19-22
- 2.2.1 網(wǎng)絡(luò)爬蟲的基本構(gòu)成19-20
- 2.2.2 網(wǎng)絡(luò)爬蟲的研究現(xiàn)狀20-22
- 2.3 云計算發(fā)展綜述22-27
- 2.3.1 云計算的發(fā)展現(xiàn)狀23-24
- 2.3.2 云計算的特點24-25
- 2.3.3 云計算的體系結(jié)構(gòu)與服務(wù)層次25-27
- 2.4 Hadoop分布式系統(tǒng)綜述27-33
- 2.4.1 Hadoop的分布式文件系統(tǒng)27-28
- 2.4.2 HBase數(shù)據(jù)庫與Zookeeper28-30
- 2.4.3 MapReduce分布式框架編程模型30-33
- 2.5 本章小結(jié)33-34
- 第三章 分布式網(wǎng)絡(luò)爬蟲的分析與概要設(shè)計34-47
- 3.1 分布式網(wǎng)絡(luò)爬蟲系統(tǒng)布局34-36
- 3.1.1 分布式平臺的系統(tǒng)架構(gòu)34-35
- 3.1.2 分布式爬蟲的總體流程設(shè)計35-36
- 3.2 網(wǎng)絡(luò)爬蟲的爬取相關(guān)技術(shù)分析36-41
- 3.2.1 網(wǎng)絡(luò)爬蟲的爬取深度策略36-37
- 3.2.2 Robots 協(xié)議簡介37-38
- 3.2.3 DNS以及爬蟲相關(guān)解決方案分析38-39
- 3.2.4 網(wǎng)絡(luò)爬蟲消重策略分析39-40
- 3.2.5 跨語言服務(wù)開發(fā)框架Apache Thrift40-41
- 3.3 分布式網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計41-46
- 3.3.1 配置模塊設(shè)計42-44
- 3.3.2 存儲模塊設(shè)計44-46
- 3.3.3 任務(wù)管理模塊設(shè)計46
- 3.3.4 爬取模塊設(shè)計46
- 3.4 本章小結(jié)46-47
- 第四章 分布式網(wǎng)絡(luò)爬蟲的詳細(xì)設(shè)計與實現(xiàn)47-57
- 4.1 分布式網(wǎng)絡(luò)爬蟲的接口設(shè)計47-51
- 4.1.1 網(wǎng)頁接口的設(shè)計與實現(xiàn)47-48
- 4.1.2 Thrift程序接口的設(shè)計與實現(xiàn)48-51
- 4.2 分布式網(wǎng)絡(luò)爬蟲的數(shù)據(jù)信息51-52
- 4.2.1 URL的狀態(tài)信息51
- 4.2.2 頁面信息51
- 4.2.3 頁面解析信息51-52
- 4.3 分布式爬蟲的主要模塊分析與實現(xiàn)52-56
- 4.3.1 URL注入模塊52-53
- 4.3.2 待爬取URL列表生成模塊53-55
- 4.3.3 爬取與更新模塊55-56
- 4.4 本章小結(jié)56-57
- 第五章 分布式網(wǎng)絡(luò)爬蟲的實驗測試與分析57-69
- 5.1 分布式平臺的軟硬件環(huán)境57-60
- 5.1.1 硬件環(huán)境介紹57-58
- 5.1.2 軟件環(huán)境介紹58-60
- 5.2 分布式網(wǎng)絡(luò)爬蟲的部署60-64
- 5.2.1 系統(tǒng)環(huán)境配置60-63
- 5.2.2 爬蟲的部署與基本測試63-64
- 5.3 分布式網(wǎng)絡(luò)爬蟲的系統(tǒng)測試與分析64-68
- 5.3.1 基本功能測試65-66
- 5.3.2 性能測試66-67
- 5.3.3 測試結(jié)果分析67-68
- 5.4 本章小結(jié)68-69
- 第六章 總結(jié)與展望69-71
- 6.1 總結(jié)69-70
- 6.2 工作展望70-71
- 參考文獻(xiàn)71-73
- 致謝73
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 李翔;劉文兵;馬超;劉海艷;;基于云計算的空間數(shù)據(jù)處理技術(shù)[J];測繪與空間地理信息;2012年09期
2 欒亞建;黃爛
本文編號:330997
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/330997.html
最近更新
教材專著