分布式爬蟲的動(dòng)態(tài)負(fù)載均衡方法研究
本文關(guān)鍵詞:分布式爬蟲的動(dòng)態(tài)負(fù)載均衡方法研究,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)的高速發(fā)展,搜索引擎成為互聯(lián)網(wǎng)用戶查找信息的第一入口,作為搜索引擎核心組件的網(wǎng)絡(luò)爬蟲用于在互聯(lián)網(wǎng)上采集數(shù)據(jù),F(xiàn)在網(wǎng)絡(luò)信息正以指數(shù)級(jí)的速度不斷膨脹,網(wǎng)頁采集的完整性和實(shí)時(shí)性的難度越來越大,這給爬蟲系統(tǒng)帶來了巨大的挑戰(zhàn)。如何充分地利用計(jì)算機(jī)的硬件資源和網(wǎng)絡(luò)帶寬高效地采集頁面,同時(shí)減少由URL判重所帶來的大量通信開銷,是分布式爬蟲系統(tǒng)研究的核心問題。針對(duì)這個(gè)問題,本文以提高分布式爬蟲系統(tǒng)的性能為核心,進(jìn)行了以下研究:深入研究了分布式系統(tǒng)優(yōu)缺點(diǎn)、分布式系統(tǒng)的任務(wù)調(diào)度、網(wǎng)絡(luò)爬蟲工作原理和爬行策略的基礎(chǔ)上,結(jié)合網(wǎng)絡(luò)爬蟲自身特點(diǎn)、互聯(lián)網(wǎng)結(jié)構(gòu)特點(diǎn)和站點(diǎn)頁面間的相似性,提出了基于在線反饋的站點(diǎn)規(guī)模動(dòng)態(tài)預(yù)測(cè)算法。站點(diǎn)規(guī)模動(dòng)態(tài)預(yù)測(cè)算法首先對(duì)站點(diǎn)規(guī)模進(jìn)行分類,然后根據(jù)互聯(lián)網(wǎng)結(jié)構(gòu)的疏密性和爬蟲的爬行原理,提出了站點(diǎn)增長比的概念,在爬蟲爬行的過程中,在線采集計(jì)算增長比的信息,通過計(jì)算出的增長比的反饋,對(duì)站點(diǎn)規(guī)模進(jìn)行逐步預(yù)測(cè),并基于采集的數(shù)據(jù)進(jìn)行了算法模型的訓(xùn)練和驗(yàn)證;將基于在線反饋的站點(diǎn)規(guī)模動(dòng)態(tài)預(yù)測(cè)算法融入到分布式爬蟲系統(tǒng)中,可根據(jù)預(yù)測(cè)出的站點(diǎn)規(guī)模,減少URL判重所帶來的大量通信開銷。針對(duì)站點(diǎn)規(guī)模計(jì)算出爬行器所承載的任務(wù)負(fù)荷量,通過監(jiān)視器定時(shí)收集爬行器自身負(fù)荷當(dāng)量,基于以上兩點(diǎn)計(jì)算爬行器間的負(fù)載系數(shù),并以此為依據(jù)進(jìn)行任務(wù)調(diào)度,以達(dá)到負(fù)載均衡的效果;結(jié)合以上理論基礎(chǔ)和研究成果,本文設(shè)計(jì)并開發(fā)了基于站點(diǎn)規(guī)模的動(dòng)態(tài)任務(wù)分割算法的分布式爬蟲系統(tǒng),該分布式爬蟲系統(tǒng)能很好地處理新增爬行器時(shí)的負(fù)載均衡情況和爬行器出現(xiàn)故障時(shí)的任務(wù)快速恢復(fù)情況,具有很好的動(dòng)態(tài)負(fù)載均衡效果、魯棒性和擴(kuò)展性。
【關(guān)鍵詞】:分布式爬蟲 動(dòng)態(tài)負(fù)載均衡 站點(diǎn)規(guī)模預(yù)測(cè) 減少通信開銷 任務(wù)調(diào)度
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.3
【目錄】:
- 摘要4-5
- ABSTRACT5-8
- 第1章 緒論8-15
- 1.1 研究背景和意義8-9
- 1.2 國內(nèi)外相關(guān)研究和綜述9-13
- 1.2.1 網(wǎng)絡(luò)爬蟲9-10
- 1.2.2 負(fù)載均衡的實(shí)現(xiàn)機(jī)制10
- 1.2.3 負(fù)載均衡的實(shí)現(xiàn)技術(shù)10-12
- 1.2.4 存在的問題12-13
- 1.3 本文研究內(nèi)容13
- 1.4 本文的結(jié)構(gòu)安排13-15
- 第2章 分布式爬蟲系統(tǒng)的相關(guān)技術(shù)15-23
- 2.1 引言15
- 2.2 分布式系統(tǒng)15-17
- 2.2.1 分布式系統(tǒng)的優(yōu)點(diǎn)15-16
- 2.2.2 分布式系統(tǒng)的缺點(diǎn)16
- 2.2.3 分布式系統(tǒng)的任務(wù)調(diào)度16-17
- 2.3 網(wǎng)絡(luò)爬蟲17-19
- 2.3.1 通用Web爬蟲17-18
- 2.3.2 聚焦Web爬蟲18-19
- 2.4 爬行策略19-21
- 2.4.1 廣度優(yōu)先策略20
- 2.4.2 深度優(yōu)先策略20-21
- 2.4.3 最佳優(yōu)先策略21
- 2.5 布隆過濾器21-22
- 2.6 本章小結(jié)22-23
- 第3章 基于在線反饋的站點(diǎn)規(guī)模動(dòng)態(tài)預(yù)測(cè)算法23-37
- 3.1 引言23
- 3.2 站點(diǎn)規(guī)模23-24
- 3.3 站點(diǎn)增長比24-27
- 3.4 在線反饋信息27-28
- 3.5 站點(diǎn)規(guī)模預(yù)測(cè)模型訓(xùn)練28-33
- 3.5.1 損失函數(shù)28
- 3.5.2 模型的參數(shù)訓(xùn)練28-31
- 3.5.3 訓(xùn)練數(shù)據(jù)及方法31-33
- 3.6 實(shí)驗(yàn)及結(jié)果分析33-36
- 3.7 本章小結(jié)36-37
- 第4章 基于站點(diǎn)規(guī)模預(yù)測(cè)的分布式爬蟲動(dòng)態(tài)負(fù)載均衡方法37-50
- 4.1 引言37
- 4.2 動(dòng)態(tài)負(fù)載均衡算法的權(quán)衡因素37-38
- 4.2.1 任務(wù)負(fù)荷的評(píng)估37
- 4.2.2 任務(wù)遷移的代價(jià)37
- 4.2.3 系統(tǒng)的魯棒性和可擴(kuò)展性37-38
- 4.3 爬行器負(fù)荷當(dāng)量的計(jì)算38-39
- 4.4 負(fù)載均衡的衡量——負(fù)載系數(shù)39-40
- 4.5 任務(wù)調(diào)度的策略40-41
- 4.6 通信開銷問題41-42
- 4.7 對(duì)比實(shí)驗(yàn)及結(jié)果分析42-49
- 4.7.1 實(shí)驗(yàn)環(huán)境42
- 4.7.2 實(shí)驗(yàn)結(jié)果及分析42-49
- 4.8 本章小結(jié)49-50
- 第5章 分布式爬蟲系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)50-56
- 5.1 分布式爬蟲的整體架構(gòu)50-51
- 5.2 分布式爬蟲系統(tǒng)模塊功能設(shè)計(jì)與實(shí)現(xiàn)51-55
- 5.2.1 爬行模塊51-52
- 5.2.2 服務(wù)器模塊52-53
- 5.2.3 負(fù)載均衡模塊53-54
- 5.2.4 系統(tǒng)的魯棒性和擴(kuò)展性模塊54-55
- 5.3 本章小結(jié)55-56
- 結(jié)論56-57
- 參考文獻(xiàn)57-62
- 致謝62
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭云翔;張燕芬;;e-Learning Grid動(dòng)態(tài)負(fù)載均衡通用機(jī)制研究[J];中國電化教育;2011年11期
2 劉建;李緒志;;一種動(dòng)態(tài)負(fù)載均衡機(jī)制的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2006年02期
3 曾蛟龍;胡榮貴;谷裕;許成喜;;遺傳算法在蜜網(wǎng)動(dòng)態(tài)負(fù)載均衡中的應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2012年06期
4 吳恒山,張翼,李東;一個(gè)基于分布式數(shù)據(jù)庫系統(tǒng)的動(dòng)態(tài)負(fù)載分配算法[J];計(jì)算機(jī)應(yīng)用研究;1999年11期
5 何昱;歷軍;;基于應(yīng)用級(jí)監(jiān)控的動(dòng)態(tài)負(fù)載均衡系統(tǒng)[J];計(jì)算機(jī)工程;2008年09期
6 曹英存;;集群系統(tǒng)下的動(dòng)態(tài)負(fù)載均衡探究[J];和田師范?茖W(xué)校學(xué)報(bào);2006年02期
7 王澤均;陳新;王勇;高寶慶;;基于動(dòng)態(tài)負(fù)載均衡的網(wǎng)絡(luò)監(jiān)控系統(tǒng)[J];計(jì)算機(jī)工程;2008年24期
8 李金攻;張平;陳繼光;;基于NAT-PT簇的集中式動(dòng)態(tài)負(fù)載均衡的研究[J];通信技術(shù);2009年04期
9 楊連云;;動(dòng)態(tài)負(fù)載曲線在電視機(jī)可靠性設(shè)計(jì)中的應(yīng)用[J];電視技術(shù);1982年03期
10 祝偉華;徐強(qiáng);;基于動(dòng)態(tài)負(fù)載均衡的VRRP協(xié)議研究[J];重慶理工大學(xué)學(xué)報(bào)(自然科學(xué));2011年07期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前7條
1 付志輝;分布式爬蟲的動(dòng)態(tài)負(fù)載均衡方法研究[D];哈爾濱工業(yè)大學(xué);2014年
2 許偉;分布式系統(tǒng)中的主機(jī)負(fù)載預(yù)測(cè)與動(dòng)態(tài)負(fù)載均衡研究[D];中南大學(xué);2004年
3 丁學(xué)智;一種面向分布式服務(wù)器集群的動(dòng)態(tài)負(fù)載均衡系統(tǒng)的實(shí)現(xiàn)[D];北京郵電大學(xué);2014年
4 張楠;基于LVS/DR集群的動(dòng)態(tài)負(fù)載機(jī)制研究與實(shí)現(xiàn)[D];云南大學(xué);2013年
5 柳旭日;基于負(fù)載預(yù)測(cè)和過載遷移的動(dòng)態(tài)負(fù)載均衡研究[D];青島理工大學(xué);2009年
6 徐海龍;基于標(biāo)準(zhǔn)Linux內(nèi)核的動(dòng)態(tài)負(fù)載均衡實(shí)現(xiàn)[D];天津工業(yè)大學(xué);2005年
7 王天翊;P2P網(wǎng)絡(luò)中動(dòng)態(tài)負(fù)載均衡研究[D];西安電子科技大學(xué);2012年
本文關(guān)鍵詞:分布式爬蟲的動(dòng)態(tài)負(fù)載均衡方法研究,由筆耕文化傳播整理發(fā)布。
本文編號(hào):384682
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/384682.html