天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

針對動態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法

發(fā)布時間:2018-10-09 11:14
【摘要】:伴隨著互聯(lián)網(wǎng)的爆炸性發(fā)展,Web已經(jīng)發(fā)展成為站點遍布全球的巨大信息服務(wù)網(wǎng)絡(luò),越來越多的人也開始把自己的精力和時間都投向了互聯(lián)網(wǎng)。電商、視頻、論壇、微博等都是獲取重要數(shù)據(jù)的來源。無論是自己想要能夠及時獲取最新的數(shù)據(jù)來進行研究亦或者是需要批量獲取大量的數(shù)據(jù)來進行相關(guān)分析,都需要一個適當(dāng)高效的方法來支持這些數(shù)據(jù)的提取。爬蟲技術(shù)作為大規(guī)模提取數(shù)據(jù)的技術(shù)之一,又重新了映入人們的眼簾。人們在使用爬蟲技術(shù)從互聯(lián)網(wǎng)上獲取大量的數(shù)據(jù)的同時,也在不斷對其做出改進和完善。在經(jīng)過對爬蟲技術(shù)、分布式技術(shù)、Docker技術(shù)、以及Linux相關(guān)技術(shù)的學(xué)習(xí)之后,本論文中總計完成了以下工作:首先提出了實用爬蟲的設(shè)計思路,并重點詳細闡述了信息提取模塊和數(shù)據(jù)存儲模塊的設(shè)計與實現(xiàn)方法以及如何解決網(wǎng)站反爬問題。隨后搭建了基于分布式爬蟲框架PySpider的分布式爬蟲集群來代替人工手動分布式爬蟲,并解決了搭建集群時遇到的一些Linux服務(wù)器相關(guān)問題。接著為了改進分布式爬蟲框架PySpider的運行效率,設(shè)計并實現(xiàn)了一種使用Docker來構(gòu)建分布式爬蟲集群的方法。對改進前后的爬取效率進行了測試,并對測試結(jié)果做出了相應(yīng)的分析。最后為了結(jié)合項目中的實際工作需要,將增量爬蟲和分布式爬蟲框架PySpider進行了結(jié)合,最終實現(xiàn)了基于動態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法。在本文的最后,對目前的工作做出了總結(jié),并對未來的工作進行了相應(yīng)的展望和部署。
[Abstract]:With the explosive development of the Internet, Web has developed into a huge information service network with sites all over the world, and more people have begun to invest their energy and time on the Internet. E-commerce, video, forums, Weibo and so on are important sources of data. Whether they want to be able to obtain the latest data in time for research or need to obtain a large number of data for correlation analysis, they need a suitable and efficient method to support the extraction of these data. Reptile technology, as one of the large-scale data extraction techniques, has reappeared in people's eyes. While using crawler technology to obtain a large amount of data from the Internet, people are constantly improving and perfecting it. After the study of crawler technology, distributed technology and Linux related technology, the following works have been accomplished in this paper: firstly, the design idea of practical reptile is put forward. The design and implementation of the information extraction module and the data storage module as well as how to solve the backcrawling problem of the website are described in detail. Then, a distributed crawler cluster based on distributed crawler framework (PySpider) is built to replace manual distributed crawler, and some problems related to Linux server are solved. Then, in order to improve the efficiency of distributed crawler framework (PySpider), a method of constructing distributed crawler cluster using Docker is designed and implemented. The crawling efficiency before and after improvement was tested and the test results were analyzed. Finally, in order to meet the practical needs of the project, the incremental crawler and the distributed crawler framework (PySpider) are combined. Finally, the distributed incremental acquisition method based on dynamic network data is realized. At the end of this paper, the current work is summarized, and the future work is prospected and deployed.
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP393.092

【相似文獻】

相關(guān)期刊論文 前10條

1 于萍,虞春宜,張堯弼;使用動態(tài)網(wǎng)絡(luò)提高分布應(yīng)用的性能[J];微型機與應(yīng)用;2001年01期

2 關(guān)治洪;張皓;朱茹;;一類時空切換動態(tài)網(wǎng)絡(luò)的穩(wěn)定性[J];華中師范大學(xué)學(xué)報(自然科學(xué)版);2006年01期

3 鄭海青;井元偉;劉曉平;;一類具有多種耦合時滯的復(fù)雜動態(tài)網(wǎng)絡(luò)的牽制同步[J];控制與決策;2010年11期

4 李濤;于曉楠;;延遲復(fù)雜動態(tài)網(wǎng)絡(luò)的穩(wěn)定性研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年08期

5 高琳;楊建業(yè);覃桂敏;;動態(tài)網(wǎng)絡(luò)模式挖掘方法及其應(yīng)用[J];軟件學(xué)報;2013年09期

6 陳關(guān)榮;;復(fù)雜動態(tài)網(wǎng)絡(luò)環(huán)境下控制理論遇到的問題與挑戰(zhàn)[J];自動化學(xué)報;2013年04期

7 段文勇;蔡晨曉;鄒云;尤靜;;時滯耦合和非時滯耦合的奇異復(fù)雜動態(tài)網(wǎng)絡(luò)之同步性準則(英文)[J];控制理論與應(yīng)用;2013年08期

8 于蘋,張堯弼,虞春宜;使用動態(tài)網(wǎng)絡(luò)提高分布應(yīng)用的性能[J];計算機工程與應(yīng)用;2002年03期

9 王得蓉;;試論能源管理計算機動態(tài)網(wǎng)絡(luò)體系的建設(shè)[J];資源節(jié)約與環(huán)保;2010年03期

10 鄭宏珍,胡屏;動態(tài)網(wǎng)絡(luò)需要動態(tài)的安全策略[J];中國信息導(dǎo)報;2002年01期

相關(guān)會議論文 前10條

1 朱陳平;孔輝;李莉;古志鳴;熊詩杰;;耦合演化動態(tài)網(wǎng)絡(luò)的穩(wěn)定效率與反選舉人模型[A];2009年第五屆全國網(wǎng)絡(luò)科學(xué)論壇論文集[C];2009年

2 徐式蘊;楊瑩;;一類復(fù)雜動態(tài)網(wǎng)絡(luò)的全局魯棒H_-/H_∞同步[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文(摘要)匯集[C];2009年

3 盧劍權(quán);Daniel W.C.Ho;曹進德;;脈沖動態(tài)網(wǎng)絡(luò)的一個統(tǒng)一同步標準[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文(摘要)匯集[C];2009年

4 劉斌;雷鳴;余沛;馮春;;具有多藕合時滯的不確定脈沖動態(tài)網(wǎng)絡(luò)的魯棒指數(shù)同步[A];2006全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文集[C];2006年

5 汪小帆;蘇厚勝;;復(fù)雜動態(tài)網(wǎng)絡(luò)控制研究進展[A];第四屆全國網(wǎng)絡(luò)科學(xué)學(xué)術(shù)論壇暨研究生暑期學(xué)校論文集[C];2008年

6 張海濤;陳志強;周濤;;二階動態(tài)網(wǎng)絡(luò)的模型預(yù)測一致性控制策略研究[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文(摘要)匯集[C];2009年

7 廖丙連;蔣國平;;具有不同拓撲結(jié)構(gòu)的時滯耦合復(fù)雜動態(tài)網(wǎng)絡(luò)同步控制[A];中國自動化學(xué)會控制理論專業(yè)委員會A卷[C];2011年

8 陳姚;呂金虎;;復(fù)雜動態(tài)網(wǎng)絡(luò)的有限時間同步[A];第五屆全國復(fù)雜網(wǎng)絡(luò)學(xué)術(shù)會議論文(摘要)匯集[C];2009年

9 李常品;陳關(guān)榮;周天壽;;帶非線性內(nèi)部耦合函數(shù)的復(fù)雜動態(tài)網(wǎng)絡(luò)的同步注記[A];第二屆全國復(fù)雜動態(tài)網(wǎng)絡(luò)學(xué)術(shù)論壇論文集[C];2005年

10 雷曉;蔣國平;張躍;;復(fù)雜動態(tài)網(wǎng)絡(luò)不穩(wěn)定平衡點的輸出反饋牽制控制[A];第24屆中國控制與決策會議論文集[C];2012年

相關(guān)重要報紙文章 前1條

1 周海龍;秦電:動態(tài)網(wǎng)絡(luò)圖實時演示檢修進度[N];華北電力報;2005年

相關(guān)博士學(xué)位論文 前9條

1 趙耀培;動態(tài)網(wǎng)絡(luò)環(huán)境下服務(wù)組合優(yōu)化方法的分析與研究[D];北京科技大學(xué);2016年

2 郝修清;幾類復(fù)雜動態(tài)網(wǎng)絡(luò)的同步與學(xué)習(xí)控制[D];西安電子科技大學(xué);2015年

3 李圓媛;基于網(wǎng)絡(luò)的復(fù)雜疾病的研究[D];武漢大學(xué);2016年

4 王剛;復(fù)雜疾病臨界突變的定性理論與統(tǒng)計分析[D];武漢大學(xué);2017年

5 郭曉永;復(fù)雜動態(tài)網(wǎng)絡(luò)的自適應(yīng)同步控制研究[D];西安電子科技大學(xué);2013年

6 陳卓;動態(tài)網(wǎng)絡(luò)上的演化博弈研究[D];上海交通大學(xué);2012年

7 張麗麗;具有相似節(jié)點的復(fù)雜動態(tài)網(wǎng)絡(luò)鎮(zhèn)定與同步控制研究[D];廣東工業(yè)大學(xué);2014年

8 仲偉松;幾類復(fù)雜動態(tài)網(wǎng)絡(luò)的若干動力學(xué)問題的研究[D];東北大學(xué);2012年

9 朱會賓;復(fù)雜動態(tài)網(wǎng)絡(luò)的同步控制及應(yīng)用[D];江南大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 曹煜;針對動態(tài)網(wǎng)絡(luò)數(shù)據(jù)的分布式增量獲取方法[D];北京郵電大學(xué);2017年

2 張陽揚;面向微博突發(fā)事件發(fā)現(xiàn)的自適應(yīng)社區(qū)檢測算法研究及系統(tǒng)實現(xiàn)[D];西南交通大學(xué);2015年

3 梁狄;一類非線性網(wǎng)絡(luò)系統(tǒng)全局性質(zhì)與一致性的分析與控制[D];北京工業(yè)大學(xué);2015年

4 梁博;基于局部模塊度的動態(tài)社團檢測算法[D];西安電子科技大學(xué);2014年

5 郭爭爭;復(fù)雜動態(tài)網(wǎng)絡(luò)的同步控制研究[D];石家莊鐵道大學(xué);2015年

6 劉杰;基于事件觸發(fā)的有向復(fù)雜動態(tài)網(wǎng)絡(luò)同步控制[D];南京郵電大學(xué);2015年

7 羌毅;動態(tài)網(wǎng)絡(luò)中的鏈接預(yù)測方法研究[D];南京郵電大學(xué);2015年

8 朱雪梅;動態(tài)網(wǎng)絡(luò)中自適應(yīng)社區(qū)檢測算法研究[D];云南大學(xué);2016年

9 顧嬋媛;幾類具有時滯的復(fù)雜動態(tài)網(wǎng)絡(luò)的外部同步控制分析[D];電子科技大學(xué);2016年

10 馬志才;復(fù)雜動力學(xué)系統(tǒng)的同步問題研究[D];中國礦業(yè)大學(xué);2016年

,

本文編號:2259138

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2259138.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶32c2e***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com