天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

分布式微博信息采集平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2017-08-19 10:12

  本文關(guān)鍵詞:分布式微博信息采集平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)


  更多相關(guān)文章: 分布式 可用性 數(shù)據(jù)采集 數(shù)據(jù)解析 XQuery模板


【摘要】:隨著互聯(lián)網(wǎng)技術(shù)、社交網(wǎng)絡(luò)和移動(dòng)網(wǎng)絡(luò)的高速發(fā)展,對(duì)于海量數(shù)據(jù)的收集、分析、應(yīng)用和預(yù)測(cè)已經(jīng)成為各個(gè)領(lǐng)域的研究熱點(diǎn)。目前,對(duì)海量數(shù)據(jù)的采集主要是整個(gè)網(wǎng)絡(luò)范圍的采集,比如各種搜索引擎,或者是單機(jī)模式的采集,這樣的數(shù)據(jù)采集方案沒(méi)有針對(duì)性或者性能較差。因此,分布式的垂直采集方案由此產(chǎn)生。 本文設(shè)計(jì)并實(shí)現(xiàn)了基于分布式模型的微博數(shù)據(jù)采集系統(tǒng)。數(shù)據(jù)采集采用模擬瀏覽器登陸后抓取頁(yè)面以及解析頁(yè)面的設(shè)計(jì)方案,考慮到可擴(kuò)展性,系統(tǒng)架構(gòu)采用Master/Slave的分布式模型。整個(gè)系統(tǒng)包括控制節(jié)點(diǎn)和工作節(jié)點(diǎn)兩大部分。1)控制節(jié)點(diǎn)負(fù)責(zé)任務(wù)調(diào)度、任務(wù)狀態(tài)檢測(cè)和爬取數(shù)據(jù)的存儲(chǔ),其中任務(wù)調(diào)度模塊采用基于優(yōu)先級(jí)的FIFO算法實(shí)現(xiàn),任務(wù)狀態(tài)通過(guò)周期性的心跳機(jī)制檢測(cè),而數(shù)據(jù)存儲(chǔ)采用批量數(shù)據(jù)存儲(chǔ)方案。2)工作節(jié)點(diǎn)主要負(fù)責(zé)任務(wù)執(zhí)行、任務(wù)狀態(tài)匯報(bào)和任務(wù)申請(qǐng)。任務(wù)執(zhí)行使用HTTPClient工具進(jìn)行頁(yè)面數(shù)據(jù)抓取,然后使用XQuery模板對(duì)目標(biāo)數(shù)據(jù)進(jìn)行解析。任務(wù)狀態(tài)匯報(bào)基于工作節(jié)點(diǎn)周期性地向控制節(jié)點(diǎn)匯報(bào)本地任務(wù)的執(zhí)行狀態(tài)信息,便于控制節(jié)點(diǎn)對(duì)全局的管理。而任務(wù)申請(qǐng)模塊采用線程池飽和運(yùn)行策略決定任務(wù)申請(qǐng)個(gè)數(shù)。 經(jīng)過(guò)功能測(cè)試之后本系統(tǒng)現(xiàn)在已經(jīng)能夠正常穩(wěn)定運(yùn)行,在性能方面還有待提升,之后還需要在一些設(shè)計(jì)和實(shí)現(xiàn)方面做出有效調(diào)整和改進(jìn),,使其能夠更加穩(wěn)定高效地工作。
【關(guān)鍵詞】:分布式 可用性 數(shù)據(jù)采集 數(shù)據(jù)解析 XQuery模板
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP391.1
【目錄】:
  • 摘要4-5
  • Abstract5-6
  • 目錄6-8
  • 1 緒論8-11
  • 1.1 研究背景與意義8-9
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀9
  • 1.3 項(xiàng)目來(lái)源及研究?jī)?nèi)容9-10
  • 1.4 論文結(jié)構(gòu)10-11
  • 2 相關(guān)技術(shù)簡(jiǎn)介11-17
  • 2.1 分布式系統(tǒng)概述11
  • 2.2 分布式系統(tǒng)間通信11-13
  • 2.3 網(wǎng)頁(yè)抓取與解析技術(shù)13-16
  • 2.4 本章小結(jié)16-17
  • 3 信息采集平臺(tái)分析與設(shè)計(jì)17-30
  • 3.1 信息采集平臺(tái)需求分析17-18
  • 3.2 信息采集平臺(tái)框架設(shè)計(jì)18-19
  • 3.3 分布式平臺(tái)模塊設(shè)計(jì)19-27
  • 3.4 數(shù)據(jù)庫(kù)設(shè)計(jì)27-29
  • 3.5 本章小結(jié)29-30
  • 4 實(shí)現(xiàn)與測(cè)試30-53
  • 4.1 控制節(jié)點(diǎn)實(shí)現(xiàn)30-39
  • 4.2 工作節(jié)點(diǎn)實(shí)現(xiàn)39-47
  • 4.3 信息采集平臺(tái)測(cè)試與應(yīng)用47-52
  • 4.4 本章小結(jié)52-53
  • 5 總結(jié)與展望53-55
  • 5.1 論文工作總結(jié)53
  • 5.2 系統(tǒng)展望53-55
  • 致謝55-56
  • 參考文獻(xiàn)56-57

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 楊公平,曾廣周,盧朝霞;移動(dòng)Agent系統(tǒng)中的排隊(duì)機(jī)制研究[J];計(jì)算機(jī)學(xué)報(bào);2005年11期

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條

1 李寧;基于HDFS的小文件存儲(chǔ)模型研究與實(shí)現(xiàn)[D];東北大學(xué);2014年

2 范欣欣;分布式微博信息采集平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D];華中科技大學(xué);2014年



本文編號(hào):700126

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/700126.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶63b6b***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com