天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

微博爬蟲的相關(guān)技術(shù)研究

發(fā)布時(shí)間:2021-08-02 16:14
  社交媒體作為web2.0時(shí)代的標(biāo)志,提供了以用戶為中心的各種交流模式和途徑。用戶在社交媒體上發(fā)表和傳播消息,關(guān)注自己感興趣的人物。社交媒體中一般擁有數(shù)以億計(jì)的人物節(jié)點(diǎn),他們之間通過關(guān)注和粉絲關(guān)系連成了巨大的社會(huì)網(wǎng)絡(luò),消息通過這張巨大的社會(huì)網(wǎng)絡(luò)傳播。大部分社交媒體提供API以便獲取社交媒體數(shù)據(jù)進(jìn)行相關(guān)研究,但是由于API的相關(guān)限制造成數(shù)據(jù)獲取困難,直接造成研究無法進(jìn)行。所以對(duì)于社交媒體爬蟲的相關(guān)技術(shù)研究具有重大意義。本文主要以國內(nèi)微博媒體為研究對(duì)象,主要針對(duì)新浪微博,研究微博爬蟲的相關(guān)技術(shù)。本文研究的技術(shù)包括:爬行策略研究與實(shí)現(xiàn)、微博數(shù)據(jù)獲取研究與實(shí)現(xiàn)、微博數(shù)據(jù)去重設(shè)計(jì)等。本文工作如下:首先分析微博爬蟲的主要問題。在該部分本文介紹了基于Hadoop的分布式框架技術(shù)、基于hbase的分布式數(shù)據(jù)存儲(chǔ)技術(shù)以及微博數(shù)據(jù)的獲取方式、去重策略和存儲(chǔ)策略,提出一種基于Hadoop的微博爬蟲框架,以UID和MID為主鍵的分布式No-SQL設(shè)計(jì)思路,獲取微博數(shù)據(jù)的兩種主要方式的相關(guān)背景和主要流程,比較多種微博數(shù)據(jù)去重策略。其次研究面向微博主題數(shù)據(jù)和個(gè)人數(shù)據(jù)獲取技術(shù)。在該部分重點(diǎn)介紹了基于新浪元搜索和主題相... 

【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:55 頁

【學(xué)位級(jí)別】:碩士

【部分圖文】:

微博爬蟲的相關(guān)技術(shù)研究


hbase的架構(gòu)圖

對(duì)應(yīng)關(guān)系,索引結(jié)構(gòu)


哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文10圖2-2 特殊表與 region 之間的對(duì)應(yīng)關(guān)系在 hbase 中表不支持索引結(jié)構(gòu),例如查詢博文數(shù)據(jù)時(shí)需要查找某人發(fā)布的所有博文,此時(shí)由于沒有索引結(jié)構(gòu),查詢效率非常,常用的處理方法為設(shè)計(jì)冗余表以滿足基于 hbase 數(shù)據(jù)庫的分析技術(shù)。在 hbase 中有些設(shè)計(jì)原則,hbase 盡量避免采用單調(diào)遞增這樣的 Key,這樣會(huì)造成一直插入最后一個(gè) region,造成數(shù)據(jù)庫長時(shí)間進(jìn)行分裂操作,導(dǎo)致數(shù)據(jù)庫性能的降低;每個(gè)表列簇盡量只有一個(gè);列簇名和列名盡量簡短;靈活利用 hbase 的 Key 有序進(jìn)行設(shè)計(jì)。hbase 的數(shù)據(jù)導(dǎo)入導(dǎo)出方式主要包括 java Native API,hbased 自帶的命令和bulk-load 方式

示意圖,頁面,個(gè)人,示意圖


圖 2-7 PC 端與移動(dòng)端的個(gè)人基本信息頁面的對(duì)比示意圖人微博數(shù)據(jù)時(shí),從圖中可以得出的結(jié)論與獲取個(gè)人基本圖 2-8 PC 端與移動(dòng)端的單條博文數(shù)據(jù)頁面的對(duì)比示意圖析:上述實(shí)驗(yàn)可以看出使用移動(dòng)端頁面的方式將減輕原帶寬占用,可以稍微提升獲取速度。但是由于長時(shí)間使易被封 IP。base 以及 Mysql 存儲(chǔ)微博數(shù)據(jù),已累積相關(guān)微博爬蟲獲實(shí)驗(yàn)室數(shù)據(jù)的存儲(chǔ)情況如表 2-6 所示:

【參考文獻(xiàn)】:
期刊論文
[1]新浪微博數(shù)據(jù)挖掘方案[J]. 廉捷,周欣,曹偉,劉云.  清華大學(xué)學(xué)報(bào)(自然科學(xué)版). 2011(10)
[2]主題爬行策略與算法研究綜述[J]. 張立杰.  圖書情報(bào)工作. 2011(18)
[3]Ajax站點(diǎn)數(shù)據(jù)采集研究綜述[J]. 夏天.  現(xiàn)代圖書情報(bào)技術(shù). 2010(03)

碩士論文
[1]面向電子商務(wù)網(wǎng)站的增量爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D]. 楊頌.湖南大學(xué) 2010



本文編號(hào):3317875

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3317875.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶b3864***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com