針對(duì)微博輿情的采集與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【圖文】:
才可以下載到網(wǎng)頁(yè)的內(nèi)容,因此本文在爬蟲框架中采用了模擬登錄微博帳逡逑號(hào)來(lái)抓取微博數(shù)據(jù)。本文使用了邋commview這個(gè)工具抓包來(lái)分析微博登錄的整個(gè)逡逑交互過(guò)程。如圖2-2所示,新浪微博通過(guò)對(duì)用戶的帳號(hào)和密碼兩者進(jìn)行驗(yàn)證來(lái)保逡逑證用戶登錄信息的安全性。逡逑其完整的HTTP包交互過(guò)程如下:逡逑(1)
邐第二章微博輿情系統(tǒng)的相關(guān)技術(shù)逡逑文檔讀入到程序中,依次把標(biāo)簽都?jí)喝氲綏V校缓笤僖来谓⑾鄳?yīng)的標(biāo)簽樹,逡逑如圖2-3所示。當(dāng)讀到正文“微博輿情監(jiān)控系統(tǒng)”的時(shí)候,就把該正文保留到樹逡逑的葉子節(jié)點(diǎn)中。然后繼續(xù)掃描源文檔,,當(dāng)發(fā)現(xiàn)反向標(biāo)簽時(shí),例如</title>,在與前逡逑面壓棧的內(nèi)容對(duì)比,找到與之對(duì)應(yīng)的標(biāo)簽,并把它pop出來(lái),直到掃描到文檔結(jié)逡逑尾為止。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.092;TP391.1
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 鐘明翔;唐晉韜;謝松縣;王挺;;一種基于動(dòng)態(tài)網(wǎng)頁(yè)解析的微博數(shù)據(jù)抓取方法[J];艦船電子工程;2015年10期
2 李志明;;知網(wǎng)、萬(wàn)方、維普論文相似性檢測(cè)系統(tǒng)比較研究[J];大學(xué)圖書情報(bào)學(xué)刊;2015年01期
3 張宇;呂龍;趙萍;;四川省高校圖書館微博使用現(xiàn)狀的調(diào)查和分析——基于新浪微博認(rèn)證用戶調(diào)查[J];四川圖書館學(xué)報(bào);2014年03期
4 侯敏;滕永林;李雪燕;陳毓麒;鄭雙美;侯明午;周紅照;;話題型微博語(yǔ)言特點(diǎn)及其情感分析策略研究[J];語(yǔ)言文字應(yīng)用;2013年02期
5 李躍健;朱程榮;;基于Larbin的網(wǎng)絡(luò)爬蟲體系結(jié)構(gòu)的研究與改進(jìn)[J];計(jì)算機(jī)技術(shù)與發(fā)展;2012年07期
6 廉捷;周欣;曹偉;劉云;;新浪微博數(shù)據(jù)挖掘方案[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年10期
7 姚昱;朱山風(fēng);陳莘萌;;基于投票模型的元搜索排序合成算法[J];計(jì)算機(jī)工程;2007年22期
8 孫晉眾;陳世權(quán);;網(wǎng)絡(luò)組織拓?fù)渚垲惙治鯷J];太原理工大學(xué)學(xué)報(bào);2007年01期
9 張樹瑜,杜國(guó)寧,朱仲英;基于Web的半結(jié)構(gòu)化信息抽取技術(shù)研究[J];系統(tǒng)工程與電子技術(shù);2004年05期
相關(guān)碩士學(xué)位論文 前5條
1 耿大偉;基于Python技術(shù)的校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[D];燕山大學(xué);2015年
2 胡偉;基于Nutch的分布式爬蟲研究與優(yōu)化[D];上海師范大學(xué);2015年
3 藍(lán)天廣;電子商務(wù)產(chǎn)品在線評(píng)論的細(xì)粒度情感強(qiáng)度分析[D];北京郵電大學(xué);2015年
4 單月光;基于微博的網(wǎng)絡(luò)輿情關(guān)鍵技術(shù)的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2013年
5 周麗;我國(guó)政務(wù)微博的現(xiàn)狀、問(wèn)題與對(duì)策研究[D];江西財(cái)經(jīng)大學(xué);2012年
本文編號(hào):2576175
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2576175.html