天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

社交網(wǎng)絡(luò)的數(shù)據(jù)采集策略研究與應(yīng)用

發(fā)布時(shí)間:2021-06-26 14:12
  由于互聯(lián)網(wǎng)的興起和通信技術(shù)的發(fā)展,人們使用在線社交網(wǎng)絡(luò)進(jìn)行社會(huì)活動(dòng)已成為日常生活的一部分。在線社交網(wǎng)絡(luò)已經(jīng)滲透到人們生活的方方面面,是時(shí)下最重要的移動(dòng)互聯(lián)網(wǎng)應(yīng)用。許多組織對(duì)在線社交網(wǎng)絡(luò)感興趣,社會(huì)學(xué)家會(huì)收集相關(guān)數(shù)據(jù)用以研究在線用戶行為。市場(chǎng)調(diào)查員根據(jù)在線社交網(wǎng)絡(luò)挖掘信息,用以指定市場(chǎng)推薦。社交網(wǎng)絡(luò)的提供商通過(guò)了解社交圖和用戶行為,優(yōu)化數(shù)據(jù)存儲(chǔ)設(shè)計(jì)和云服務(wù)或提供個(gè)性化服務(wù)的方式來(lái)改善用戶體驗(yàn)。社交網(wǎng)絡(luò)如此龐大的數(shù)據(jù)量給研究帶來(lái)了許多困難。首先,企業(yè)基于商業(yè)機(jī)密以及用戶隱私的考慮,并不愿意分享他們的商業(yè)數(shù)據(jù),即使數(shù)據(jù)是以匿名的形式。其次,從大規(guī)模在線社交網(wǎng)絡(luò)中獲取所有數(shù)據(jù)也不現(xiàn)實(shí),因?yàn)橐@取數(shù)以億計(jì)的用戶是極其耗時(shí)的。于此同時(shí),即使利用高性能計(jì)算機(jī)集群處理如此龐大的數(shù)據(jù)也非常困難。最后,在線社交網(wǎng)絡(luò)上用戶數(shù)量增加迅速,用戶間的關(guān)系也會(huì)頻繁的發(fā)生改變。因此對(duì)社交網(wǎng)絡(luò)設(shè)計(jì)有效的采樣算法非常重要。廣度優(yōu)先搜索算法(BFS)是常用的圖遍歷方法,但是BFS會(huì)過(guò)度的采集高度節(jié)點(diǎn)同時(shí)這種偏移很難被糾正。隨機(jī)游走(RW)是一種經(jīng)典的網(wǎng)絡(luò)節(jié)點(diǎn)游走方法,但同樣偏向于采集高度的節(jié)點(diǎn)且采樣效率低。Metropol... 

【文章來(lái)源】:浙江理工大學(xué)浙江省

【文章頁(yè)數(shù)】:51 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

社交網(wǎng)絡(luò)的數(shù)據(jù)采集策略研究與應(yīng)用


緩存區(qū)中的存儲(chǔ)結(jié)構(gòu)

信息片段,主頁(yè),粉絲


獲取當(dāng)前節(jié)點(diǎn)的父節(jié)點(diǎn)獲取當(dāng)前節(jié)點(diǎn)的所有子節(jié)點(diǎn)獲取當(dāng)前節(jié)點(diǎn)的所有后代節(jié)點(diǎn)ing 獲取當(dāng)前節(jié)點(diǎn)的所有同輩節(jié)點(diǎn)ath抽取網(wǎng)頁(yè)信息時(shí),首先在網(wǎng)頁(yè)相關(guān) HTML 文件中找到相應(yīng)的信息戶主頁(yè)中關(guān)注數(shù),粉絲數(shù),微博數(shù)的代碼片段。然后針對(duì)某個(gè)具體的Xpath路徑,如圖4.2中的關(guān)注數(shù),其 XML路徑為”/html/body/div[4字路徑后利用正則表達(dá)式提取要點(diǎn)信息,相應(yīng)的 Xpath代碼如下:ector(response)r.xpath('body/div[@class="u"]/div[@class="tip2"]').extract_first() re.findall(u'\u5fae\u535a\[(\d+)\]', text0) # 微博數(shù)= re.findall(u'\u5173\u6ce8\[(\d+)\]', text0) # 關(guān)注數(shù)e.findall(u'\u7c89\u4e1d\[(\d+)\]', text0) # 粉絲數(shù)

頁(yè)面,網(wǎng)絡(luò)服務(wù)器,社交,用戶認(rèn)證


圖 4.3 在用戶頁(yè)面中抓取有用信息4.2.2 用戶認(rèn)證與反爬由于爬蟲(chóng)系統(tǒng)會(huì)在社交網(wǎng)絡(luò)服務(wù)器中增加大量的無(wú)效訪問(wèn)量,進(jìn)而增加了網(wǎng)絡(luò)服務(wù)器的運(yùn)行負(fù)荷,目前大部分的社交網(wǎng)絡(luò)提供商會(huì)對(duì)用戶登錄進(jìn)行驗(yàn)證,如驗(yàn)證碼輸入,圖片校對(duì)等,或限制 IP 地址的最大訪問(wèn)次數(shù)等措施,提高進(jìn)入網(wǎng)絡(luò)服務(wù)器的門(mén)檻來(lái)限制爬蟲(chóng)系統(tǒng)的訪問(wèn)。對(duì)于小型的網(wǎng)絡(luò)爬蟲(chóng)機(jī)而言可以使用偽裝 cookies 登錄的方法[56],繞開(kāi)繁瑣的登錄驗(yàn)證過(guò)程,但這種方式不能進(jìn)行大規(guī)模數(shù)據(jù)收集,因?yàn),cookies 的有效時(shí)間一般在一個(gè)星期左右,屆時(shí)還需要手動(dòng)添加新的 cookies 文件以確保爬蟲(chóng)系統(tǒng)的持續(xù)運(yùn)行。我們所設(shè)計(jì)的爬蟲(chóng)機(jī)采樣用戶名密碼與手動(dòng)解鎖的方式自動(dòng)使爬蟲(chóng)機(jī)獲取實(shí)時(shí)的 cookies。獲取用戶認(rèn)證的步驟如下:第一步:獲取登錄頁(yè)面,在登錄頁(yè)面的 HTML 的插入用戶名與密碼;


本文編號(hào):3251494

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3251494.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d51b6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com