社交網(wǎng)絡(luò)數(shù)據(jù)采集及傳播路徑分析
發(fā)布時間:2023-06-16 19:30
在互聯(lián)網(wǎng)高速發(fā)展的今天,網(wǎng)絡(luò)用戶的快速增長直接導(dǎo)致了互聯(lián)網(wǎng)上的輿論呈現(xiàn)出爆炸式的增長,尤其是當(dāng)社交網(wǎng)絡(luò)平臺的出現(xiàn)之后,輿論的傳播更加是不受控制。輿論監(jiān)控也成為近年來研究的重點問題。本文主要針對現(xiàn)今社交網(wǎng)絡(luò)中最具有代表性的兩個平臺Facebook和Twitter進(jìn)行研究。研究過程主要分為兩部分:第一、設(shè)計一套優(yōu)良的采集系統(tǒng)針對Facebook和Twitter進(jìn)行數(shù)據(jù)采集,設(shè)計過程中,我們分析了兩個平臺的登陸授權(quán)協(xié)議OAuth的工作原理、針對不同對象數(shù)據(jù)采集的API格式和第三方SDK的使用?紤]到Facebook的好友獲取局限性,我們針對Facebook使用基于HTTP流和API結(jié)合的方式來獲取用戶數(shù)據(jù),而Twitter使用API獲取用戶數(shù)據(jù)的方式。最后針對Facebook和Twitter獲取數(shù)據(jù)的性能進(jìn)行比較。第二、針對獲取到的社交網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析處理,首先對抓取到的240W條的推文消息進(jìn)行過濾操作,區(qū)分出中文和英文;然后分析推文的轉(zhuǎn)發(fā)格式,對推文進(jìn)行預(yù)處理,通過正則表達(dá)式提取出轉(zhuǎn)發(fā)關(guān)系,最后使用基于simhash的方法對預(yù)處理后的推文進(jìn)行去重操作,統(tǒng)計重復(fù)推文數(shù)據(jù),分析實驗結(jié)果。之后收...
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 課題研究背景、內(nèi)容及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 Web2.0 和社交網(wǎng)絡(luò)的發(fā)展
1.2.2 網(wǎng)絡(luò)采集及其現(xiàn)狀分析
1.2.3 傳播路徑現(xiàn)狀分析
1.3 論文貢獻(xiàn)
1.4 論文安排
2 社交網(wǎng)絡(luò)數(shù)據(jù)采集
2.1 OAuth 協(xié)議介紹
2.2 系統(tǒng)接口介紹
2.3 系統(tǒng)總體設(shè)計
2.3.1 登陸模塊
2.3.2 數(shù)據(jù)獲取模塊
2.3.3 數(shù)據(jù)搜索模塊
2.3.4 數(shù)據(jù)表的設(shè)計
2.4 采集性能和需要注意的問題
2.5 本章小結(jié)
3 推文相似性分析
3.1 研究目的
3.2 基本概念和相關(guān)工作
3.3 推文去重分析
3.3.1 Twitter 消息的官方轉(zhuǎn)發(fā)格式
3.3.2 Twitter 消息的非官方轉(zhuǎn)發(fā)格式
3.3.3 Twitter 中推文的預(yù)處理
3.3.4 消息去重的方法
3.4 去重實驗數(shù)據(jù)分析
3.4.1 統(tǒng)計推文語言分布
3.4.2 推文長度分布統(tǒng)計
3.4.3 預(yù)處理后推文長度的分布
3.4.4 推文去重
3.4.5 用戶發(fā)送消息
3.4.6 重復(fù)數(shù)據(jù)展示
3.4.7 系統(tǒng)界面展示
3.5 本章小結(jié)
4 推文轉(zhuǎn)發(fā)分析
4.1 實驗設(shè)計過程
4.2 實驗結(jié)果數(shù)據(jù)分析和展示
4.3 本章小結(jié)
結(jié)論
致謝
個人簡介
參考文獻(xiàn)
本文編號:3833848
【文章頁數(shù)】:67 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 引言
1.1 課題研究背景、內(nèi)容及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 Web2.0 和社交網(wǎng)絡(luò)的發(fā)展
1.2.2 網(wǎng)絡(luò)采集及其現(xiàn)狀分析
1.2.3 傳播路徑現(xiàn)狀分析
1.3 論文貢獻(xiàn)
1.4 論文安排
2 社交網(wǎng)絡(luò)數(shù)據(jù)采集
2.1 OAuth 協(xié)議介紹
2.2 系統(tǒng)接口介紹
2.3 系統(tǒng)總體設(shè)計
2.3.1 登陸模塊
2.3.2 數(shù)據(jù)獲取模塊
2.3.3 數(shù)據(jù)搜索模塊
2.3.4 數(shù)據(jù)表的設(shè)計
2.4 采集性能和需要注意的問題
2.5 本章小結(jié)
3 推文相似性分析
3.1 研究目的
3.2 基本概念和相關(guān)工作
3.3 推文去重分析
3.3.1 Twitter 消息的官方轉(zhuǎn)發(fā)格式
3.3.2 Twitter 消息的非官方轉(zhuǎn)發(fā)格式
3.3.3 Twitter 中推文的預(yù)處理
3.3.4 消息去重的方法
3.4 去重實驗數(shù)據(jù)分析
3.4.1 統(tǒng)計推文語言分布
3.4.2 推文長度分布統(tǒng)計
3.4.3 預(yù)處理后推文長度的分布
3.4.4 推文去重
3.4.5 用戶發(fā)送消息
3.4.6 重復(fù)數(shù)據(jù)展示
3.4.7 系統(tǒng)界面展示
3.5 本章小結(jié)
4 推文轉(zhuǎn)發(fā)分析
4.1 實驗設(shè)計過程
4.2 實驗結(jié)果數(shù)據(jù)分析和展示
4.3 本章小結(jié)
結(jié)論
致謝
個人簡介
參考文獻(xiàn)
本文編號:3833848
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3833848.html
最近更新
教材專著