在線社交網(wǎng)絡(luò)數(shù)據(jù)采集策略研究
發(fā)布時間:2021-04-26 02:24
近幾十年來,互聯(lián)網(wǎng)歷經(jīng)時代的變革,在線社交網(wǎng)絡(luò)(OSNs)將人們的面對面的交流逐漸改變?yōu)榫上虛擬的方式。OSNs注冊用戶總量及其龐大,人們越愛越重視這類網(wǎng)絡(luò)數(shù)據(jù)的研究。與此同時由于數(shù)據(jù)量龐大,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,使得對整個OSNs進行研究時耗費大量的人力物力。一個可靠的OSNs采樣算法可以幫助研究者從完整網(wǎng)絡(luò)中采集小型代表性樣本網(wǎng)絡(luò),對于OSNs數(shù)據(jù)研究意義重大,F(xiàn)有的網(wǎng)絡(luò)采樣算法如廣度優(yōu)先采樣算法(BFS),Metropolis-Hasting隨機游走算法(MHRW)等已能夠從Twitter等大型網(wǎng)絡(luò)中采集樣本網(wǎng)絡(luò)。但BFS采集的樣本節(jié)點度數(shù)偏高,MHRW采樣容易陷入連通良好的子區(qū)域。針對現(xiàn)有OSNs采樣算法存在的各種弊端,導致采集的樣本網(wǎng)絡(luò)無法反應(yīng)原始網(wǎng)絡(luò)特性的問題,本文以網(wǎng)絡(luò)采樣算法為核心內(nèi)容展開研究。文中主要研究內(nèi)容如下:1.針對MHRW采樣方法無法采集低連通的社交網(wǎng)絡(luò)的節(jié)點,采樣過程中易于陷入連通良好的子區(qū)域?qū)е虏糠止?jié)點過度入樣,獲取的樣本節(jié)點集的特征指標與原始偏差較大等問題。加入節(jié)點存儲區(qū)和全局節(jié)點以及存儲區(qū)的跳躍參數(shù),提出一種多重跳躍無偏的頂點采樣算法(MJU),不僅解決了 M...
【文章來源】:浙江理工大學浙江省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景及意義
1.2 論文的主要貢獻
1.3 論文的組織結(jié)構(gòu)
第二章 在線社交網(wǎng)絡(luò)采樣算法概述
2.1 采樣的基本概念
2.2 在線社交網(wǎng)絡(luò)采樣算法
2.2.1 廣度優(yōu)先搜索算法(BFS)
2.2.2 用戶均勻采樣法(UNI)
2.2.3 隨機行走采樣算法(RW)
2.2.4 馬爾科夫鏈蒙特卡洛采樣算法(MHRW)
2.2.5 信天翁采樣算法(AS)
2.2.6 無偏延遲采樣算法(UD)
2.3 本章小結(jié)
第三章 基于多重跳躍的采樣研究
3.1 設(shè)計思想
3.2 MJU算法描述
3.2.1 三維樣本節(jié)點更新率分布模型進行跳躍參數(shù)分析
3.2.2 多重跳躍參數(shù)選取
3.2.3 算法的無偏性
3.3 MJU算法偽代碼及流程圖
3.4 實驗數(shù)據(jù)集描述
3.5 采樣性能的對比實驗
3.5.1 樣本更新率分析
3.5.2 網(wǎng)絡(luò)的同配性分析
3.5.3 網(wǎng)絡(luò)度分布分析
3.5.4 收斂性分析
3.6本章小結(jié)
第四章 基于MJU采樣算法的網(wǎng)絡(luò)爬蟲系統(tǒng)
4.1 社交網(wǎng)絡(luò)爬蟲系統(tǒng)框架
4.1.1 控制器
4.1.2 HTML下載器和解析器
4.1.3 資源庫
4.2 系統(tǒng)執(zhí)行流程
4.3 本章小結(jié)
第五章總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作與展望
參考文獻
攻讀碩士學位期間參加的科研項目和研宄成果
致謝
本文編號:3160546
【文章來源】:浙江理工大學浙江省
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 課題研究背景及意義
1.2 論文的主要貢獻
1.3 論文的組織結(jié)構(gòu)
第二章 在線社交網(wǎng)絡(luò)采樣算法概述
2.1 采樣的基本概念
2.2 在線社交網(wǎng)絡(luò)采樣算法
2.2.1 廣度優(yōu)先搜索算法(BFS)
2.2.2 用戶均勻采樣法(UNI)
2.2.3 隨機行走采樣算法(RW)
2.2.4 馬爾科夫鏈蒙特卡洛采樣算法(MHRW)
2.2.5 信天翁采樣算法(AS)
2.2.6 無偏延遲采樣算法(UD)
2.3 本章小結(jié)
第三章 基于多重跳躍的采樣研究
3.1 設(shè)計思想
3.2 MJU算法描述
3.2.1 三維樣本節(jié)點更新率分布模型進行跳躍參數(shù)分析
3.2.2 多重跳躍參數(shù)選取
3.2.3 算法的無偏性
3.3 MJU算法偽代碼及流程圖
3.4 實驗數(shù)據(jù)集描述
3.5 采樣性能的對比實驗
3.5.1 樣本更新率分析
3.5.2 網(wǎng)絡(luò)的同配性分析
3.5.3 網(wǎng)絡(luò)度分布分析
3.5.4 收斂性分析
3.6本章小結(jié)
第四章 基于MJU采樣算法的網(wǎng)絡(luò)爬蟲系統(tǒng)
4.1 社交網(wǎng)絡(luò)爬蟲系統(tǒng)框架
4.1.1 控制器
4.1.2 HTML下載器和解析器
4.1.3 資源庫
4.2 系統(tǒng)執(zhí)行流程
4.3 本章小結(jié)
第五章總結(jié)與展望
5.1 全文總結(jié)
5.2 后續(xù)工作與展望
參考文獻
攻讀碩士學位期間參加的科研項目和研宄成果
致謝
本文編號:3160546
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3160546.html
最近更新
教材專著