基于隨機跳轉(zhuǎn)策略的社交網(wǎng)絡(luò)采樣算法研究
發(fā)布時間:2020-04-12 22:49
【摘要】:近年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,社交網(wǎng)絡(luò)正在影響和改變著人們的生活;诖罅繌(fù)雜數(shù)據(jù)的網(wǎng)絡(luò)結(jié)構(gòu)研究日益受到人們的歡迎。由于現(xiàn)有的在線社交網(wǎng)絡(luò)中,用戶交互信息的數(shù)據(jù)量龐大,且存在隱私問題,如果直接對整個網(wǎng)絡(luò)數(shù)據(jù)進行分析耗時嚴(yán)重,幾乎不可能完成。因此,一種可靠而有效的網(wǎng)絡(luò)采樣算法對于在線社交網(wǎng)絡(luò)(OSNs)特征的實際估計非常重要,F(xiàn)有的網(wǎng)絡(luò)采樣算法可以從Facebook等大規(guī)模復(fù)雜社交網(wǎng)絡(luò)中獲得無偏的樣本集,并描述原始網(wǎng)絡(luò)的關(guān)鍵特征。經(jīng)典的Metropolis-Hasting隨機行走法(Metropolis-Hasting Random Walk,MHRW)通過使用分布函數(shù)進行抽樣控制,較好的滿足了社交網(wǎng)絡(luò)采樣的需求。但是,MHRW算法的采樣過程中存在陷入局部區(qū)域中過度采樣的缺陷。針對在線社交網(wǎng)絡(luò)數(shù)據(jù)的上述特性以及MHRW采樣算法存在的缺陷,以網(wǎng)絡(luò)數(shù)據(jù)采樣問題為核心,對網(wǎng)絡(luò)數(shù)據(jù)的在線采樣、樣本評估等方面開展了一系列研究。主要研究內(nèi)容和創(chuàng)新點如下:1.為解決MHRW采樣算法存在的局部區(qū)域過度采樣問題,引入了隨機跳轉(zhuǎn)策略進行改進,得到一種新的混合跳轉(zhuǎn)采樣算法(Hybrid Jump sample,HJ)。本文分別在Facebook和Twitter兩個數(shù)據(jù)集上進行了大量實驗,通過對比不同算法采樣所得到的樣本集的收斂性、網(wǎng)絡(luò)的度分布、采樣節(jié)點分布和傳遞性等網(wǎng)絡(luò)特征,證實HJ算法的采樣性能更強且適用范圍比較廣。并且本文中通過調(diào)整HJ算法中跳轉(zhuǎn)概率值的大小進行實驗,觀察實驗結(jié)果發(fā)現(xiàn):不同跳轉(zhuǎn)概率對HJ采樣算法收斂性的影響微小,可以忽略不計。2.以知乎在線網(wǎng)絡(luò)為研究實例,運用本文所提出的HJ算法,設(shè)計了分布式社交網(wǎng)絡(luò)采樣系統(tǒng)。本文中詳細的介紹了系統(tǒng)的構(gòu)成和資源優(yōu)化方案;贖J算法采集知乎網(wǎng)站的用戶URL。然后提取用戶頁面信息進行處理,整理后進行存儲。通過此采樣系統(tǒng)能夠更加便捷的進行社交網(wǎng)絡(luò)數(shù)據(jù)的采集和存儲工作。
【圖文】:
1.1 課題研究背景及意義近年來,社交網(wǎng)絡(luò)如 Facebook,Twitter 正在成為我們生活種不可或缺的一部分,使基于互聯(lián)網(wǎng)的社會化媒體正影響和改變著我們的生活。由《DIGITAL IN 2018 GLOBAOVERVIEW》報告顯示,2018 年全球互聯(lián)網(wǎng)用戶數(shù)量為 40.21 億,同比增長 7%。全球交網(wǎng)絡(luò)的用戶總規(guī)模為 31.96 億,同比增長 13%,而全世界的人口總數(shù)目前為 75.9 億。意味著,社交網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)用戶中占到了絕大多數(shù)比例,并且全世界由四成的人口使用社交網(wǎng)絡(luò),而且總用戶規(guī)模還在持續(xù)增長著。其中,當(dāng)今最流行的在線社交網(wǎng)絡(luò)之Facebook[1-4],,它的全球用戶總數(shù)已突破 20 億(2017 年 7 月數(shù)據(jù))。來自 Facebook 的數(shù)顯示僅有 5%的用戶尚未通過移動設(shè)備訪問過平臺,過去一年里,每天都有百萬人開始用社交媒體,平均每秒新增 11 人。此外,Twitter[4, 5]全球每月平均活躍用戶達到 3.28 (2017 年 6 月數(shù)據(jù))。社交網(wǎng)絡(luò)以前所未有的規(guī)模提供大量信息[6]。
有節(jié)點度的平均值)。圖 3.1 HJ 不同參數(shù)下獲得樣本集的平均度圖 3.1 中有 19 條不同顏色的曲線,每條曲線代表著當(dāng)具有相同值的跳轉(zhuǎn)概率 p,平均度隨著 degree-list(k)中 k 參數(shù)值變化的曲線。圖中標(biāo)記的點,代表著不同跳轉(zhuǎn)概率 p 和degree-list(k)參數(shù)值所對應(yīng)的樣本集網(wǎng)絡(luò)的平均度。由圖中可以看出,通過 HJ 算法獲得的樣本集的平均度與 p 和 degree-list(k)具有相關(guān)性,并且可以得到以下一般規(guī)律:當(dāng)設(shè)定 p的值相同時,樣本集網(wǎng)絡(luò)的平均度隨著 degree-list(k)中 k 參數(shù)值的增加而增加;另一方面,當(dāng)設(shè)定 degree-list(k)中度值 k 相同度時
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP393.09
【圖文】:
1.1 課題研究背景及意義近年來,社交網(wǎng)絡(luò)如 Facebook,Twitter 正在成為我們生活種不可或缺的一部分,使基于互聯(lián)網(wǎng)的社會化媒體正影響和改變著我們的生活。由《DIGITAL IN 2018 GLOBAOVERVIEW》報告顯示,2018 年全球互聯(lián)網(wǎng)用戶數(shù)量為 40.21 億,同比增長 7%。全球交網(wǎng)絡(luò)的用戶總規(guī)模為 31.96 億,同比增長 13%,而全世界的人口總數(shù)目前為 75.9 億。意味著,社交網(wǎng)絡(luò)用戶在互聯(lián)網(wǎng)用戶中占到了絕大多數(shù)比例,并且全世界由四成的人口使用社交網(wǎng)絡(luò),而且總用戶規(guī)模還在持續(xù)增長著。其中,當(dāng)今最流行的在線社交網(wǎng)絡(luò)之Facebook[1-4],,它的全球用戶總數(shù)已突破 20 億(2017 年 7 月數(shù)據(jù))。來自 Facebook 的數(shù)顯示僅有 5%的用戶尚未通過移動設(shè)備訪問過平臺,過去一年里,每天都有百萬人開始用社交媒體,平均每秒新增 11 人。此外,Twitter[4, 5]全球每月平均活躍用戶達到 3.28 (2017 年 6 月數(shù)據(jù))。社交網(wǎng)絡(luò)以前所未有的規(guī)模提供大量信息[6]。
有節(jié)點度的平均值)。圖 3.1 HJ 不同參數(shù)下獲得樣本集的平均度圖 3.1 中有 19 條不同顏色的曲線,每條曲線代表著當(dāng)具有相同值的跳轉(zhuǎn)概率 p,平均度隨著 degree-list(k)中 k 參數(shù)值變化的曲線。圖中標(biāo)記的點,代表著不同跳轉(zhuǎn)概率 p 和degree-list(k)參數(shù)值所對應(yīng)的樣本集網(wǎng)絡(luò)的平均度。由圖中可以看出,通過 HJ 算法獲得的樣本集的平均度與 p 和 degree-list(k)具有相關(guān)性,并且可以得到以下一般規(guī)律:當(dāng)設(shè)定 p的值相同時,樣本集網(wǎng)絡(luò)的平均度隨著 degree-list(k)中 k 參數(shù)值的增加而增加;另一方面,當(dāng)設(shè)定 degree-list(k)中度值 k 相同度時
【學(xué)位授予單位】:浙江理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2019
【分類號】:TP393.09
【相似文獻】
相關(guān)期刊論文 前10條
1 孫晉;沈紅;;社交網(wǎng)絡(luò)群體性迷失現(xiàn)象分析[J];電腦知識與技術(shù);2019年12期
2 陳健;周麗華;;大學(xué)生社交網(wǎng)絡(luò)自我表露的實證研究[J];高校輔導(dǎo)員學(xué)刊;2018年06期
3 譚洪旭;袁帥;代連奇;任利峰;;淺談社交網(wǎng)絡(luò)對當(dāng)代大學(xué)生的影響[J];產(chǎn)業(yè)與科技論壇;2018年24期
4 孫夏卿;;社交網(wǎng)絡(luò)媒體對大學(xué)生賦權(quán)的價值體現(xiàn)[J];傳播力研究;2018年31期
5 張曉飛;;以社交網(wǎng)絡(luò)為基礎(chǔ)的企業(yè)營銷策略[J];商場現(xiàn)代化;2018年22期
6 孫國強;竇倩倩;張寶建;;西方社交網(wǎng)絡(luò)研究進展與未來展望[J];情報科學(xué);2019年02期
7 陳文泰;李衛(wèi)東;;國際社交網(wǎng)絡(luò)中“國家實在”傳播與國家形象演化機制研究[J];新聞大學(xué);2018年06期
8 孫金銘;吳s我
本文編號:2625269
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2625269.html
最近更新
教材專著