天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

在線社交網(wǎng)絡(luò)用戶的特征分析與分類檢測

發(fā)布時間:2017-05-24 02:00

  本文關(guān)鍵詞:在線社交網(wǎng)絡(luò)用戶的特征分析與分類檢測,,由筆耕文化傳播整理發(fā)布。


【摘要】:近年來,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,在線社交網(wǎng)站已逐漸成為人們生活中不可或缺的交往方式之一。不同于現(xiàn)實(shí)中的社交網(wǎng)絡(luò),信息在在線社交網(wǎng)絡(luò)中的傳播速度更快,覆蓋人群更多,交互更頻繁。微博是一種已經(jīng)被廣泛應(yīng)用的信息傳播載體,是人們互動交流的重要方式。隨著時間的發(fā)展,微博平臺產(chǎn)生多種不同性質(zhì)的用戶,包括僵尸賬戶、馬甲賬戶、垃圾賬戶等,它們出于不同的目的,擾亂著微博秩序。作為衡量微博用戶知名度及受歡迎程度的重要指標(biāo),粉絲數(shù)的真實(shí)性越發(fā)受到人們的關(guān)注。投機(jī)者受到經(jīng)濟(jì)利益的驅(qū)使,制造大量的機(jī)器用戶,引發(fā)信任危機(jī)。機(jī)器用戶作為僵尸用戶的進(jìn)化,它與僵尸用戶具有許多相似之處:同樣是利用程序產(chǎn)生的賬戶,一樣主要以“買賣粉絲”為存在的目的。不同的是這類進(jìn)化的僵尸用戶更具活性,它們的行為更加接近正常用戶,以至于新浪微博不能檢測出這類賬戶,而對其封號。如何快速有效的識別機(jī)器用戶,已成為維護(hù)微博平臺正常秩序亟待解決的問題。為了探究這一問題,采用機(jī)器學(xué)習(xí)的方法,以新浪微博為例,對中文微博用戶特征進(jìn)行了深入研究,并且對相關(guān)的分類算法進(jìn)行了詳細(xì)學(xué)習(xí)及分析,提出了一種最優(yōu)分類模型,具體工作如下:1、數(shù)據(jù)采集。介紹了本研究數(shù)據(jù)采集的步驟,首先分別基于熱門話題及“買粉”獲得非機(jī)器用戶集和機(jī)器用戶集,又詳細(xì)介紹了新浪API的調(diào)用原理,最后通過本文提出的多方法組合的數(shù)據(jù)提取方案,得到用戶和微博的基本信息,構(gòu)成了本研究的原始數(shù)據(jù)集。2、特征分析。首先結(jié)合新浪微博的特點(diǎn),獲得13項(xiàng)原始特征。再通過分析用戶關(guān)系特征、用戶行為特征、微博內(nèi)容特征,對原始特征進(jìn)行再加工,得到9項(xiàng)有效特征,將其表示成向量,作為分類器的輸入。最后用累積分布函數(shù)圖對這些特征進(jìn)行特征分析。3、最優(yōu)分類模型。本文首先運(yùn)用SVM算法驗(yàn)證了特征組合的有效性,用BP神經(jīng)網(wǎng)絡(luò)和決策樹兩種曾經(jīng)運(yùn)用在用戶分類中的分類算法進(jìn)行分類,其結(jié)果與SVM比較以期得到更好的分類效果。在結(jié)果不令人滿意的情況下,創(chuàng)造性的引入隨機(jī)森林算法,提高了分類效果。然后,為了進(jìn)一步提高分類效率,采用剔減特征法得到最優(yōu)特征組合,提出了本研究的最優(yōu)分類模型SBS-Random Forest。4、實(shí)例驗(yàn)證。本文隨機(jī)選取一個用戶,采用多方法組合的數(shù)據(jù)提取方案獲取其粉絲的信息,生成粉絲用戶的特征集,用SBS-Random Forest分類模型對這些用戶進(jìn)行分類,再與人工投票結(jié)果進(jìn)行比較,最終發(fā)現(xiàn)分類效果在接受范圍內(nèi),得到了用戶的機(jī)器用戶粉絲的比例,再與其他方法進(jìn)行比較,證明本研究提出的分類模型有效可行,對機(jī)器用戶的甄別有積極的促進(jìn)意義。
【關(guān)鍵詞】:社交網(wǎng)絡(luò) 微博 機(jī)器用戶 數(shù)據(jù)挖掘 用戶行為分析 機(jī)器學(xué)習(xí)
【學(xué)位授予單位】:河北師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.09
【目錄】:
  • 摘要4-6
  • Abstract6-11
  • 1 緒論11-20
  • 1.1 研究背景11-12
  • 1.2 相關(guān)研究現(xiàn)狀綜述12-18
  • 1.2.1 復(fù)雜網(wǎng)絡(luò)相關(guān)研究現(xiàn)狀12-13
  • 1.2.2 在線社交網(wǎng)絡(luò)研究現(xiàn)狀13-15
  • 1.2.3 微博用戶分類檢測研究現(xiàn)狀15-17
  • 1.2.4 微博數(shù)據(jù)采集研究現(xiàn)狀17-18
  • 1.3 本文所研究內(nèi)容18
  • 1.4 論文的組織結(jié)構(gòu)18-20
  • 2 在線社交網(wǎng)絡(luò)理論基礎(chǔ)20-27
  • 2.1 復(fù)雜網(wǎng)絡(luò)20-21
  • 2.1.1 復(fù)雜網(wǎng)絡(luò)理論基礎(chǔ)20-21
  • 2.1.2 復(fù)雜網(wǎng)絡(luò)特征21
  • 2.2 社交網(wǎng)絡(luò)21-24
  • 2.2.1 社交網(wǎng)絡(luò)21-22
  • 2.2.2 社交網(wǎng)絡(luò)節(jié)點(diǎn)分析22-23
  • 2.2.3 在線社交網(wǎng)絡(luò)用戶分類23-24
  • 2.3 微博24-26
  • 2.3.1 微博的特征24-25
  • 2.3.2 微博用戶分析25-26
  • 2.4 本章小結(jié)26-27
  • 3 數(shù)據(jù)采集27-35
  • 3.1 獲取用戶集27-29
  • 3.2 獲取用戶及微博數(shù)據(jù)29-34
  • 3.2.1 OAUTH用戶身份認(rèn)證29-30
  • 3.2.2 微博API調(diào)用30-32
  • 3.2.3 多方法組合的數(shù)據(jù)提取方案32-34
  • 3.3 本章小結(jié)34-35
  • 4 數(shù)據(jù)處理35-47
  • 4.1 特征生成35-36
  • 4.2 特征提取36-41
  • 4.2.1 用戶關(guān)系特征36-38
  • 4.2.2 用戶行為特征38-39
  • 4.2.3 微博內(nèi)容特征39-41
  • 4.3 基于CDF圖的特征分析41-46
  • 4.3.1 用戶關(guān)系特征分析41-42
  • 4.3.2 用戶行為特征分析42-43
  • 4.3.3 微博內(nèi)容特征分析43-46
  • 4.4 本章小結(jié)46-47
  • 5 最優(yōu)分類模型47-66
  • 5.1 SVM驗(yàn)證特征組合有效性47-51
  • 5.1.1 支持向量機(jī)分類器設(shè)計47-49
  • 5.1.2 評估標(biāo)準(zhǔn)及分類結(jié)果49-51
  • 5.2 用戶分類檢測的傳統(tǒng)算法51-57
  • 5.2.1 BP神經(jīng)網(wǎng)絡(luò)分類器及分類結(jié)果52-54
  • 5.2.2 決策樹分類器及分類結(jié)果54-57
  • 5.3 隨機(jī)森林分類算法57-61
  • 5.3.1 隨機(jī)森林分類原理58
  • 5.3.2 隨機(jī)森林分類器及分類結(jié)果58-61
  • 5.4 最優(yōu)分類模型SBS-Random Forest61-65
  • 5.4.1 最優(yōu)特征組合61-63
  • 5.4.2 最優(yōu)分類模型建立及驗(yàn)證63-65
  • 5.5 本章小結(jié)65-66
  • 6 總結(jié)與展望66-68
  • 參考文獻(xiàn)68-73
  • 致謝73-74
  • 攻讀碩士學(xué)位期間的研究成果74

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫 前10條

1 ;基于位置的手機(jī)社交網(wǎng)絡(luò)“貝多”正式發(fā)布[J];中國新通信;2008年06期

2 曹增輝;;社交網(wǎng)絡(luò)更偏向于用戶工具[J];信息網(wǎng)絡(luò);2009年11期

3 ;美國:印刷企業(yè)青睞社交網(wǎng)絡(luò)營銷新方式[J];中國包裝工業(yè);2010年Z1期

4 李智惠;柳承燁;;韓國移動社交網(wǎng)絡(luò)服務(wù)的類型分析與促進(jìn)方案[J];現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報);2010年08期

5 賈富;;改變一切的社交網(wǎng)絡(luò)[J];互聯(lián)網(wǎng)天地;2011年04期

6 譚拯;;社交網(wǎng)絡(luò):連接與發(fā)現(xiàn)[J];廣東通信技術(shù);2011年07期

7 陳一舟;;社交網(wǎng)絡(luò)的發(fā)展趨勢[J];傳媒;2011年12期

8 殷樂;;全球社交網(wǎng)絡(luò)新態(tài)勢及文化影響[J];新聞與寫作;2012年01期

9 許麗;;社交網(wǎng)絡(luò):孤獨(dú)年代的集體狂歡[J];上海信息化;2012年09期

10 李玲麗;吳新年;;科研社交網(wǎng)絡(luò)的發(fā)展現(xiàn)狀及趨勢分析[J];圖書館學(xué)研究;2013年01期

中國重要會議論文全文數(shù)據(jù)庫 前10條

1 趙云龍;李艷兵;;社交網(wǎng)絡(luò)用戶的人格預(yù)測與關(guān)系強(qiáng)度研究[A];第七屆(2012)中國管理學(xué)年會商務(wù)智能分會場論文集(選編)[C];2012年

2 宮廣宇;李開軍;;對社交網(wǎng)絡(luò)中信息傳播的分析和思考——以人人網(wǎng)為例[A];首屆華中地區(qū)新聞與傳播學(xué)科研究生學(xué)術(shù)論壇獲獎?wù)撐腫C];2010年

3 楊子鵬;喬麗娟;王夢思;楊雪迎;孟子冰;張禹;;社交網(wǎng)絡(luò)與大學(xué)生焦慮緩解[A];心理學(xué)與創(chuàng)新能力提升——第十六屆全國心理學(xué)學(xué)術(shù)會議論文集[C];2013年

4 畢雪梅;;體育虛擬社區(qū)中的體育社交網(wǎng)絡(luò)解析[A];第九屆全國體育科學(xué)大會論文摘要匯編(4)[C];2011年

5 杜p

本文編號:389542


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/389542.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fc631***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com