天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向可信用戶和主題社區(qū)的社交網(wǎng)絡在線話題識別方法研究

發(fā)布時間:2017-09-25 06:18

  本文關鍵詞:面向可信用戶和主題社區(qū)的社交網(wǎng)絡在線話題識別方法研究


  更多相關文章: 面向 可信 用戶 主題 社區(qū) 社交 網(wǎng)絡 在線 話題 識別 方法研究


【摘要】:微博是當前最流行的社交網(wǎng)絡平臺之一,用戶可以通過計算機或移動終端關注和分享自己感興趣的信息,發(fā)表個人觀點等。微博已經(jīng)成了一個實時信息獲取、分享、交流和傳播的平臺;ヂ(lián)網(wǎng)上每天都產(chǎn)生著數(shù)以億計的微博數(shù)據(jù),這些由用戶所產(chǎn)生的海量微博數(shù)據(jù)背后蘊含著巨大的商業(yè)價值。社交網(wǎng)絡日趨發(fā)達和成熟,用戶的參與度到達一個前所未有的高度。社交網(wǎng)絡現(xiàn)已成為了大多數(shù)新聞事件的最早傳播源,對于社交網(wǎng)絡中新事件的檢測已經(jīng)成為學術界和政府機構關注的焦點。社交網(wǎng)絡中的事件以用戶發(fā)送或者轉發(fā)狀態(tài)進行傳播,其中的部分核心用戶對事件傳播有著極其重要的作用,所以對于社交網(wǎng)絡中核心用戶的挖掘一直是學術界研究的熱點。本文以傳統(tǒng)的新事件檢測算法為基礎,為滿足社交網(wǎng)絡話題識別的可信度、多樣性和實時性等需求,提出面向可信用戶和主題社區(qū)的在線話題識別算法。本文通過實驗證明了該算法在獲得較高效率、穩(wěn)定性及話題多樣性結果的同時,基本不會改變新事件檢測的缺失率誤報率,以此證明該算法的可行性和有效性。本文主要工作如下:1.詳細地介紹了傳統(tǒng)新事件檢測所用到的關鍵技術以及研究成果,包括基于新聞流的新事件檢測和基于社交網(wǎng)絡的新事件檢測,提出了面向可信用戶和主題社區(qū)的在線話題識別框架。2.通過HttpWatch 9.1截取和分析網(wǎng)頁數(shù)據(jù)流,并基于模擬瀏覽器行為技術和清洗模式規(guī)則技術,自動化爬取、采集和清洗海量微博數(shù)據(jù);3.分析了廣義不可信用戶的定義和判斷特征,提出一種信譽度的計算方法TR-Score (Trust Relevance Score Propagation Algorithm),來度量用戶的可信程度。TR-Score算法將會給每個用戶分配一個TR-Score值以度量每個用戶的惡意程度,并最終將惡意用戶篩除掉。4.為了增加話題的多樣性,在進行不可信用戶清除后,我們引入主題信息的社區(qū)劃分算法,并在公開數(shù)據(jù)集上進行評估,算法取得很好的效果。此外社區(qū)劃分也可以大大降低新事件檢測(NED)算法的時間復雜度,且各個社區(qū)的話題識別可以并行化。5.基于傳統(tǒng)的微博主題權威人物分析,引入用戶事件特征,提出基于事件的核心權威人物EBUAR模型,并詳細闡述了細節(jié),最后對該模型進行了評估。6.基于微博置信度和微博傳播度來進行種子微博篩選,實現(xiàn)了基于SVM的事件合并模型(Event-MergingModel)并對該算法進行了評估。最后,本文從缺失率、誤報率、平均檢測事件三個維度評估了權威用戶模型、微博置信度模型對于NED算法的影響。實驗結果表明我們只需要監(jiān)測權威用戶而不需要掃描所有用戶,在大大降低平均檢測時間的同時基本不影響缺失率和誤報率。
【關鍵詞】:
【學位授予單位】:華東理工大學
【學位級別】:博士
【學位授予年份】:2015
【分類號】:TP393.092
【目錄】:
  • 摘要5-7
  • Abstract7-13
  • 第1章 緒論13-26
  • 1.1 研究背景13-15
  • 1.1.1 社交網(wǎng)絡發(fā)展狀況13-14
  • 1.1.2 社交網(wǎng)絡研究14-15
  • 1.2 研究現(xiàn)狀和存在的問題15-22
  • 1.2.1 傳統(tǒng)新事件檢測15-19
  • 1.2.2 社交網(wǎng)絡新事件檢測19-21
  • 1.2.3 社交網(wǎng)絡新事件檢測的特殊性21-22
  • 1.2.4 社交網(wǎng)絡新事件檢測存在的問題22
  • 1.3 研究內(nèi)容及意義22-24
  • 1.3.1 研究內(nèi)容22-23
  • 1.3.2 主要研究貢獻23-24
  • 1.4 本文的組織24-26
  • 第2章 社交網(wǎng)絡事件檢測框架26-37
  • 2.1 事件檢測基本框架26-28
  • 2.1.1 用戶獲取26
  • 2.1.2 微博獲取26-27
  • 2.1.3 新事件檢測模塊27-28
  • 2.2 相關基礎技術28-31
  • 2.2.1 中文切詞技術28-29
  • 2.2.2 關鍵詞抽取技術29-30
  • 2.2.3 向量空間模型30
  • 2.2.4 文本相似度計算30-31
  • 2.2.5 基本NED方法31
  • 2.3 社交網(wǎng)絡特性分析31-34
  • 2.3.1 話題的生命周期31-32
  • 2.3.2 僵尸用戶現(xiàn)象32-33
  • 2.3.3 話題的單一性33
  • 2.3.4 社會傳染特性33-34
  • 2.4 改進的在線話題識別框架34-36
  • 2.4.1 數(shù)據(jù)爬取處理模塊34
  • 2.4.2 不可信用戶篩除34-35
  • 2.4.3 主題社區(qū)劃分35
  • 2.4.4 改進的話題識別生成模塊35-36
  • 2.5 本章小結36-37
  • 第3章 微博數(shù)據(jù)采集與存儲37-56
  • 3.1 概述37
  • 3.2 基于微博API的數(shù)據(jù)采集方案37-41
  • 3.2.1 應用創(chuàng)建流程與OAuth2.0授權37-38
  • 3.2.2 微博API數(shù)據(jù)采集實現(xiàn)38-41
  • 3.2.3 基于微博API采集微博數(shù)據(jù)優(yōu)缺點41
  • 3.3 模擬瀏覽器的微博數(shù)據(jù)采集方案41-52
  • 3.3.1 網(wǎng)頁數(shù)據(jù)分析工具(HttpWatch)41-44
  • 3.3.2 微博模擬登錄44-46
  • 3.3.3 微博數(shù)據(jù)抓取46-50
  • 3.3.4 微博數(shù)據(jù)解析50-51
  • 3.3.5 微博數(shù)據(jù)存儲51
  • 3.3.6 基于模擬瀏覽器行為爬取采集微博數(shù)據(jù)優(yōu)缺點51-52
  • 3.4 數(shù)值實驗與結果分析52-55
  • 3.4.1 實驗結果52-55
  • 3.4.2 實驗分析55
  • 3.5 本章小結55-56
  • 第4章 社交網(wǎng)絡中惡意用戶篩除56-68
  • 4.1 社交網(wǎng)絡平臺中惡意用戶識別的研究現(xiàn)狀56-58
  • 4.2 基于半監(jiān)督學習的惡意用戶識別算法58-64
  • 4.3 惡意用戶識別實驗效果與評估64-66
  • 4.3.1 實驗環(huán)境及實驗數(shù)據(jù)64-65
  • 4.3.2 基準方法的選擇65
  • 4.3.3 實驗結果分析65-66
  • 4.4 本章小結66-68
  • 第5章 社交網(wǎng)絡中基于主題信息的社區(qū)劃分算法68-85
  • 5.1 社會網(wǎng)絡中社區(qū)的定義68
  • 5.2 社區(qū)劃分的研究現(xiàn)狀68-70
  • 5.2.1 基于優(yōu)化的復雜網(wǎng)絡聚類方法69-70
  • 5.2.2 啟發(fā)式的復雜網(wǎng)絡聚類方法70
  • 5.3 用戶關系鏈中的主題相似度傳播與計算70-78
  • 5.3.1 用戶間主題相似關系強度計算70-75
  • 5.3.2 用戶關系鏈中的主題相似度計算75-78
  • 5.4 主題相似度計算算法框架78
  • 5.5 數(shù)據(jù)預處理模塊78-79
  • 5.6 用戶相似度更新模塊79-80
  • 5.7 社區(qū)傳播模塊80-81
  • 5.8 算法分析81
  • 5.9 實驗結果81-84
  • 5.9.1 實驗環(huán)境及實驗數(shù)據(jù)81-82
  • 5.9.2 精準度對比82-83
  • 5.9.3 可擴展性83-84
  • 5.10 本章小結84-85
  • 第6章 社交網(wǎng)絡在線話題識別85-114
  • 6.1 權威用戶篩選85-92
  • 6.1.1 領域權威用戶概念85-86
  • 6.1.2 研究現(xiàn)狀86-87
  • 6.1.3 基礎權威性人物分析模型87-92
  • 6.2 基于事件的權威用戶篩選92-101
  • 6.2.1 事件獲取93-94
  • 6.2.2 構建事件轉發(fā)圖94-95
  • 6.2.3 模型和關系95-97
  • 6.2.4 篩選和驗證97-98
  • 6.2.5 實驗及評估98-100
  • 6.2.6 EBUAR小結100-101
  • 6.3 種子微博篩選101-104
  • 6.3.1 微博置信度模型101-102
  • 6.3.2 微博傳播度102-104
  • 6.3.3 種子微博104
  • 6.4 基于支持向量機的事件合并模型104-108
  • 6.5 NED實驗和評估108-113
  • 6.5.1 評估指標108-109
  • 6.5.2 平均準確率109
  • 6.5.3 缺失率vs平均檢測時間109-110
  • 6.5.4 缺失率vs誤報率vs平均檢測時間110-111
  • 6.5.5 核心用戶篩選對NED的影響111
  • 6.5.6 微博置信度對NED的影響111-112
  • 6.5.7 主題社區(qū)對NED的影響112-113
  • 6.6 本章小結113-114
  • 第7章 總結和展望114-116
  • 7.1 全文總結114-115
  • 7.2 展望115-116
  • 參考文獻116-127
  • 致謝127-128
  • 附錄1 攻讀學位期間發(fā)表的學術論文12

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前4條

1 小號德芙;;FLASH[J];計算機教與學.IT搜索;2002年03期

2 徐彬;趙長寬;張昱;;基于LDA的博客網(wǎng)絡主題社區(qū)挖掘方法研究[J];計算機與數(shù)字工程;2012年11期

3 何翔;顧春華;丁軍;;基于微博的主題社區(qū)發(fā)現(xiàn)[J];計算機應用與軟件;2013年06期

4 ;[J];;年期

中國重要報紙全文數(shù)據(jù)庫 前10條

1 記者 劉修兵;“主題社區(qū)建設模式實踐與推廣”項目通過驗收[N];中國文化報;2014年

2 張正為;醫(yī)療主題社區(qū)浮現(xiàn)京城[N];中國房地產(chǎn)報;2003年

3 本報駐湖北記者 程芙蓉;農(nóng)家旅游主題社區(qū)?新鮮![N];中國旅游報;2012年

4 記者 孟堅;京城首家運動主題社區(qū)開盤[N];中國證券報;2001年

5 劉笑一;首個童話主題社區(qū)現(xiàn)身滬上[N];中國房地產(chǎn)報;2003年

6 董明邋本報記者 王榮琦;沙河口區(qū)12個主題社區(qū)公園開園[N];遼寧日報;2008年

7 記者 李峰龍;亙元銀子湖·水都引領居住新理念[N];銀川晚報;2010年

8 本報實習記者 郭萌;地產(chǎn)商按年齡開發(fā)戶型[N];北京科技報;2004年

9 記者 倪明;廣氮地區(qū)將建運動社區(qū)[N];廣州日報;2009年

10 立平;北京打造郊區(qū)教育主題社區(qū)[N];中國房地產(chǎn)報;2003年

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 丁軍;面向可信用戶和主題社區(qū)的社交網(wǎng)絡在線話題識別方法研究[D];華東理工大學;2015年

中國碩士學位論文全文數(shù)據(jù)庫 前3條

1 劉東升;主題驅動的Blog社區(qū)發(fā)現(xiàn)技術研究[D];哈爾濱工業(yè)大學;2008年

2 鄭國慶;針對鏈接語料的主題社區(qū)挖掘[D];上海交通大學;2012年

3 何翔;基于微博的主題社區(qū)發(fā)現(xiàn)[D];華東理工大學;2013年

,

本文編號:915853

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/915853.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶8fe5c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com