微博垃圾信息檢測(cè)
發(fā)布時(shí)間:2017-12-22 07:23
本文關(guān)鍵詞:微博垃圾信息檢測(cè) 出處:《中國科學(xué)技術(shù)大學(xué)》2015年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 微博 垃圾信息檢測(cè) 垃圾用戶 垃圾微博
【摘要】:微博已經(jīng)成為人們社會(huì)生活中一個(gè)重要的信息傳播與交流平臺(tái)。海量的微博數(shù)據(jù)蘊(yùn)含著大量有價(jià)值的信息,這些信息對(duì)于政府和企業(yè)決策有著重要的參考意義,例如,可以讓商家更好的了解市場(chǎng)狀況并優(yōu)化營銷策略,可以讓政府部門更好地了解社會(huì)輿情。 但是,近年來微博平臺(tái)上出現(xiàn)了許多的垃圾用戶(如僵尸粉)和垃圾微博(例如廣告推廣信息)。這些垃圾信息的存在不僅影響微博數(shù)據(jù)挖掘和決策分析的效果,也會(huì)影響微博平臺(tái)的健康發(fā)展和用戶的使用體驗(yàn)。因此,檢測(cè)并過濾微博垃圾信息對(duì)微博數(shù)據(jù)分析和挖掘工作具有重要的作用與意義。本文主要研究了微博垃圾信息檢測(cè)的兩類問題——垃圾用戶檢測(cè)和垃圾微博檢測(cè)。垃圾用戶主要包括僵尸粉和營銷型用戶;垃圾微博是指含有話題的微博中微博內(nèi)容與話題不相關(guān)的微博。本文主要的工作和貢獻(xiàn)可總結(jié)為以下兩點(diǎn): (1)微博垃圾用戶檢測(cè) 通過對(duì)用戶特征的詳細(xì)分析,我們發(fā)現(xiàn)僵尸粉與營銷用戶在特征上有顯著的差異,因此我們提出了將垃圾用戶分為僵尸粉和營銷用戶分別檢測(cè)的思路。針對(duì)僵尸粉型垃圾用戶,我們提出了通過用戶社交關(guān)系計(jì)算正常/垃圾得分輔助檢測(cè)微博垃圾用戶的方法。針對(duì)營銷型垃圾用戶,我們提出了借助重復(fù)信息發(fā)現(xiàn)潛在垃圾用戶的方法。實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了我們所提方法的有效性。(2)話題背景下的垃圾微博檢測(cè) 在含有話題的微博中,存在著一些微博的內(nèi)容與當(dāng)前話題并不相關(guān)的微博。這些垃圾微博不僅影響了普通用戶對(duì)此話題的瀏覽時(shí)的體驗(yàn),在后續(xù)的話題分析等相關(guān)工作中也會(huì)影響數(shù)據(jù)分析的效果。針對(duì)話題背景下的垃圾微博檢測(cè)問題,本文提出了結(jié)合用戶可信度的垃圾微博檢測(cè)方法。該方法不僅考慮了微微博本及自身相關(guān)特征,還考慮了微博作者的可信度。實(shí)際數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了我們所提方法的有效性。
【學(xué)位授予單位】:中國科學(xué)技術(shù)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前3條
1 曹鵬;李靜遠(yuǎn);滿彤;劉悅;程學(xué)旗;;Twitter中近似重復(fù)消息的判定方法研究[J];中文信息學(xué)報(bào);2011年01期
2 王琳;馮時(shí);徐偉麗;楊卓;王大玲;張一飛;;一種面向微博客文本流的噪音判別與內(nèi)容相似性雙重檢測(cè)的過濾方法[J];計(jì)算機(jī)應(yīng)用與軟件;2012年08期
3 陳,
本文編號(hào):1318931
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1318931.html
最近更新
教材專著