微博中話(huà)題的傳播模型及熱點(diǎn)預(yù)測(cè)
發(fā)布時(shí)間:2017-10-09 11:24
本文關(guān)鍵詞:微博中話(huà)題的傳播模型及熱點(diǎn)預(yù)測(cè)
更多相關(guān)文章: 微博過(guò)濾 微博話(huà)題 分類(lèi)模型 熱點(diǎn)預(yù)測(cè)
【摘要】:微博作為新興的網(wǎng)絡(luò)社交平臺(tái),因其信息流通速度快、信息內(nèi)容豐富、人群覆蓋面廣吸引了大量用戶(hù)的加入,這使得微博在輿論傳播中的作用日益凸顯。有很多微博是圍繞同一相關(guān)事件而展開(kāi)討論的,這便構(gòu)成了一個(gè)話(huà)題。研究話(huà)題的傳播規(guī)律并對(duì)熱點(diǎn)話(huà)題進(jìn)行有效預(yù)測(cè),有助于我們了解事件的發(fā)展動(dòng)態(tài)及趨勢(shì),可用于新聞熱點(diǎn)的挖掘和不良信息的監(jiān)管等領(lǐng)域。 本文介紹了微博中話(huà)題的傳播模型及完整的熱點(diǎn)預(yù)測(cè)系統(tǒng)流程,包括數(shù)據(jù)的獲取及預(yù)處理、話(huà)題聚類(lèi)和熱點(diǎn)話(huà)題預(yù)測(cè)模塊。 論文的主要工作有: 1.由于微博中包含大量的廣告、商家促銷(xiāo)、活動(dòng)宣傳等無(wú)意義信息,本文提出了一種從用戶(hù)和微博兩個(gè)角度構(gòu)建微博特征向量的方法,通過(guò)支持向量機(jī)(Support Vector Machine, SVM)實(shí)現(xiàn)了信息的有效過(guò)濾; 2.論文將話(huà)題傳播過(guò)程劃分為三個(gè)階段(即潛伏期、爆發(fā)期與消退期),統(tǒng)計(jì)各個(gè)時(shí)期用戶(hù)特征項(xiàng)及微博特征項(xiàng)的變化規(guī)律,并采用VIP用戶(hù)比例、用戶(hù)粉絲數(shù)分布、#話(huà)題標(biāo)簽和url外鏈比例四個(gè)特征刻畫(huà)話(huà)題傳播,取得了較好的實(shí)驗(yàn)結(jié)果; 3.論文采用了基于“潛在基底”假設(shè)的分類(lèi)模型,并提出了時(shí)序信號(hào)表示話(huà)題趨勢(shì)的方法,最后對(duì)話(huà)題進(jìn)行熱點(diǎn)預(yù)測(cè)和參數(shù)分析。實(shí)驗(yàn)結(jié)果表明83.5%的話(huà)題可以提前預(yù)測(cè),平均提前時(shí)間約為1.6小時(shí),驗(yàn)證了算法的有效性。
【關(guān)鍵詞】:微博過(guò)濾 微博話(huà)題 分類(lèi)模型 熱點(diǎn)預(yù)測(cè)
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP393.092
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-14
- 1.1 本文研究的背景及意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-12
- 1.2.1 微博內(nèi)容過(guò)濾技術(shù)的研究現(xiàn)狀10-11
- 1.2.2 話(huà)題的傳播分析及熱點(diǎn)預(yù)測(cè)研究現(xiàn)狀11-12
- 1.3 本文的主要研究工作12
- 1.4 論文的內(nèi)容安排12-14
- 第二章 微博數(shù)據(jù)的準(zhǔn)備及預(yù)處理14-26
- 2.1 微博數(shù)據(jù)的爬取14-16
- 2.2 垃圾信息的過(guò)濾16-23
- 2.2.1 微博特征16-18
- 2.2.2 文本內(nèi)容的向量化18-20
- 2.2.3 過(guò)濾算法的實(shí)現(xiàn)20-22
- 2.2.4 實(shí)驗(yàn)效果評(píng)估22-23
- 2.3 微博話(huà)題的聚類(lèi)23-25
- 2.3.1 LDA模型建模23-24
- 2.3.2 話(huà)題聚類(lèi)24-25
- 2.4 本章小結(jié)25-26
- 第三章 話(huà)題的傳播分析與分類(lèi)模型26-48
- 3.1 話(huà)題的傳播分析26-40
- 3.1.1 話(huà)題傳播階段的劃分27-31
- 3.1.2 話(huà)題傳播中的用戶(hù)分析31-36
- 3.1.3 話(huà)題傳播中的微博分析36-40
- 3.2 分類(lèi)模型40-47
- 3.2.1 分類(lèi)的思想40-41
- 3.2.2 隨機(jī)模型41
- 3.2.3 類(lèi)別檢測(cè)41-45
- 3.2.4 算法的實(shí)現(xiàn)45-47
- 3.3 本章小結(jié)47-48
- 第四章 話(huà)題的熱點(diǎn)預(yù)測(cè)48-66
- 4.1 話(huà)題趨勢(shì)特征的構(gòu)建48-54
- 4.1.1 微博變化率48-49
- 4.1.2 數(shù)據(jù)規(guī)范化49-51
- 4.1.3 話(huà)題信號(hào)峰值處理51-53
- 4.1.4 話(huà)題信號(hào)對(duì)數(shù)處理53-54
- 4.2 在線(xiàn)話(huà)題距離的計(jì)算54-56
- 4.3 實(shí)驗(yàn)結(jié)果及分析56-64
- 4.3.1 算法的測(cè)試及參數(shù)分析57-60
- 4.3.2 案例分析60-64
- 4.4 本章小結(jié)64-66
- 第五章 總結(jié)與展望66-68
- 5.1 論文主要工作66-67
- 5.2 工作展望67-68
- 參考文獻(xiàn)68-71
- 致謝71-72
- 攻讀學(xué)位期間發(fā)表或已錄用的學(xué)術(shù)論文72
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前5條
1 李學(xué)明;李海瑞;薛亮;何光軍;;基于信息增益與信息熵的TFIDF算法[J];計(jì)算機(jī)工程;2012年08期
2 馬社祥,劉貴忠,曾召華;基于小波分析的非平穩(wěn)時(shí)間序列分析與預(yù)測(cè)[J];系統(tǒng)工程學(xué)報(bào);2000年04期
3 蘭月新;;突發(fā)事件網(wǎng)絡(luò)衍生輿情監(jiān)測(cè)模型研究[J];現(xiàn)代圖書(shū)情報(bào)技術(shù);2013年03期
4 韓忠明;張慧;張夢(mèng);;基于內(nèi)容的熱點(diǎn)話(huà)題傳播模型[J];智能系統(tǒng)學(xué)報(bào);2013年03期
5 王昊;李義萍;馮卓楠;馮鈴;;流行病模型在微博轉(zhuǎn)發(fā)預(yù)測(cè)中的應(yīng)用(英文)[J];中國(guó)通信;2013年03期
,本文編號(hào):999914
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/999914.html
最近更新
教材專(zhuān)著