基于主題模型和聚類算法的網(wǎng)絡熱點話題發(fā)現(xiàn)
發(fā)布時間:2023-04-12 01:56
社交媒體的快速發(fā)展引發(fā)的網(wǎng)絡復雜性問題給網(wǎng)絡的研究帶來了很大挑戰(zhàn),網(wǎng)絡中出現(xiàn)的輿情問題此起彼伏,用戶可以隨時隨地發(fā)表自己的看法,這就積累了大量用戶產(chǎn)生的數(shù)據(jù)。如:圖片、文本、視頻等。這些數(shù)據(jù)中隱藏著很有價值的信息,它反映了當前網(wǎng)民關(guān)注的熱點話題,但是網(wǎng)絡的錯綜復雜使人們不能及時有效地獲取信息,如何準確發(fā)現(xiàn)網(wǎng)絡中的熱點話題成了學者們研究的重點問題。本文采集新浪微博數(shù)據(jù),通過對微博文本內(nèi)容、用戶轉(zhuǎn)發(fā)、評論等信息以及用戶特點相關(guān)屬性深入分析,主要工作如下:(1)針對傳統(tǒng)詞對主題模型在短文本處理時對所有詞采取同一處理,忽略用戶個性化問題,提出基于詞對主題模型的話題特征提取方法。首先,主題建模時引入用戶因素,將同一用戶產(chǎn)生的所有文本作為一個文檔;其次考慮背景詞和主題詞,刪掉無關(guān)背景詞,引入用戶的吉布斯采樣對模型參數(shù)推導;最后使用JS和余弦相似度聯(lián)合判斷話題是否為同一個分類,從而保證特征提取的準確度。(2)針對螢火蟲算法易陷入局部最優(yōu),迭代過程中容易跳過最優(yōu)解的問題,提出動態(tài)自適應步長螢火蟲算法。迭代初期較大步長保證以較快的速度定位在接近全局最優(yōu)解的范圍內(nèi),迭代后期以較小步長在最優(yōu)解附近尋優(yōu),從而...
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及主要工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)知識
2.1 網(wǎng)絡熱點話題發(fā)現(xiàn)概述
2.2 文本預處理
2.2.1 中文分詞
2.2.2 過濾停用詞
2.3 文本特征選擇
2.4 文本表示模型
2.4.1 基于Word2vec的文本表示模型
2.4.2 詞對主題模型
2.5 文本聚類算法
2.6 群智能算法
2.7 本章小結(jié)
第三章 基于詞對主題模型的話題特征提取
3.1 問題的提出
3.2 基于詞對主題模型的話題特征提取算法
3.2.1 算法概述
3.2.2 用戶BTM模型
3.2.3 模型推理
3.3 實驗與結(jié)果分析
3.3.1 實驗數(shù)據(jù)集及預處理
3.3.2 評價標準
3.3.3 算法比較及分析
3.4 本章小結(jié)
第四章 改進螢火蟲算法的模糊聚類網(wǎng)絡熱點話題發(fā)現(xiàn)
4.1 問題的提出
4.2 基于DASFA-FCM的網(wǎng)絡熱點話題發(fā)現(xiàn)
4.2.1 改進螢火蟲算法
4.2.2 FCM算法
4.2.3 適應度函數(shù)
4.2.4 算法描述
4.3 實驗結(jié)果及分析
4.3.1 實驗數(shù)據(jù)集
4.3.2 評價標準
4.3.3 不同算法性能比較和分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 工作總結(jié)
5.2 進一步要解決的問題
參考文獻
致謝
攻讀學位期間發(fā)表的論文
本文編號:3790190
【文章頁數(shù)】:65 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究內(nèi)容及主要工作
1.4 論文組織結(jié)構(gòu)
第二章 相關(guān)知識
2.1 網(wǎng)絡熱點話題發(fā)現(xiàn)概述
2.2 文本預處理
2.2.1 中文分詞
2.2.2 過濾停用詞
2.3 文本特征選擇
2.4 文本表示模型
2.4.1 基于Word2vec的文本表示模型
2.4.2 詞對主題模型
2.5 文本聚類算法
2.6 群智能算法
2.7 本章小結(jié)
第三章 基于詞對主題模型的話題特征提取
3.1 問題的提出
3.2 基于詞對主題模型的話題特征提取算法
3.2.1 算法概述
3.2.2 用戶BTM模型
3.2.3 模型推理
3.3 實驗與結(jié)果分析
3.3.1 實驗數(shù)據(jù)集及預處理
3.3.2 評價標準
3.3.3 算法比較及分析
3.4 本章小結(jié)
第四章 改進螢火蟲算法的模糊聚類網(wǎng)絡熱點話題發(fā)現(xiàn)
4.1 問題的提出
4.2 基于DASFA-FCM的網(wǎng)絡熱點話題發(fā)現(xiàn)
4.2.1 改進螢火蟲算法
4.2.2 FCM算法
4.2.3 適應度函數(shù)
4.2.4 算法描述
4.3 實驗結(jié)果及分析
4.3.1 實驗數(shù)據(jù)集
4.3.2 評價標準
4.3.3 不同算法性能比較和分析
4.4 本章小結(jié)
第五章 總結(jié)與展望
5.1 工作總結(jié)
5.2 進一步要解決的問題
參考文獻
致謝
攻讀學位期間發(fā)表的論文
本文編號:3790190
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3790190.html
最近更新
教材專著