基于Word2vec的微博熱點話題檢測技術(shù)研究
發(fā)布時間:2023-12-13 19:50
隨著Web2.0的高速發(fā)展及移動設(shè)備的大量普及,微博客(Microblog,簡稱微博)逐漸成為人們相互交流,獲取世界各地奇聞異事的重要途徑。越來越多的網(wǎng)民通過微博將情感和對某事件的看法表達出來,這樣就形成了不同于傳統(tǒng)新聞媒體的網(wǎng)絡(luò)輿情。從微博文本中挖掘有效信息、提取熱點對及時發(fā)現(xiàn)網(wǎng)絡(luò)輿情有深刻意義。因為微博文本具有字數(shù)少、上下文聯(lián)系不緊密的特點,在文本建模過程中會面臨嚴重的數(shù)據(jù)稀疏問題,從而影響話題檢測準(zhǔn)確度,所以對微博短文本的熱點話題檢測技術(shù)的研究非常有必要。本文圍繞微博短文本的建模以及話題檢測做了相關(guān)研究,主要工作如下。(1)獲取微博短文本以及預(yù)處理。為獲取更具話題性的微博,首先提出利用網(wǎng)絡(luò)爬蟲技術(shù),爬取具有影響力的大V賬號微博來獲取數(shù)據(jù),與通過官方平臺提供的接口獲取數(shù)據(jù)相比,網(wǎng)絡(luò)爬蟲更簡便且能獲取更多的數(shù)據(jù);隨后篩除內(nèi)容少的微博文本以減少冗余;最后利用結(jié)巴分詞對微博短文本分詞,并進—步去除其中的停用詞。(2)改進主題建模方法。針對微博短文本建立文本模型時面臨的數(shù)據(jù)稀疏問題以及擴充外部語料難的問題,提出了將特征詞輸入Word2vec的Skip-gram模型以訓(xùn)練詞向量,得到與特征詞...
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文工作
第2章 微博熱點話題檢測理論研究
2.1 詞向量
2.2 WORD2VEC工作原理
2.2.1 連續(xù)詞袋模型
2.2.2 Skip-gram模型
2.3 文本表示模型
2.3.1 向量空間模型
2.3.2 潛在語義分析模型
2.3.3 概率潛在語義分析模型
2.3.4 潛在狄利克雷分布模型
2.4 文本聚類算法介紹
2.4.1 基于劃分的聚類算法
2.4.2 基于層次的聚類算法
2.4.3 基于密度的聚類算法
2.4.4 基于網(wǎng)格的聚類算法
2.4.5 基于模型的聚類算法
2.4.6 基于模糊的聚類算法
2.5 本章小結(jié)
第3章 微博熱點話題檢測系統(tǒng)的研究
3.1 微博數(shù)據(jù)采集與預(yù)處理
3.1.1 爬蟲獲取微博短文本數(shù)據(jù)
3.1.2 去除噪聲
3.1.3 中文分詞
3.1.4 去除停用詞
3.2 基于WORD2VEC的LDA主題建模
3.3 改進的SINGLE-PASS聚類算法
3.4 凝聚式層次聚類再次聚類
3.5 本章小結(jié)
第4章 基于WORD2VEC的LDA主題建模
4.1 傳統(tǒng)LDA主題建模
4.2 基于WORD2VEC的LDA主題建模
4.2.1 基于Word2vec的LDA主題模型算法原理
4.2.2 基于Word2vec的LDA主題模型算法流程
4.2.3 基于Word2vec的LDA主題模型參數(shù)的選取
4.3 本章小結(jié)
第5章 基于LDA主題建模的微博熱點話題檢測
5.1 相似度計算
5.2 SINGLE-PASS增量聚類算法
5.3 話題初步檢測
5.4 熱點話題合并
5.5 微博熱點話題檢測
5.6 本章小結(jié)
第6章 實驗結(jié)果分析
6.1 微博數(shù)據(jù)采集
6.2 中文分詞
6.3 去除停用詞
6.4 基于WORD2VEC的LDA主題建模
6.5 話題檢測實驗結(jié)果與分析
6.6 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
致謝
參考文獻
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號:3873856
【文章頁數(shù)】:68 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 本文工作
第2章 微博熱點話題檢測理論研究
2.1 詞向量
2.2 WORD2VEC工作原理
2.2.1 連續(xù)詞袋模型
2.2.2 Skip-gram模型
2.3 文本表示模型
2.3.1 向量空間模型
2.3.2 潛在語義分析模型
2.3.3 概率潛在語義分析模型
2.3.4 潛在狄利克雷分布模型
2.4 文本聚類算法介紹
2.4.1 基于劃分的聚類算法
2.4.2 基于層次的聚類算法
2.4.3 基于密度的聚類算法
2.4.4 基于網(wǎng)格的聚類算法
2.4.5 基于模型的聚類算法
2.4.6 基于模糊的聚類算法
2.5 本章小結(jié)
第3章 微博熱點話題檢測系統(tǒng)的研究
3.1 微博數(shù)據(jù)采集與預(yù)處理
3.1.1 爬蟲獲取微博短文本數(shù)據(jù)
3.1.2 去除噪聲
3.1.3 中文分詞
3.1.4 去除停用詞
3.2 基于WORD2VEC的LDA主題建模
3.3 改進的SINGLE-PASS聚類算法
3.4 凝聚式層次聚類再次聚類
3.5 本章小結(jié)
第4章 基于WORD2VEC的LDA主題建模
4.1 傳統(tǒng)LDA主題建模
4.2 基于WORD2VEC的LDA主題建模
4.2.1 基于Word2vec的LDA主題模型算法原理
4.2.2 基于Word2vec的LDA主題模型算法流程
4.2.3 基于Word2vec的LDA主題模型參數(shù)的選取
4.3 本章小結(jié)
第5章 基于LDA主題建模的微博熱點話題檢測
5.1 相似度計算
5.2 SINGLE-PASS增量聚類算法
5.3 話題初步檢測
5.4 熱點話題合并
5.5 微博熱點話題檢測
5.6 本章小結(jié)
第6章 實驗結(jié)果分析
6.1 微博數(shù)據(jù)采集
6.2 中文分詞
6.3 去除停用詞
6.4 基于WORD2VEC的LDA主題建模
6.5 話題檢測實驗結(jié)果與分析
6.6 本章小結(jié)
第7章 總結(jié)與展望
7.1 總結(jié)
7.2 展望
致謝
參考文獻
攻讀碩士學(xué)位期間發(fā)表的論文及科研成果
本文編號:3873856
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3873856.html
最近更新
教材專著