LDA模型穩(wěn)定性的研究及其改進
發(fā)布時間:2021-05-20 21:28
主題模型能夠提取文本數(shù)據(jù)中潛在的主題,進而根據(jù)每篇文本所屬的主題對大規(guī)模文檔集進行聚類。一個廣泛使用的主題模型是LDA(Latent Dirichlet allocation)模型,但是LDA模型存在“順序效應”,也就是說,如果建模時改變文本數(shù)據(jù)的讀入順序,模型會產(chǎn)生不同的主題,文本也可能會被劃分到不同的主題中。這種“順序效應”使結果具有誤導性,嚴重降低文本挖掘的效率和準確性。有學者曾提出基于遺傳進化算法(Genetic algorithms)的LDA模型,在某種程度上提高了模型的穩(wěn)定性,但這種基于遺傳進化算法的LDA模型收斂速度相對較慢,易陷入局部最優(yōu)解,且對聚類結果的解釋性較差。針對這些不足,本文應用差分進化算法對LDA模型的相關參數(shù)進行優(yōu)化,并將優(yōu)化之后的模型稱為LDA-DE模型。在建立LDA-DE模型之后,本文定義了描述模型穩(wěn)定性的概念:主題穩(wěn)定度,之后以主題穩(wěn)定度和文本聚類的準確度作為模型評價指標,對LDA模型和LDA-DE模型的建模結果進行對比。結果表明,LDA-DE模型具有更高的主題穩(wěn)定度和準確度。最后,本文以“2019年315消費者權益日”熱點新聞為語料庫,建立LDA模...
【文章來源】:中國石油大學(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 研究內(nèi)容
第2章 理論基礎
2.1 前置知識
2.1.1 Beta分布
2.1.2 Dirichlet分布
2.1.3 共軛先驗分布
2.2 記號和術語
2.3 LDA模型
2.4 LDA模型與可交換性
2.5 推斷和參數(shù)估計
2.5.1 推斷
2.5.2 變分推斷
2.5.3 參數(shù)估計
第3章 基于差分進化算法的LDA-DE模型
3.1 LDA模型參數(shù)
3.2 LDA模型的不穩(wěn)定性
3.3 差分進化算法
3.4 LDA-DE模型
3.5 本章小結
第4章 LDA-DE模型的熱點新聞發(fā)現(xiàn)
4.1 LDA-DE模型用于熱點新聞主題挖掘
4.2 數(shù)據(jù)來源
4.3 數(shù)據(jù)預處理
4.4 模型比較與選擇
4.5 主題挖掘
第5章 總結與展望
參考文獻
附錄 A.推斷與參數(shù)估計
A.1 計算E_q[log(θ_i)|γ]
A.2 變分推斷
A.3 E步
A.3.1 求解φ_(n,i)
A.3.2 求解γ_i
A.4 M步
致謝
【參考文獻】:
期刊論文
[1]基于GV-LDA的微博話題檢測研究[J]. 李少華,李衛(wèi)疆,余正濤. 軟件導刊. 2018(02)
本文編號:3198457
【文章來源】:中國石油大學(北京)北京市 211工程院校 教育部直屬院校
【文章頁數(shù)】:57 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 研究背景
1.2 研究意義
1.3 研究現(xiàn)狀
1.4 研究內(nèi)容
第2章 理論基礎
2.1 前置知識
2.1.1 Beta分布
2.1.2 Dirichlet分布
2.1.3 共軛先驗分布
2.2 記號和術語
2.3 LDA模型
2.4 LDA模型與可交換性
2.5 推斷和參數(shù)估計
2.5.1 推斷
2.5.2 變分推斷
2.5.3 參數(shù)估計
第3章 基于差分進化算法的LDA-DE模型
3.1 LDA模型參數(shù)
3.2 LDA模型的不穩(wěn)定性
3.3 差分進化算法
3.4 LDA-DE模型
3.5 本章小結
第4章 LDA-DE模型的熱點新聞發(fā)現(xiàn)
4.1 LDA-DE模型用于熱點新聞主題挖掘
4.2 數(shù)據(jù)來源
4.3 數(shù)據(jù)預處理
4.4 模型比較與選擇
4.5 主題挖掘
第5章 總結與展望
參考文獻
附錄 A.推斷與參數(shù)估計
A.1 計算E_q[log(θ_i)|γ]
A.2 變分推斷
A.3 E步
A.3.1 求解φ_(n,i)
A.3.2 求解γ_i
A.4 M步
致謝
【參考文獻】:
期刊論文
[1]基于GV-LDA的微博話題檢測研究[J]. 李少華,李衛(wèi)疆,余正濤. 軟件導刊. 2018(02)
本文編號:3198457
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3198457.html
最近更新
教材專著