基于CFDP-LDA模型的主題聚合度研究
發(fā)布時間:2022-05-06 21:14
互聯(lián)網(wǎng)技術的快速發(fā)展有利于信息存儲、提取和傳播,使得大量的信息得以轉(zhuǎn)換為電子文檔的形式,從而可以有效的以半結(jié)構或者非結(jié)構化的數(shù)據(jù)類型保存,很大程度上緩解了大數(shù)據(jù)儲存和展現(xiàn)的困難,F(xiàn)如今如何對海量的文檔信息進行篩選和管理信息成為用戶的主要需求,文本挖掘正是基于以上需求發(fā)展起來的,成為當前的研究熱點。文本挖掘主要應用于主題挖掘、文本分類、文本聚類、情感分析、輿情分析等,針對不同的需求在各個領域發(fā)揮作用,其中主題挖掘是文本挖掘技術中不可或缺的重要部分。面對大量的無法直接進行分析的半結(jié)構化和非結(jié)構化數(shù)據(jù),想要對其進行信息檢索、信息過濾、情感分析等研究的基礎是進行主題挖掘。隨著數(shù)學、計算機語言、統(tǒng)計學等學科的交叉運用和發(fā)展,主題挖掘技術得到了很好的發(fā)展和完善。目前,主題模型因其完備的三層貝葉斯生成模型而具有優(yōu)良的統(tǒng)計特性,在主題挖掘研究中受到廣泛關注和推廣。主題模型的出現(xiàn)大大提高了文本主題挖掘的準確率,但是主題模型也存在一些難題,(1)主題個數(shù)問題,傳統(tǒng)的主題模型中主題個數(shù)是人為主觀設定,該方法不具備客觀性,主題個數(shù)設置的不同會導致主題挖掘結(jié)果發(fā)生很大變化;(2)主題聚合度問題,在傳統(tǒng)的主題模型...
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景與研究意義
1.1.1 研究背景
1.1.2 研究意義
1.2 主要貢獻與內(nèi)容安排
1.2.1 主要貢獻
1.2.2 內(nèi)容安排
第2章 文獻綜述
2.1 主題模型的發(fā)展
2.1.1 LSI模型
2.1.2 pLSA模型
2.1.3 LDA模型的拓展
2.2 文本主題聚合度研究綜述
第3章 相關基礎理論及模型構建
3.1 相關基礎理論
3.2 CFDP-LDA模型構建的總體方案
3.3 目標一致性證明
3.3.1 LDA模型的優(yōu)化目標
3.3.2 CFDP-LDA模型的一致性證明
3.4 CFDP-LDA模型的實現(xiàn)流程
第4章 基于CFDP-LDA模型的實證分析
4.1 實驗環(huán)境
4.2 數(shù)據(jù)預處理
4.3 CFDP-LDA模型的技術實現(xiàn)
4.4 實證分析
4.4.1 算法流程
4.4.2 實證結(jié)果可視化
4.4.3 比較分析
4.5 模型評價
第5章 總結(jié)與展望
5.1 本文總結(jié)
5.2 研究展望
參考文獻
致謝
個人簡歷、在學期間發(fā)表的學術論文及研究成果
【參考文獻】:
期刊論文
[1]基于文檔主題結(jié)構和詞圖迭代的關鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于頻繁詞網(wǎng)絡的LDA最優(yōu)主題個數(shù)選取方法[J]. 李菲菲,王移芝. 計算機技術與發(fā)展. 2018(08)
[3]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(01)
[4]基于LDA模型和多層聚類的微博話題檢測[J]. 劉紅兵,李文坤,張仰森. 計算機技術與發(fā)展. 2016(06)
[5]基于改進的LDA主題模型的微博用戶聚類研究[J]. 裴超,肖詩斌,江敏. 情報理論與實踐. 2016(03)
[6]一種結(jié)合有監(jiān)督學習的動態(tài)主題模型[J]. 蔣卓人,陳燕,高良才,湯幟,劉曉鐘. 北京大學學報(自然科學版). 2015(02)
[7]基于LDA-wSVM模型的文本分類研究[J]. 李鋒剛,梁鈺,GAO Xiao-zhi,ZENGER Kai. 計算機應用研究. 2015(01)
[8]基于LDA模型的科技期刊主題演化研究[J]. 李湘東,張嬌,袁滿. 情報雜志. 2014(07)
[9]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚江,高飛,于磊,丁鋒. 計算機應用研究. 2014(03)
[10]基于混合模型的文本主題-情感分析方法[J]. 樊娜,蔡皖東,趙煜. 華中科技大學學報(自然科學版). 2010(01)
碩士論文
[1]基于統(tǒng)計學習方法的高斯LDA模型的文本聚類研究[D]. 王宇.華僑大學 2017
[2]基于SOM的文本聚類模型研究[D]. 黎猛.華中科技大學 2011
本文編號:3651228
【文章頁數(shù)】:63 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 引言
1.1 研究背景與研究意義
1.1.1 研究背景
1.1.2 研究意義
1.2 主要貢獻與內(nèi)容安排
1.2.1 主要貢獻
1.2.2 內(nèi)容安排
第2章 文獻綜述
2.1 主題模型的發(fā)展
2.1.1 LSI模型
2.1.2 pLSA模型
2.1.3 LDA模型的拓展
2.2 文本主題聚合度研究綜述
第3章 相關基礎理論及模型構建
3.1 相關基礎理論
3.2 CFDP-LDA模型構建的總體方案
3.3 目標一致性證明
3.3.1 LDA模型的優(yōu)化目標
3.3.2 CFDP-LDA模型的一致性證明
3.4 CFDP-LDA模型的實現(xiàn)流程
第4章 基于CFDP-LDA模型的實證分析
4.1 實驗環(huán)境
4.2 數(shù)據(jù)預處理
4.3 CFDP-LDA模型的技術實現(xiàn)
4.4 實證分析
4.4.1 算法流程
4.4.2 實證結(jié)果可視化
4.4.3 比較分析
4.5 模型評價
第5章 總結(jié)與展望
5.1 本文總結(jié)
5.2 研究展望
參考文獻
致謝
個人簡歷、在學期間發(fā)表的學術論文及研究成果
【參考文獻】:
期刊論文
[1]基于文檔主題結(jié)構和詞圖迭代的關鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于頻繁詞網(wǎng)絡的LDA最優(yōu)主題個數(shù)選取方法[J]. 李菲菲,王移芝. 計算機技術與發(fā)展. 2018(08)
[3]LDA模型的優(yōu)化及其主題數(shù)量選擇研究——以科技文獻為例[J]. 王婷婷,韓滿,王宇. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2018(01)
[4]基于LDA模型和多層聚類的微博話題檢測[J]. 劉紅兵,李文坤,張仰森. 計算機技術與發(fā)展. 2016(06)
[5]基于改進的LDA主題模型的微博用戶聚類研究[J]. 裴超,肖詩斌,江敏. 情報理論與實踐. 2016(03)
[6]一種結(jié)合有監(jiān)督學習的動態(tài)主題模型[J]. 蔣卓人,陳燕,高良才,湯幟,劉曉鐘. 北京大學學報(自然科學版). 2015(02)
[7]基于LDA-wSVM模型的文本分類研究[J]. 李鋒剛,梁鈺,GAO Xiao-zhi,ZENGER Kai. 計算機應用研究. 2015(01)
[8]基于LDA模型的科技期刊主題演化研究[J]. 李湘東,張嬌,袁滿. 情報雜志. 2014(07)
[9]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚江,高飛,于磊,丁鋒. 計算機應用研究. 2014(03)
[10]基于混合模型的文本主題-情感分析方法[J]. 樊娜,蔡皖東,趙煜. 華中科技大學學報(自然科學版). 2010(01)
碩士論文
[1]基于統(tǒng)計學習方法的高斯LDA模型的文本聚類研究[D]. 王宇.華僑大學 2017
[2]基于SOM的文本聚類模型研究[D]. 黎猛.華中科技大學 2011
本文編號:3651228
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3651228.html
最近更新
教材專著