基于聚類算法的文本挖掘研究
發(fā)布時間:2021-09-23 19:14
隨著移動互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)交互的現(xiàn)象越來越頻繁,而交互數(shù)據(jù)量也呈現(xiàn)指數(shù)形式增長。文本數(shù)據(jù)是這些交互數(shù)據(jù)的主要呈現(xiàn)方式,而在日常生活中,我們所接觸到的最多的文本數(shù)據(jù)形式則是短文本數(shù)據(jù)格式。在這樣的背景下,如何發(fā)掘出這些海量的短文本數(shù)據(jù)背后的關(guān)聯(lián)關(guān)系對于文本數(shù)據(jù)組織,文本數(shù)據(jù)歸類,基于文本數(shù)據(jù)的推薦系統(tǒng)的研發(fā)等方面都有著重要的意義。由于聚類技術(shù)可以發(fā)現(xiàn)數(shù)據(jù)之間的潛在關(guān)聯(lián),并形成相應的簇結(jié)構(gòu),因此短文本聚類問題也就成為了我們關(guān)注的焦點。短文本數(shù)據(jù)由于其所包含詞項少的特點造成了其特征提取困難等問題。將傳統(tǒng)文本聚類模型運用于短文本聚類問題上,往往無法得到有效的簇類結(jié)構(gòu),給后續(xù)應用研究帶來了不良影響。Word2Vec詞向量模型可以利用中心詞項的上下文信息來將中心詞項轉(zhuǎn)換為詞空間上的一個詞向量,相比于傳統(tǒng)的向量空間模型它在訓練詞向量時加入了語義環(huán)境的影響,體現(xiàn)出一定的優(yōu)越性,word2Vec詞向量模型思想認為上下文語境相似的詞項的語義也應該相似,使得語義相近的詞項,其對應的此空間上的詞向量也距離更近。在潛在語義分析模型(LSA),概率潛在語義分析模型(PLSA)基礎(chǔ)上發(fā)展形成的潛在迪利克...
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
文本聚類流程圖
前饋神經(jīng)網(wǎng)絡(luò)語言模型圖[4]
循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型圖[4]
【參考文獻】:
期刊論文
[1]不同特征對文本聚類效果的比較研究——以新聞文本為例[J]. 張旭,孫玉偉,成穎. 情報理論與實踐. 2020(01)
[2]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[3]融合HowNet和BTM模型的短文本聚類方法[J]. 陽小蘭,楊威,錢程,朱福喜. 計算機工程與設(shè)計. 2017(05)
[4]基于混合策略的中文短文本相似度計算[J]. 宋冬云,鄭瑾,張祖平. 計算機工程與應用. 2018(12)
[5]不同語料下基于LDA主題模型的科學文獻主題抽取效果分析[J]. 關(guān)鵬,王曰芬,傅柱. 圖書情報工作. 2016(02)
[6]基于同義詞詞林擴展的短文本分類[J]. 王東,熊世桓. 蘭州理工大學學報. 2015(04)
[7]一個利用小頂堆構(gòu)造哈夫曼樹的C++算法[J]. 付勇. 計算機應用與軟件. 2011(03)
[8]基于VSM的文本相似度計算的研究[J]. 郭慶琳,李艷梅,唐琦. 計算機應用研究. 2008(11)
[9]一種基于密度的自適應最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計算機學報. 2008(10)
本文編號:3406259
【文章來源】:電子科技大學四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
文本聚類流程圖
前饋神經(jīng)網(wǎng)絡(luò)語言模型圖[4]
循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型圖[4]
【參考文獻】:
期刊論文
[1]不同特征對文本聚類效果的比較研究——以新聞文本為例[J]. 張旭,孫玉偉,成穎. 情報理論與實踐. 2020(01)
[2]文本相似度計算方法研究綜述[J]. 陳二靜,姜恩波. 數(shù)據(jù)分析與知識發(fā)現(xiàn). 2017(06)
[3]融合HowNet和BTM模型的短文本聚類方法[J]. 陽小蘭,楊威,錢程,朱福喜. 計算機工程與設(shè)計. 2017(05)
[4]基于混合策略的中文短文本相似度計算[J]. 宋冬云,鄭瑾,張祖平. 計算機工程與應用. 2018(12)
[5]不同語料下基于LDA主題模型的科學文獻主題抽取效果分析[J]. 關(guān)鵬,王曰芬,傅柱. 圖書情報工作. 2016(02)
[6]基于同義詞詞林擴展的短文本分類[J]. 王東,熊世桓. 蘭州理工大學學報. 2015(04)
[7]一個利用小頂堆構(gòu)造哈夫曼樹的C++算法[J]. 付勇. 計算機應用與軟件. 2011(03)
[8]基于VSM的文本相似度計算的研究[J]. 郭慶琳,李艷梅,唐琦. 計算機應用研究. 2008(11)
[9]一種基于密度的自適應最優(yōu)LDA模型選擇方法[J]. 曹娟,張勇東,李錦濤,唐勝. 計算機學報. 2008(10)
本文編號:3406259
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3406259.html
最近更新
教材專著