基于優(yōu)化密度的耦合空間LDA文本聚類算法研究
本文選題:文本聚類 切入點:耦合空間模型 出處:《計算機應用研究》2017年07期
【摘要】:針對傳統(tǒng)的空間向量模型在進行文本表示時計算相似度僅采用詞頻統(tǒng)計來表示文本以及對高維文本數(shù)據(jù)聚類效果有所下降等問題,提出一種基于優(yōu)化密度的耦合空間LDA文本聚類算法。該算法利用提出的耦合空間模型和LDA主題模型線性融合計算文本相似度,并對閾值敏感問題進行優(yōu)化,確定不同密度區(qū)域對應的閾值半徑。實驗結果表明,與改進的DBSCAN文本聚類算法和R-DBSCAN文本聚類算法相比,該算法的文本聚類精度更高、聚類效果更優(yōu)。
[Abstract]:In order to solve the problem that the traditional spatial vector model only uses word frequency statistics to express the text and the clustering effect of the high-dimensional text data is decreased when the text is represented by the traditional spatial vector model.A coupled space LDA text clustering algorithm based on optimal density is proposed.The proposed algorithm uses the coupled space model and the LDA topic model to calculate the text similarity, and optimizes the threshold sensitivity problem to determine the threshold radius of different density regions.The experimental results show that compared with the improved DBSCAN text clustering algorithm and the R-DBSCAN text clustering algorithm, this algorithm has higher text clustering accuracy and better clustering effect.
【作者單位】: 遼寧工程技術大學電子與信息工程學院;
【基金】:國家自然科學基金資助項目(61402212) 遼寧省高等學校杰出青年學者成長計劃資助項目(LJQ2015045) 遼寧省自然科學基金資助項目(2015020098) 遼寧省教育廳城市研究院一般項目(LJCL008)
【分類號】:TP391.1
【相似文獻】
相關期刊論文 前10條
1 龔靜;李英杰;;文本聚類算法的分析與比較[J];湖南環(huán)境生物職業(yè)技術學院學報;2006年03期
2 李眾;梁志劍;;一種改進的文本聚類算法[J];陜西科技大學學報(自然科學版);2008年06期
3 甘克勤;叢超;張寶林;孫旭凱;;基于劃分的文本聚類算法在標準文獻中的試驗與對比研究[J];標準科學;2013年10期
4 莫紫娟;;試論短文本聚類算法在微博的應用[J];科技致富向導;2014年09期
5 史夢潔;;文本聚類算法綜述[J];現(xiàn)代計算機(專業(yè)版);2014年03期
6 張書敏;;短文本聚類算法研究[J];科技致富向導;2013年09期
7 朱君;曲超;湯庸;;利用單詞超團的二分圖文本聚類算法[J];電子科技大學學報;2008年03期
8 石曉敬;韓燮;;文本聚類算法的設計與實現(xiàn)[J];計算機工程與設計;2010年09期
9 殷風景;肖衛(wèi)東;葛斌;李芳芳;;一種面向網(wǎng)絡話題發(fā)現(xiàn)的增量文本聚類算法[J];計算機應用研究;2011年01期
10 李巖;婁云;;文本聚類算法在輿情監(jiān)控中的應用分析[J];電子設計工程;2013年01期
相關會議論文 前1條
1 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國數(shù)據(jù)庫學術會議論文集(技術報告篇)[C];2006年
相關碩士學位論文 前10條
1 范新梅;基于微博的輿情分析系統(tǒng)設計與實現(xiàn)[D];河北科技大學;2015年
2 程楊;中文短文本聚類算法的研究[D];吉林大學;2016年
3 汪丹丹;中文文本聚類算法研究[D];蘇州大學;2016年
4 李解;面向個性化主題的半監(jiān)督文本聚類算法研究[D];貴州大學;2016年
5 林紅靜;基于K-means的微博短文本聚類算法研究[D];海南大學;2016年
6 趙彬;基于語義的短文本聚類算法研究[D];遼寧工程技術大學;2015年
7 陳可;文本聚類算法及其在話題發(fā)現(xiàn)中的應用研究[D];北方工業(yè)大學;2017年
8 馬文超;基于2度頻繁詞序列的文本聚類算法研究[D];河南大學;2009年
9 劉龍海;基于成對約束的半監(jiān)督文本聚類算法研究[D];重慶大學;2011年
10 黃文江;中文文本聚類算法分析與研究[D];上海交通大學;2010年
,本文編號:1713313
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1713313.html