一種PST_LDA中文文本相似度計算方法
本文關鍵詞:一種PST_LDA中文文本相似度計算方法
更多相關文章: 詞性標注 LDA模型 PST_LDA模型 文本相似度計算
【摘要】:為了降低中文文本相似度計算方法的時間消耗、提高文本聚類的準確率,提出了一種PST_LDA(詞性標注潛在狄利克雷模型)中文文本相似度計算方法。首先,對文本中的名詞、動詞和其他詞進行詞性標注;然后,分別對名詞、動詞和其他詞建立相應的LDA主題模型;最后,按照一定的權重比例綜合這三個主題模型,計算文本之間的相似度。由于考慮了不同詞性的詞集對文本相似度計算的貢獻差異,利用文本的語義信息提高了文本聚類準確率。將分離后的三個詞集的LDA建模過程并行化,減少建模的時間消耗,提高文本聚類速度。在TanCorp-12數(shù)據(jù)集分別用LDA和PST_LDA方法進行中文文本相似度計算模擬實驗。實驗結果顯示,PST_LDA方法不僅減少了建模時間消耗,同時在聚類準確率上有一定的提高。
【作者單位】: 華中師范大學計算機學院;漢口學院計算機科學與技術學院;
【關鍵詞】: 詞性標注 LDA模型 PST_LDA模型 文本相似度計算
【分類號】:TP391.1
【正文快照】: 在中文信息處理中,文本相似度的計算廣泛應用于信息檢索、機器翻譯、自動問答系統(tǒng)、文本挖掘等領域,它是一個基礎而關鍵的問題,長期以來一直是人們研究的熱點。李艷梅[1]將文本建模為詞頻向量,用余弦相似度量等方法計算文本相似度。該方法由于沒有考慮文本中詞項的語義信息,計
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 王李冬;魏寶剛;袁杰;;基于概率主題模型的文檔聚類[J];電子學報;2012年11期
2 李瓊;陳利;王維虎;;基于SVM的手寫體數(shù)字快速識別方法研究[J];計算機技術與發(fā)展;2014年02期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 江雨燕;李平;王清;;基于共享背景主題的Labeled LDA模型[J];電子學報;2013年09期
2 丁宇新;燕澤權;馮威;薛成龍;周迪;;基于有監(jiān)督主題模型的排序學習算法[J];電子學報;2015年02期
3 歐陽繼紅;劉燕輝;李熙銘;周曉堂;;基于LDA的多粒度主題情感混合模型[J];電子學報;2015年09期
4 楊明;舒明雷;顧衛(wèi)東;郭強;周書旺;;基于超算平臺的公共Wi-Fi無線網(wǎng)絡無痕信息獲取與輿情分析系統(tǒng)研究[J];計算機科學;2013年03期
5 王春龍;張敬旭;;基于LDA的改進K-means算法在文本聚類中的應用[J];計算機應用;2014年01期
6 張鵬;謝曉堯;;基于改進的C-支持向量機的手寫體數(shù)字高識別率方法研究[J];貴州師范大學學報(自然科學版);2014年02期
7 崔君君;于林森;李鵬;;協(xié)同視覺信息與標注信息圖像聚類[J];哈爾濱理工大學學報;2014年02期
8 邱云飛;郭彌綸;邵良杉;;基于主題樹的微博突發(fā)話題檢測[J];計算機應用;2014年08期
9 張萬山;肖瑤;梁俊杰;余敦輝;;基于主題的Web文本聚類方法[J];計算機應用;2014年11期
10 仵博;馮延蓬;孟憲軍;江建舉;何國坤;;安防大數(shù)據(jù)下的分布式云計算模型[J];深圳職業(yè)技術學院學報;2014年01期
中國博士學位論文全文數(shù)據(jù)庫 前5條
1 徐軍;面向金融信息檢索的體裁分類與情感分析技術研究[D];哈爾濱工業(yè)大學;2011年
2 郭鴻志;多源語義知識庫融合方法研究[D];哈爾濱工業(yè)大學;2011年
3 陳曉美;網(wǎng)絡評論觀點知識發(fā)現(xiàn)研究[D];吉林大學;2014年
4 馬力;基于聚類分析的網(wǎng)絡用戶興趣挖掘方法研究[D];西安電子科技大學;2012年
5 肖智博;排序主題模型及其應用研究[D];大連海事大學;2014年
中國碩士學位論文全文數(shù)據(jù)庫 前7條
1 徐德;關于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘的一些關鍵技術研究[D];電子科技大學;2011年
2 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學;2010年
3 李超;基于Web的實例知識條目自動構建方法[D];哈爾濱工業(yè)大學;2010年
4 唐俊;復雜網(wǎng)絡在網(wǎng)絡新聞信息處理中的應用研究[D];西南交通大學;2012年
5 楊琳;基于社交網(wǎng)絡的用戶行為分析及預測[D];西安郵電大學;2013年
6 陳磊磊;面向智慧油田應用的數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2015年
7 李靖;IPTV平臺下新媒體用戶行為挖掘分析系統(tǒng)的設計與實現(xiàn)[D];云南大學;2015年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 董振東,董強;知網(wǎng)和漢語研究[J];當代語言學;2001年01期
2 劉銘;王曉龍;劉遠超;;基于語義的高維數(shù)據(jù)聚類技術[J];電子學報;2009年05期
3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期
4 劉挺,王開鑄;基于篇章多級依存結構的自動文摘研究[J];計算機研究與發(fā)展;1999年04期
5 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)[J];計算機工程與應用;2007年30期
6 奉國和;;SVM分類核函數(shù)及參數(shù)選擇比較[J];計算機工程與應用;2011年03期
7 陳圣兵;王曉峰;;基于樣本差異度的SVM訓練樣本縮減算法[J];計算機工程與應用;2012年07期
8 劉端陽;邱衛(wèi)杰;;基于SVM期望間隔的多標簽分類的主動學習[J];計算機科學;2011年04期
9 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期
10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設計[J];計算機應用;2005年04期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 姜維;統(tǒng)計中文詞法分析及其強化學習機制的研究[D];哈爾濱工業(yè)大學;2007年
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 王t熺,
本文編號:613526
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/613526.html