一種PST_LDA中文文本相似度計算方法

發(fā)布時間：2017-08-03 09:06

本文關鍵詞：一種PST_LDA中文文本相似度計算方法

【摘要】：為了降低中文文本相似度計算方法的時間消耗、提高文本聚類的準確率,提出了一種PST_LDA(詞性標注潛在狄利克雷模型)中文文本相似度計算方法。首先,對文本中的名詞、動詞和其他詞進行詞性標注;然后,分別對名詞、動詞和其他詞建立相應的LDA主題模型;最后,按照一定的權重比例綜合這三個主題模型,計算文本之間的相似度。由于考慮了不同詞性的詞集對文本相似度計算的貢獻差異,利用文本的語義信息提高了文本聚類準確率。將分離后的三個詞集的LDA建模過程并行化,減少建模的時間消耗,提高文本聚類速度。在TanCorp-12數(shù)據(jù)集分別用LDA和PST_LDA方法進行中文文本相似度計算模擬實驗。實驗結果顯示,PST_LDA方法不僅減少了建模時間消耗,同時在聚類準確率上有一定的提高。
【作者單位】：華中師范大學計算機學院;漢口學院計算機科學與技術學院;
【關鍵詞】： 詞性標注 LDA模型 PST_LDA模型 文本相似度計算
【分類號】：TP391.1
【正文快照】： 在中文信息處理中,文本相似度的計算廣泛應用于信息檢索、機器翻譯、自動問答系統(tǒng)、文本挖掘等領域,它是一個基礎而關鍵的問題,長期以來一直是人們研究的熱點。李艷梅[1]將文本建模為詞頻向量,用余弦相似度量等方法計算文本相似度。該方法由于沒有考慮文本中詞項的語義信息,計

【參考文獻】

中國期刊全文數(shù)據(jù)庫前2條

1 王李冬;魏寶剛;袁杰;;基于概率主題模型的文檔聚類[J];電子學報;2012年11期

2 李瓊;陳利;王維虎;;基于SVM的手寫體數(shù)字快速識別方法研究[J];計算機技術與發(fā)展;2014年02期

中國博士學位論文全文數(shù)據(jù)庫前1條

1 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術研究[D];哈爾濱工業(yè)大學;2009年

【共引文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 江雨燕;李平;王清;;基于共享背景主題的Labeled LDA模型[J];電子學報;2013年09期

2 丁宇新;燕澤權;馮威;薛成龍;周迪;;基于有監(jiān)督主題模型的排序學習算法[J];電子學報;2015年02期

3 歐陽繼紅;劉燕輝;李熙銘;周曉堂;;基于LDA的多粒度主題情感混合模型[J];電子學報;2015年09期

4 楊明;舒明雷;顧衛(wèi)東;郭強;周書旺;;基于超算平臺的公共Wi-Fi無線網(wǎng)絡無痕信息獲取與輿情分析系統(tǒng)研究[J];計算機科學;2013年03期

5 王春龍;張敬旭;;基于LDA的改進K-means算法在文本聚類中的應用[J];計算機應用;2014年01期

6 張鵬;謝曉堯;;基于改進的C-支持向量機的手寫體數(shù)字高識別率方法研究[J];貴州師范大學學報(自然科學版);2014年02期

7 崔君君;于林森;李鵬;;協(xié)同視覺信息與標注信息圖像聚類[J];哈爾濱理工大學學報;2014年02期

8 邱云飛;郭彌綸;邵良杉;;基于主題樹的微博突發(fā)話題檢測[J];計算機應用;2014年08期

9 張萬山;肖瑤;梁俊杰;余敦輝;;基于主題的Web文本聚類方法[J];計算機應用;2014年11期

10 仵博;馮延蓬;孟憲軍;江建舉;何國坤;;安防大數(shù)據(jù)下的分布式云計算模型[J];深圳職業(yè)技術學院學報;2014年01期

中國博士學位論文全文數(shù)據(jù)庫前5條

1 徐軍;面向金融信息檢索的體裁分類與情感分析技術研究[D];哈爾濱工業(yè)大學;2011年

2 郭鴻志;多源語義知識庫融合方法研究[D];哈爾濱工業(yè)大學;2011年

3 陳曉美;網(wǎng)絡評論觀點知識發(fā)現(xiàn)研究[D];吉林大學;2014年

4 馬力;基于聚類分析的網(wǎng)絡用戶興趣挖掘方法研究[D];西安電子科技大學;2012年

5 肖智博;排序主題模型及其應用研究[D];大連海事大學;2014年

中國碩士學位論文全文數(shù)據(jù)庫前7條

1 徐德;關于互聯(lián)網(wǎng)文本數(shù)據(jù)挖掘的一些關鍵技術研究[D];電子科技大學;2011年

2 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學;2010年

3 李超;基于Web的實例知識條目自動構建方法[D];哈爾濱工業(yè)大學;2010年

4 唐俊;復雜網(wǎng)絡在網(wǎng)絡新聞信息處理中的應用研究[D];西南交通大學;2012年

5 楊琳;基于社交網(wǎng)絡的用戶行為分析及預測[D];西安郵電大學;2013年

6 陳磊磊;面向智慧油田應用的數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[D];北京郵電大學;2015年

7 李靖;IPTV平臺下新媒體用戶行為挖掘分析系統(tǒng)的設計與實現(xiàn)[D];云南大學;2015年

【二級參考文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 董振東,董強;知網(wǎng)和漢語研究[J];當代語言學;2001年01期

2 劉銘;王曉龍;劉遠超;;基于語義的高維數(shù)據(jù)聚類技術[J];電子學報;2009年05期

3 王琦,唐世渭,楊冬青,王騰蛟;基于DOM的網(wǎng)頁主題信息自動提取[J];計算機研究與發(fā)展;2004年10期

4 劉挺,王開鑄;基于篇章多級依存結構的自動文摘研究[J];計算機研究與發(fā)展;1999年04期

5 李蕾;王勁林;白鶴;胡晶晶;;基于FFT的網(wǎng)頁正文提取算法研究與實現(xiàn)[J];計算機工程與應用;2007年30期

6 奉國和;;SVM分類核函數(shù)及參數(shù)選擇比較[J];計算機工程與應用;2011年03期

7 陳圣兵;王曉峰;;基于樣本差異度的SVM訓練樣本縮減算法[J];計算機工程與應用;2012年07期

8 劉端陽;邱衛(wèi)杰;;基于SVM期望間隔的多標簽分類的主動學習[J];計算機科學;2011年04期

9 曹娟;張勇東;李錦濤;唐勝;;一種基于密度的自適應最優(yōu)LDA模型選擇方法[J];計算機學報;2008年10期

10 于滿泉,陳鐵睿,許洪波;基于分塊的網(wǎng)頁信息解析器的研究與設計[J];計算機應用;2005年04期

中國博士學位論文全文數(shù)據(jù)庫前1條

1 姜維;統(tǒng)計中文詞法分析及其強化學習機制的研究[D];哈爾濱工業(yè)大學;2007年

中國碩士學位論文全文數(shù)據(jù)庫前1條

1 王t熺，

本文編號：613526

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/613526.html

上一篇：基于主特征提取的Retinex多譜段圖像增強
下一篇：基于蟻群算法的模糊C均值聚類的改進研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

一種PST_LDA中文文本相似度計算方法