基于語義相似度的群智能文本聚類方法研究
本文選題:文本聚類 + 語義相似度。 參考:《江蘇科技大學(xué)》2012年碩士論文
【摘要】:當(dāng)今世界正處于一個信息爆炸的時代,用戶查詢信息時常常被信息淹沒,迷失在信息中,這大大降低了檢索的效率。如何快速高效的進(jìn)行信息的分類管理,為用戶提供準(zhǔn)確有用的信息,是一個需要迫切解決的問題。在這樣的背景下,,文本挖掘技術(shù)正受到越來越多的關(guān)注。文本聚類是文本挖掘的一個重要組成部分,它是聚類方法在文本處理領(lǐng)域的重要應(yīng)用。 文本聚類由于不需要類別的信息,能自動完成文本分組,已經(jīng)得到廣泛應(yīng)用,如多文檔自動文摘系統(tǒng)、搜索引擎、數(shù)字圖書館等。目前大部分聚類算法是基于向量空間模型的,這使得文本聚類面臨高維性、高稀疏性和忽略語義信息的問題,影響了算法的性能和準(zhǔn)確性。 本文首先介紹了文本聚類中一些概念和方法,包括文本間距離計(jì)算、文本表示模型、文本預(yù)處理過程、聚類效果評價和常用的聚類算法等;接著介紹了《知網(wǎng)》的組織結(jié)構(gòu)、相關(guān)概念和語義相似度的計(jì)算方法,同時也提出了一種改進(jìn)的文本間相似度計(jì)算方法,將其和K-均值算法結(jié)合,通過實(shí)驗(yàn)數(shù)據(jù),證明了該方法的正確性;最后介紹了本文的兩種群智能算法,并提出了本文的基于語義相似度的群智能文本聚類算法。 在文本預(yù)處理的特征提取階段計(jì)算權(quán)重時,既考慮了詞頻和文檔頻率,也結(jié)合了詞的詞性和詞在文本中的位置這兩個因素;針對向量空間模型忽略了詞的語義信息的問題,本文利用《知網(wǎng)》,通過詞的語義信息,來計(jì)算文本相似度;針對前人研究的成果,提出了本文的算法,它是在文本相似度的基礎(chǔ)上,融合了K-均值算法、蟻群算法和模擬退火算法,利用了它們各自的優(yōu)點(diǎn),避免了各自的缺點(diǎn),通過實(shí)驗(yàn)數(shù)據(jù),可以看出該算法的有效性。
[Abstract]:Nowadays, the world is in an era of information explosion, when users search for information, they are often submerged by information and lost in information, which greatly reduces the efficiency of retrieval.How to manage information quickly and efficiently and provide users with accurate and useful information is an urgent problem.In this context, text mining technology is getting more and more attention.Text clustering is an important part of text mining, it is an important application of clustering method in the field of text processing.Text clustering has been widely used in many fields, such as multi-document automatic abstracting system, search engine, digital library and so on.At present, most clustering algorithms are based on vector space model, which makes text clustering face the problems of high dimension, high sparsity and neglecting semantic information, which affects the performance and accuracy of the algorithm.This paper first introduces some concepts and methods of text clustering, including text distance calculation, text representation model, text preprocessing process, clustering effect evaluation and common clustering algorithms, etc.At the same time, an improved method for calculating the similarity between texts is proposed, which is combined with the K-means algorithm. The experimental data show that the method is correct.Finally, this paper introduces two kinds of intelligent algorithms, and proposes a text clustering algorithm based on semantic similarity.When calculating the weight in the feature extraction stage of text preprocessing, we not only consider the word frequency and document frequency, but also combine the word's part of speech and the word's position in the text, and ignore the semantic information of the word in the vector space model.In this paper, the text similarity is calculated by the semantic information of words, and the algorithm of this paper is proposed, which is based on the similarity of the text, and combines the K-means algorithm, which is based on the text similarity.Ant colony algorithm and simulated annealing algorithm take advantage of their respective advantages and avoid their shortcomings. The validity of the algorithm can be seen from the experimental data.
【學(xué)位授予單位】:江蘇科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 熊忠陽;暴自強(qiáng);李智星;張玉芳;;結(jié)合LSA的中文譜聚類算法研究[J];計(jì)算機(jī)應(yīng)用研究;2010年03期
2 姜寧,史忠植;文本聚類中的貝葉斯后驗(yàn)?zāi)P瓦x擇方法[J];計(jì)算機(jī)研究與發(fā)展;2002年05期
3 韓臘萍,余雪麗;一個分布式入侵檢測系統(tǒng)框架設(shè)計(jì)[J];計(jì)算機(jī)工程;2004年13期
4 郭慶琳,樊孝忠;基于文本聚類和NLU的自動文摘系統(tǒng)的研究與實(shí)現(xiàn)[J];現(xiàn)代電力;2004年04期
5 郭慶琳,樊孝忠,柳長安;基于文本聚類和NLU的自動文摘研究[J];北京理工大學(xué)學(xué)報(bào);2005年08期
6 郭慶琳;樊孝忠;柳長安;;基于文本聚類的自動文摘系統(tǒng)的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2006年04期
7 鞏知樂;張德賢;;文本挖掘理論概述[J];福建電腦;2008年09期
8 姚清耘;劉功申;李翔;;基于向量空間模型的文本聚類算法[J];計(jì)算機(jī)工程;2008年18期
9 門國尊;;用于信息檢索的文本聚類技術(shù)[J];今日科苑;2008年20期
10 李眾;梁志劍;;一種改進(jìn)的文本聚類算法[J];陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年06期
相關(guān)會議論文 前10條
1 張猛;王大玲;于戈;;一種基于自動閾值發(fā)現(xiàn)的文本聚類方法[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2004年
2 關(guān)毅;王曉龍;;基于統(tǒng)計(jì)的漢語詞匯間語義相似度計(jì)算[A];語言計(jì)算與基于內(nèi)容的文本處理——全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
3 董婧靈;李芳;何婷婷;涂新輝;萬劍;;基于LDA模型的文本聚類研究[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
4 王樂;田李;賈焰;韓偉紅;;一個并行的文本聚類混合算法[A];第二十四屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報(bào)告篇)[C];2007年
5 張寶艷;王慶輝;;中文文本聚類的研究與實(shí)現(xiàn)[A];第一屆學(xué)生計(jì)算語言學(xué)研討會論文集[C];2002年
6 黃佳來;王立波;袁道敏;;基于語義相似度的查詢擴(kuò)展研究[A];浙江省電子學(xué)會2008年學(xué)術(shù)年會論文集[C];2008年
7 劉曉平;沈冠町;;協(xié)同討論觀點(diǎn)影響度分析方法及其應(yīng)用[A];全國第22屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2011)暨全國第3屆安全關(guān)鍵技術(shù)與應(yīng)用(SCA·2011)學(xué)術(shù)會議論文摘要集[C];2011年
8 張剛;周昭濤;王斌;;基于主題的分布式信息檢索研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
9 劉立;余正濤;王蒙;毛存禮;郭劍毅;;結(jié)合詞相關(guān)特征與流行學(xué)習(xí)的中文問句分類[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
10 劉寒磊;關(guān)毅;徐永東;;多文檔文摘中基于語義相似度的最大邊緣相關(guān)技術(shù)研究[A];全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會議(JSCL-2005)論文集[C];2005年
相關(guān)重要報(bào)紙文章 前2條
1 中國科學(xué)院計(jì)算技術(shù)研究所 王 斌;內(nèi)容為王[N];計(jì)算機(jī)世界;2004年
2 王培森;從Web挖到競爭情報(bào)[N];中國計(jì)算機(jī)報(bào);2003年
相關(guān)博士學(xué)位論文 前10條
1 劉宏哲;文本語義相似度計(jì)算方法研究[D];北京交通大學(xué);2012年
2 宋玲;語義相似度計(jì)算及其應(yīng)用研究[D];山東大學(xué);2009年
3 徐森;文本聚類集成關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年
4 孟憲軍;互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2009年
5 郝立麗;漢語文本數(shù)據(jù)挖掘[D];吉林大學(xué);2009年
6 倪興良;問答系統(tǒng)中的短文本聚類研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2011年
7 劉向威;NLP技術(shù)在中文信息檢索中的應(yīng)用研究[D];天津大學(xué);2005年
8 高茂庭;文本聚類分析若干問題研究[D];天津大學(xué);2007年
9 胡佳妮;文本挖掘中若干關(guān)鍵問題的研究[D];北京郵電大學(xué);2008年
10 宣照國;文本挖掘算法及其在知識管理中的應(yīng)用研究[D];大連理工大學(xué);2008年
相關(guān)碩士學(xué)位論文 前10條
1 尹睿;基于語義相似度的論文文本聚類算法研究[D];大連理工大學(xué);2009年
2 王曙光;基于蟻群的文本聚類算法的改進(jìn)研究[D];大連理工大學(xué);2006年
3 孫爽;基于語義相似度的文本聚類算法的研究[D];南京航空航天大學(xué);2007年
4 孔靜;基于語義和領(lǐng)域相關(guān)的文本聚類研究[D];中國石油大學(xué);2009年
5 何晏成;基于近鄰傳播和凝聚層次的文本聚類方法[D];哈爾濱工業(yè)大學(xué);2010年
6 張金;個性化信息檢索系統(tǒng)中文本聚類的研究[D];東北師范大學(xué);2010年
7 龐俊;基于確定話題和情感極性的博客文本聚類研究[D];武漢理工大學(xué);2010年
8 李梅;改進(jìn)的K均值算法在中文文本聚類中的研究[D];安徽大學(xué);2010年
9 王飛;基于蟻群優(yōu)化的模糊文本聚類算法研究[D];河南工業(yè)大學(xué);2010年
10 趙穎;基于Ontology的Web文本聚類研究[D];西華大學(xué);2011年
本文編號:1743872
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1743872.html