結(jié)合概率潛在語(yǔ)義分析的文本譜聚類研究
本文選題:聚類分析 + 譜聚類; 參考:《重慶大學(xué)》2012年碩士論文
【摘要】:聚類分析是當(dāng)前數(shù)據(jù)挖掘領(lǐng)域中一個(gè)研究熱點(diǎn),已經(jīng)被廣泛應(yīng)用于搜索引擎、科學(xué)數(shù)據(jù)探測(cè)、信息過(guò)濾、Web分析、圖像處理等領(lǐng)域。譜聚類算法作為一種新穎的聚類分析算法,與傳統(tǒng)的聚類方法相比,該方法不僅可以處理復(fù)雜的數(shù)據(jù)類型,將聚類問(wèn)題轉(zhuǎn)換為代數(shù)問(wèn)題進(jìn)行求解;而且它簡(jiǎn)單易實(shí)現(xiàn),可以在任意形狀簇的樣本空間上進(jìn)行聚類,具有辨別非凸組合的能力并能在全局上獲取最優(yōu)解。 然而,,譜聚類算法也存在一些不足。譜聚類中的相似矩陣一般建立在向量空間模型之上,該模型忽略了詞的同義、多義的問(wèn)題,造成了信息的大量冗余;此外,譜聚類對(duì)高斯函數(shù)中的尺度參數(shù)十分敏感,使得譜聚類的性能很不穩(wěn)定。 為了解決上述問(wèn)題,本文首先用概率潛在語(yǔ)義分析方法提取潛藏語(yǔ)義信息,以彌補(bǔ)向量空間模型中缺乏語(yǔ)義信息描述的缺陷;然后,利用夾角余弦計(jì)算相似度的方法構(gòu)造相似矩陣,以消除尺度參數(shù)對(duì)譜聚類的影響。最后,將改進(jìn)后的方法運(yùn)用到文本譜聚類上。在此過(guò)程中,本文主要研究工作如下: ①分析了當(dāng)前向量空間模型中存在的不足:一是該模型忽略了詞語(yǔ)之間存在的多義性和同義性的問(wèn)題,造成了特征冗余;二是由于文本特征項(xiàng)的高維性,在對(duì)文本數(shù)據(jù)的處理時(shí)就需要消耗大量時(shí)間;針對(duì)這些問(wèn)題,提出結(jié)合概率潛在語(yǔ)義分析的譜聚類算法。 ②研究了譜聚類算法的有關(guān)背景理論知識(shí)和方法,并總結(jié)了譜聚類算法的一般處理過(guò)程,深入分析了譜聚類中相似矩陣的構(gòu)造問(wèn)題。 ③傳統(tǒng)譜聚類算法中相似度的計(jì)算采用的是高斯函數(shù),該方法需要根據(jù)經(jīng)驗(yàn)人為初始化尺度參數(shù),使得該函數(shù)具有一定的局限性,影響譜聚類的性能。本文沒(méi)有專門研究對(duì)尺度參數(shù)的優(yōu)化,而是用夾角余弦方法計(jì)算文本之間的相似度,來(lái)避免尺度參數(shù)人為選擇引起的不足,提高譜聚類的性能。 最后,在重新構(gòu)造的相似矩陣上進(jìn)行文本譜聚類,并進(jìn)行實(shí)驗(yàn)分析,采用聚類準(zhǔn)確度和互信息指標(biāo)評(píng)價(jià)實(shí)驗(yàn)結(jié)果,在該評(píng)價(jià)指標(biāo)上,本文提出的在語(yǔ)義空間上采用夾角余弦計(jì)算文本之間相似度的方法相比于原來(lái)的方法,得到的譜聚類效果更好、性能更穩(wěn)定。結(jié)果表明本文提出的改進(jìn)方法是可行性的。
[Abstract]:Clustering analysis is a research hotspot in the field of data mining, which has been widely used in search engine, scientific data detection, information filtering Web analysis, image processing and other fields. Spectral clustering algorithm is a novel clustering analysis algorithm. Compared with the traditional clustering method, this method can not only deal with complex data types and transform the clustering problem into algebraic problems, but also be simple and easy to implement. Clustering can be carried out on the sample space of arbitrary shape clusters, which has the ability to distinguish non-convex combinations and to obtain the optimal solution globally. However, the spectral clustering algorithm also has some shortcomings. The similarity matrix in spectral clustering is generally based on the vector space model, which neglects the synonyms and polysemes of words, resulting in a great deal of redundancy of information. In addition, spectral clustering is very sensitive to the scale parameters in Gao Si function. The performance of spectral clustering is unstable. In order to solve the above problems, this paper firstly uses probabilistic latent semantic analysis method to extract latent semantic information to make up for the lack of semantic information description in vector space model. In order to eliminate the influence of scale parameters on spectral clustering, the similarity matrix is constructed by using angle cosine to calculate similarity. Finally, the improved method is applied to text spectral clustering. In this process, the main work of this paper is as follows: 1. The shortcomings of the current vector space model are analyzed. One is that the model ignores the problems of polysemy and synonym between words, resulting in feature redundancy; Second, because of the high dimension of text feature, it takes a lot of time to process text data. A spectral clustering algorithm based on probabilistic latent semantic analysis is proposed. 2 the background theoretical knowledge and methods of spectral clustering algorithm are studied, and the general processing process of spectral clustering algorithm is summarized. In this paper, the problem of constructing similarity matrix in spectral clustering is deeply analyzed. (3) in the traditional spectral clustering algorithm, the similarity is calculated by Gao Si function, which needs to initialize the scale parameters according to the experience. This function has some limitations and affects the performance of spectral clustering. This paper does not focus on the optimization of scale parameters, but uses the angle cosine method to calculate the similarity between texts to avoid the shortcomings caused by the artificial selection of scale parameters and to improve the performance of spectral clustering. Finally, the text spectrum clustering is carried out on the reconstructed similarity matrix, and the experimental analysis is carried out. The experimental results are evaluated by clustering accuracy and mutual information index. Compared with the original method, the proposed method using angle cosine to calculate the similarity of text in semantic space has better spectral clustering effect and more stable performance. The results show that the improved method proposed in this paper is feasible.
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:TP391.1
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張婧;李玨峰;;數(shù)據(jù)挖掘技術(shù)在BBS管理中的應(yīng)用[J];福建電腦;2008年04期
2 大魚(yú)兒;;自動(dòng)擴(kuò)展大小的TEdit[J];軟件;2001年07期
3 趙春紅;劉國(guó)華;王檸;何玲玲;;外包數(shù)據(jù)庫(kù)模型中文本數(shù)據(jù)的完整性檢測(cè)方案[J];小型微型計(jì)算機(jī)系統(tǒng);2010年09期
4 仲志平;劉渝妍;翟從鴻;;基于BWC的XML文本數(shù)據(jù)索引技術(shù)[J];安徽師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
5 仲志平;劉渝妍;孫建洪;;基于BWC的XML文本數(shù)據(jù)索引技術(shù)研究[J];昆明學(xué)院學(xué)報(bào);2011年03期
6 杜德生;田小軍;;Lucene應(yīng)用中Pdf文檔文本數(shù)據(jù)提取方法研究[J];自動(dòng)化技術(shù)與應(yīng)用;2009年03期
7 王成強(qiáng);;基于不平衡數(shù)據(jù)集的文本分類技術(shù)[J];電腦知識(shí)與技術(shù);2009年36期
8 孫開(kāi)放;使用通信控件實(shí)現(xiàn)字節(jié)通信方式[J];微計(jì)算機(jī)信息;2002年03期
9 薛冰冰,普杰信;數(shù)據(jù)挖掘技術(shù)及其在電子郵件中的應(yīng)用[J];信息技術(shù);2003年07期
10 崔時(shí)珍;;純文本數(shù)據(jù)在VFP中導(dǎo)入導(dǎo)出[J];電腦學(xué)習(xí);2009年01期
相關(guān)會(huì)議論文 前10條
1 宋曉雷;王素格;李紅霞;;基于概率潛在語(yǔ)義分析的詞匯情感傾向判別[A];第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2010年
2 陳光強(qiáng);楊樹(shù)強(qiáng);張曉輝;李潤(rùn)恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國(guó)信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年
3 劉昌鈺;郭穎;唐常杰;翟靜;李海宏;;基于潛在語(yǔ)義分析與Bayes分類的BBS文檔鑒別[A];第十八屆全國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年
4 丁兆云;賈焰;周斌;;基于文本數(shù)據(jù)的多維層次式輿情計(jì)算模型的研究與實(shí)現(xiàn)[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(一)[C];2008年
5 龍長(zhǎng)江;萬(wàn)鵬;;近紅外檢測(cè)技術(shù)在中藥研究中的應(yīng)用[A];中國(guó)農(nóng)業(yè)工程學(xué)會(huì)2011年學(xué)術(shù)年會(huì)論文集[C];2011年
6 任紀(jì)生;王作英;趙敏;;基于潛在語(yǔ)義信息的漢語(yǔ)語(yǔ)音識(shí)別方法[A];中文信息處理技術(shù)研討會(huì)論文集[C];2004年
7 耿煥同;吳祥;畢碩本;;基于潛在語(yǔ)義分析的BBS主題發(fā)現(xiàn)算法研究[A];計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展·2007——全國(guó)第18屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2007年
8 蔣勇;陳曉靜;;一種多方向手寫(xiě)文本行提取方法[A];第二十七屆中國(guó)控制會(huì)議論文集[C];2008年
9 蔡嘉榮;印鑒;劉玉葆;黃志蘭;;一種有效的文本聚類算法[A];第二十三屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(技術(shù)報(bào)告篇)[C];2006年
10 楊艷;李巍;玄萍;;數(shù)字圖書(shū)館中基于Ontology的文本模型[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年
相關(guān)重要報(bào)紙文章 前10條
1 曾華q
本文編號(hào):2019200
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2019200.html