基于主題相似度的短文本分類方法研究
本文選題:短文本 + 主題相似度; 參考:《華中師范大學(xué)》2017年碩士論文
【摘要】:在互聯(lián)網(wǎng)廣泛應(yīng)用的影響下,特別是微信、微博、問答系統(tǒng)等新媒體的出現(xiàn)使得互聯(lián)網(wǎng)每天產(chǎn)生海量的短文本信息。這些短文本的長度短、內(nèi)容少、用詞不規(guī)范、數(shù)據(jù)量龐大而且屬于半結(jié)構(gòu)化的信息數(shù)據(jù)。把長文本的處理方法直接應(yīng)用于短文本的文本挖掘中,難以取得令人滿意的文本挖掘效果。因此,如何準(zhǔn)確、實時、高效的挖掘短文本中隱藏的信息,是目前中文信息處理與文本挖掘討論與研究的熱點。短文本具有結(jié)構(gòu)短、文本內(nèi)容少、數(shù)量龐大、語義不明顯等特點,導(dǎo)致短文本的分類面臨特征稀疏、噪聲多、上下文依賴強等問題;谒阉饕娴亩涛谋痉诸惙椒,分類結(jié)果比較依賴搜索引擎;基于大規(guī)模語料庫的分類方法,比較依賴外部語料庫。本文在分析短文本特點的基礎(chǔ)上,根據(jù)目前短文本分類方法存在的缺陷,從短文本的建模矩陣特征稀疏、短文本上下文依賴性強等問題進行切入,探索根據(jù)主題判斷短文本的相似度從而實現(xiàn)分類。首先,研究文獻資料,分析中文文本分類的理論和方法,著重分析短文本分類方法。在分析基于VSM的傳統(tǒng)短文本分類方法時,發(fā)現(xiàn)短文本建模的特征矩陣稀疏、維度高不利于準(zhǔn)確分類,因此設(shè)計一種基于主題相似度的分類算法。應(yīng)用主題挖掘的理論和方法,采用LDA概率模型來估算短文本的主題概率分布向量。其次,針對傳統(tǒng)KNN算法在分類過程中,計算量特別大,處理文本集龐大的短文本集時,計算量會更大。本文根據(jù)局部敏感哈希解決ANN問題的優(yōu)點,構(gòu)建改進LSH的KNN分類器,實現(xiàn)從主題層面上對短文本的快速分類。最后,本文從理論上敘述了構(gòu)建改進LSH的KNN分類器,能夠在一定程度上提高分類效果,減少分類時間。本文根據(jù)構(gòu)建的分類器和文本分類方法,在Linux環(huán)境下建模,利用MATLAB實現(xiàn)分類,設(shè)計基于VSM分類方法的對比實驗,對最終的實驗結(jié)果對比,得出本文基于主題相似度的分類方法整體分類性能較好。
[Abstract]:Under the influence of the wide application of the Internet, especially the emergence of new media, such as WeChat, Weibo, Question-answering system, etc.These short texts are short in length, small in content, nonstandard in terms, large in data volume and semi-structured information data.It is difficult to obtain satisfactory text mining effect by directly applying the long text processing method to the text mining of short text.Therefore, how to accurately, real-time and efficiently mine hidden information in short text is a hot topic in the discussion and research of Chinese information processing and text mining.Short text text has the characteristics of short structure, less text content, large quantity and unobvious semantics, which leads to the problems of sparse feature, high noise and strong context-dependent in short text classification.Based on search engine, the classification result depends on search engine, and the classification method based on large-scale corpus relies on external corpus.Based on the analysis of the characteristics of the short text, according to the shortcomings of the current short text classification methods, this paper analyzes the sparse features of the modeling matrix of the short text and the strong context-dependent characteristics of the short text.This paper explores how to judge the similarity of short text according to the topic, so as to realize classification.Firstly, the paper studies the literature, analyzes the theory and method of Chinese text classification, and focuses on the text classification method.When analyzing the traditional short text classification method based on VSM, it is found that the feature matrix of short text modeling is sparse and the dimension is high, so a classification algorithm based on topic similarity is designed.Using the theory and method of topic mining, LDA probability model is used to estimate the topic probability distribution vector of short text.Secondly, for the traditional KNN algorithm in the process of classification, the computation is especially large, when dealing with the text set of large short text set, the computation will be more.Based on the advantages of locally sensitive hash to solve the ANN problem, this paper constructs an improved KNN classifier for LSH, and realizes the fast classification of short text at the topic level.Finally, this paper describes theoretically the construction of an improved LSH KNN classifier, which can improve the classification effect and reduce the classification time to a certain extent.In this paper, according to the classifier and text classification method, we model in Linux environment, use MATLAB to realize classification, design a comparative experiment based on VSM classification method, and compare the final experimental results.It is concluded that the classification method based on topic similarity in this paper has better overall classification performance.
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP391.1
【參考文獻】
相關(guān)期刊論文 前8條
1 陳靜;徐波;王甜甜;陸泉;;基于hLDA的圖書內(nèi)部主題層次組織研究[J];圖書情報工作;2016年18期
2 黃嬋;;基于LDA主題模型的短文本結(jié)構(gòu)化分類研究[J];信息系統(tǒng)工程;2016年07期
3 戴月明;張朋;吳定會;;基于密度檢測的EM算法[J];計算機應(yīng)用研究;2016年09期
4 杜選;;基于加權(quán)補集的樸素貝葉斯文本分類算法研究[J];計算機應(yīng)用與軟件;2014年09期
5 鄭霖;徐德華;;基于改進TFIDF算法的文本分類研究[J];計算機與現(xiàn)代化;2014年09期
6 馬雯雯;鄧一貴;;新的短文本特征權(quán)重計算方法[J];計算機應(yīng)用;2013年08期
7 張志飛;苗奪謙;高燦;;基于LDA主題模型的短文本分類方法[J];計算機應(yīng)用;2013年06期
8 奉國和;;文本分類性能評價研究[J];情報雜志;2011年08期
相關(guān)博士學(xué)位論文 前3條
1 張丁文;基于特征矩陣的空間場景相似性度量模型與約束指標(biāo)松弛化研究[D];中國地質(zhì)大學(xué);2016年
2 李熙銘;基于主題模型的多標(biāo)簽文本分類和流文本數(shù)據(jù)建模若干問題研究[D];吉林大學(xué);2015年
3 朱林;基于特征加權(quán)與特征選擇的數(shù)據(jù)挖掘算法研究[D];上海交通大學(xué);2013年
相關(guān)碩士學(xué)位論文 前10條
1 鄒進屹;基于特征提取和稀疏表示的圖像分類算法研究[D];北京化工大學(xué);2016年
2 史淼;文本分類算法的研究與實現(xiàn)[D];安徽大學(xué);2016年
3 杜婷;基于屬性選擇的樸素貝葉斯分類研究與應(yīng)用[D];中國科學(xué)技術(shù)大學(xué);2016年
4 王甜甜;基于hLDA的圖書內(nèi)部主題層次組織研究[D];華中師范大學(xué);2016年
5 邱磊;基于決策樹C4.5算法剪枝策略的改進研究[D];華中師范大學(xué);2016年
6 張麗穎;基于聚類的網(wǎng)絡(luò)輿情熱點關(guān)鍵詞推薦研究[D];華北電力大學(xué)(北京);2016年
7 高揚;基于LDA主題模型的TFIDF算法改進及應(yīng)用[D];廣西大學(xué);2015年
8 張超;一種詞性標(biāo)注LDA模型的文本分類方法研究[D];華中師范大學(xué);2015年
9 檀何鳳;基于標(biāo)簽相關(guān)性的KNN多標(biāo)簽分類方法研究[D];安徽大學(xué);2015年
10 黎荊妗;微博文本預(yù)處理與用戶興趣建模方法研究[D];重慶大學(xué);2015年
,本文編號:1758238
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1758238.html