一種基于改進的TF-IDF和支持向量機的中文文本分類研究
本文選題:文本分類 切入點:TF-IDF 出處:《軟件》2016年12期 論文類型:期刊論文
【摘要】:TF-IDF是一種應用在文本分類中常用的權值計算方法,傳統(tǒng)的TD-IDF單純考慮特征詞頻率以及包含特征詞的文本數(shù)量,并沒有很好的考慮特征詞在文本中的重要程度以及類內分布均勻情況和類間分布離散的問題,可能會導致文本分類結果的偏差。本文引入卡方統(tǒng)計量CHI和特征詞在文本中的位置作為修正因子并結合傳統(tǒng)TF-IDF權值計算公式,很好的解決了特征詞在類間分布以及關鍵詞重要程度不足的問題,并應用支持向量機構建分類器,進行文本分類的實驗驗證。改進后的TF-IDF計算公式與傳統(tǒng)TF-IDF相比,在查準率、查全率、F1測試值上都有一定程度的提升。
[Abstract]:TF-IDF is a kind of weight calculation method used in text classification. Traditional TD-IDF only considers the frequency of feature words and the number of text containing feature words. The importance of feature words in the text is not well considered, and the problem of uniform distribution within classes and discrete distribution among classes is not well considered. This paper introduces the chi-square statistic CHI and the position of feature words in the text as the correction factors and combines with the traditional TF-IDF weight calculation formula. The problem of the distribution of feature words among classes and the lack of importance of keywords is well solved, and the support vector mechanism is used to build classifier to verify the text classification. Compared with the traditional TF-IDF, the improved TF-IDF calculation formula is compared with the traditional TF-IDF. Recall rate of F _ 1 test value has a certain degree of improvement.
【作者單位】: 北京郵電大學網(wǎng)絡空間安全學院;
【分類號】:TP391.1
【參考文獻】
相關期刊論文 前4條
1 鐘磊;;基于貝葉斯分類器的中文文本分類[J];電子技術與軟件工程;2016年22期
2 奉國和;吳敬學;;KNN分類算法改進研究進展[J];圖書情報工作;2012年21期
3 臺德藝;王俊;;文本分類特征權重改進算法[J];計算機工程;2010年09期
4 張玉芳;彭時名;呂佳;;基于文本分類TFIDF方法的改進與應用[J];計算機工程;2006年19期
【共引文獻】
相關期刊論文 前10條
1 韓戟;何成浩;蘇星;施成云;劉東映;;一種基于SVM的電力行業(yè)物資需求預測方法[J];電氣技術;2016年12期
2 李濤;劉斌;;Spark平臺下的高效Web文本分類系統(tǒng)的研究[J];計算機應用與軟件;2016年11期
3 王立;王欣;馬朝東;;一種基于本體KNN的分布式緩存數(shù)據(jù)交換策略[J];計算機科學;2016年S2期
4 祝仰凱;高茂庭;;基于增量式潛在語義分析的構件檢索算法[J];現(xiàn)代計算機(專業(yè)版);2016年32期
5 崔振新;盧昊文;;民航安全信息中實現(xiàn)關鍵詞提取的方法[J];交通信息與安全;2016年05期
6 劉龍繁;李彥;侯超異;李文強;;基于功能基的專利信息挖掘與自動分類實驗研究[J];四川大學學報(工程科學版);2016年05期
7 賀科達;朱錚濤;程昱;;基于改進TF-IDF算法的文本分類方法研究[J];廣東工業(yè)大學學報;2016年05期
8 趙文濤;孟令軍;趙好好;韓炳權;成亞飛;;分布式樸素貝葉斯算法在文本分類中的應用[J];測控技術;2016年06期
9 李廣麗;陳婧琳;劉斌;殷依;張紅斌;;基于Tag-rank和典型相關性分析的在線商品跨媒體檢索研究[J];科學技術與工程;2016年14期
10 蘭秋軍;李衛(wèi)康;劉文星;;不同情境下中文文本分類模型的表現(xiàn)及選擇[J];湖南大學學報(自然科學版);2016年04期
【二級參考文獻】
相關期刊論文 前10條
1 黃杰;郭躬德;陳黎飛;;增量KNN模型的修剪策略研究[J];小型微型計算機系統(tǒng);2011年05期
2 李凱齊;刁興春;曹建軍;李峰;;基于改進蟻群算法的高精度文本特征選擇方法[J];解放軍理工大學學報(自然科學版);2010年06期
3 郭躬德;黃杰;陳黎飛;;基于KNN模型的增量學習算法[J];模式識別與人工智能;2010年05期
4 鄧箴;包宏;;用模擬退火改進的KNN分類算法[J];計算機與應用化學;2010年03期
5 劉海峰;陳琦;劉守生;蘇展;;一種基于數(shù)據(jù)偏斜的改進KNN文本分類[J];微電子學與計算機;2010年03期
6 張孝飛;黃河燕;;一種采用聚類技術改進的KNN文本分類方法[J];模式識別與人工智能;2009年06期
7 季鐸;鄭偉;蔡東風;;潛在語義索引中特征優(yōu)化技術的研究[J];中文信息學報;2009年02期
8 劉海峰;姚澤清;汪澤焱;張學仁;;基于位置的文本特征加權方法研究[J];微電子學與計算機;2009年02期
9 吳春穎;王士同;;一種改進的KNN Web文本分類方法[J];計算機應用研究;2008年11期
10 李歡;焦建民;;簡化的粒子群優(yōu)化快速KNN分類算法[J];計算機工程與應用;2008年32期
【相似文獻】
相關期刊論文 前10條
1 吳娟;范玉妹;王麗;;關于改進的支持向量機的研究[J];攀枝花學院學報;2006年05期
2 劉碩明;劉佳;楊海濱;;一種新的多類支持向量機算法[J];計算機應用;2008年S2期
3 尹傳環(huán);牟少敏;田盛豐;黃厚寬;;單類支持向量機的研究進展[J];計算機工程與應用;2012年12期
4 王云英;閻滿富;;C-支持向量機及其改進[J];唐山師范學院學報;2012年05期
5 李逢煥;;試述不確定支持向量機應用分析及改進思路[J];中國證券期貨;2012年12期
6 邵惠鶴;支持向量機理論及其應用[J];自動化博覽;2003年S1期
7 曾嶸,蔣新華,劉建成;基于支持向量機的異常值檢測的兩種方法[J];信息技術;2004年05期
8 張凡,賀蘇寧;模糊判決支持向量機在自動語種辨識中的研究[J];計算機工程與應用;2004年21期
9 魏玲,張文修;基于支持向量機集成的分類[J];計算機工程;2004年13期
10 沈翠華,鄧乃揚,肖瑞彥;基于支持向量機的個人信用評估[J];計算機工程與應用;2004年23期
相關會議論文 前10條
1 余樂安;姚瀟;;基于中心化支持向量機的信用風險評估模型[A];第六屆(2011)中國管理學年會——商務智能分會場論文集[C];2011年
2 劉希玉;徐志敏;段會川;;基于支持向量機的創(chuàng)新分類器[A];山東省計算機學會2005年信息技術與信息化研討會論文集(一)[C];2005年
3 史曉濤;劉建麗;駱玉榮;;一種抗噪音的支持向量機學習方法[A];全國第19屆計算機技術與應用(CACIS)學術會議論文集(下冊)[C];2008年
4 何琴淑;劉信恩;肖世富;;基于支持向量機的系統(tǒng)辨識方法研究及應用[A];中國力學大會——2013論文摘要集[C];2013年
5 劉駿;;基于支持向量機方法的衢州降雪模型[A];第五屆長三角氣象科技論壇論文集[C];2008年
6 王婷;胡秀珍;;基于組合向量的支持向量機方法預測膜蛋白類型[A];第十一次中國生物物理學術大會暨第九屆全國會員代表大會摘要集[C];2009年
7 趙晶;高雋;張旭東;謝昭;;支持向量機綜述[A];全國第十五屆計算機科學與技術應用學術會議論文集[C];2003年
8 周星宇;王思元;;智能數(shù)學與支持向量機[A];2005年中國智能自動化會議論文集[C];2005年
9 顏根廷;馬廣富;朱良寬;宋斌;;一種魯棒支持向量機算法[A];2006中國控制與決策學術年會論文集[C];2006年
10 侯澍e,
本文編號:1601856
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1601856.html