文本分類特征提取算法的研究
發(fā)布時間:2017-04-15 23:00
本文關鍵詞:文本分類特征提取算法的研究,由筆耕文化傳播整理發(fā)布。
【摘要】:文本分類是一種分析與使用海量文本數(shù)據(jù)信息的有效手段。其技術(shù)難點之一是處理特征向量空間的高維性,這種高維性使得文本分類變得十分低效,因此特征降維成為文本分類工作首先需要解決的問題。作為特征向量空間降維常用的技術(shù),特征提取方法的性能高低直接影響到文本分類的效果。許多研究表明,信息增益是一種性能相對較好的特征提取方法。然而,信息增益算法在文本分類的問題上仍有其局限和優(yōu)化空間,本文從以下三個方面對其進行了改進:(1)為了平衡每個特征詞在信息增益公式中出現(xiàn)與否對信息增益評分的影響能力,借鑒sigmoid的函數(shù)思想,提出了基于詞頻的γ調(diào)節(jié)因子的信息增益改進算法。(2)為了體現(xiàn)特征詞在各個類別分布均勻程度與區(qū)分能力的關聯(lián),確保在各個類別之間分布不均勻的特征詞具有較強的區(qū)分能力,著眼于特征詞在類別分布情況,對信息增益的評分結(jié)果進行進一步優(yōu)化。(3)考慮到現(xiàn)實文本集中非均衡文本大量存在,倘若算法沒有顧及各類別包含的文檔數(shù)大小,則會使其優(yōu)先選擇趨向大類的特征詞,而忽視小類的特征詞。為此,本文借鑒了統(tǒng)計學中卡方檢驗的思想,針對非均衡文檔類別評分排序優(yōu)化的方法,使得在特征維度較小的情況下,仍能保持不錯的性能。對比實驗結(jié)果表明:本文的改進算法所得到的文本分類結(jié)果,在各個類別上的準確率、召回率以及F1值都取得較理想的性能提升,從而驗證了本文所提出的信息增益改進算法的可行性與有效性。
【關鍵詞】:文本分類 特征提取 信息增益 調(diào)節(jié)因子 卡方檢驗
【學位授予單位】:吉林大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-11
- 1.1 研究背景及意義8-9
- 1.2 國內(nèi)外研究現(xiàn)狀9-10
- 1.3 本文的組織結(jié)構(gòu)10-11
- 第2章 文本分類相關技術(shù)11-28
- 2.1 文本分類概述11-13
- 2.1.1 文本分類定義11
- 2.1.2 文本分類問題與其他分類問題的比較11-12
- 2.1.3 文本分類流程12-13
- 2.2 文本預處理13-15
- 2.2.1 去除格式標記13-14
- 2.2.2 中文分詞14-15
- 2.2.3 去停用詞15
- 2.3 文本表示模型15-17
- 2.3.1 布爾模型15-16
- 2.3.2 概率模型16
- 2.3.3 向量空間模型16-17
- 2.4 特征提取17-18
- 2.5 特征權(quán)重計算18-19
- 2.5.1 布爾權(quán)重18
- 2.5.2 詞頻權(quán)重18-19
- 2.5.3 逆文檔頻率權(quán)(InverseDocument Frequency , IDF)19
- 2.5.4 TF-IDF權(quán)重19
- 2.6 分類算法19-24
- 2.6.1 K-最近鄰算法20
- 2.6.2 決策樹算法20-21
- 2.6.3 樸素貝葉斯算法21-22
- 2.6.4 ROCCHIO算法22
- 2.6.5 支持向量機算法22-24
- 2.6.6 邏輯回歸算法24
- 2.7 分類性能評估24-27
- 2.7.1 評估方法24-25
- 2.7.2 評估指標25-27
- 2.8 本章小結(jié)27-28
- 第3章 文本分類特征提取算法的分析及改進28-39
- 3.1 特征提取的意義28
- 3.2 特征提取的一般步驟28
- 3.3 傳統(tǒng)的特征提取算法28-33
- 3.3.1 文檔頻率29
- 3.3.2 互信息29-30
- 3.3.3 統(tǒng)計30-31
- 3.3.4 信息增益31-33
- 3.4 信息增益算法的分析與改進33-38
- 3.4.1 信息增益算法分析33-35
- 3.4.2 基于詞頻的 Γ 調(diào)節(jié)因子的信息增益算法的改進35-36
- 3.4.3 基于特征詞的類別分布情況優(yōu)化增益評分36-37
- 3.4.4 針對非均衡文檔集評分排序優(yōu)化37-38
- 3.5 本章小結(jié)38-39
- 第4章 實驗過程及結(jié)果分析39-51
- 4.1 實驗環(huán)境39-41
- 4.1.1 語料庫39-40
- 4.1.2 實驗工具40-41
- 4.2 實驗模塊41
- 4.3 實驗步驟41-47
- 4.3.1 去停用詞41-43
- 4.3.2 數(shù)據(jù)結(jié)構(gòu)表示43
- 4.3.3 特征提取43-44
- 4.3.4 權(quán)值分配44-46
- 4.3.5 分類算法選擇46
- 4.3.6 性能評估方法選擇46-47
- 4.4 實驗結(jié)果分析47-50
- 4.4.1 相同特征維度不同類別之間的實驗結(jié)果47-49
- 4.4.2 不同特征維度F1加權(quán)結(jié)果49-50
- 4.5 本章小結(jié)50-51
- 第5章 總結(jié)與展望51-53
- 5.1 總結(jié)51-52
- 5.2 展望52-53
- 參考文獻53-56
- 致謝56
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 余成波;秦華鋒;;手指靜脈圖像特征提取算法的研究[J];計算機工程與應用;2008年24期
2 周嬌;李端明;曹泰峰;;導彈圖像特征提取算法及系統(tǒng)架構(gòu)[J];兵工自動化;2011年03期
3 毛建鑫;劉煒;侯秋華;孫紅彬;;一種改進的水果特征提取算法[J];計算機工程與應用;2013年06期
4 張向群;張旭;;基于二維判別局部排列的特征提取算法[J];計算機工程;2013年08期
5 王化U,
本文編號:309432
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/309432.html
最近更新
教材專著