文本分類中特征降維算法的研究與應(yīng)用
發(fā)布時間:2021-06-22 22:00
近年來,由于互聯(lián)網(wǎng)數(shù)據(jù)大規(guī)模增長而導(dǎo)致文本數(shù)據(jù)的高維稀疏性,為文本分類技術(shù)發(fā)展帶來了嚴峻的挑戰(zhàn)。因此,為應(yīng)對爆炸式數(shù)據(jù)增長問題,數(shù)據(jù)特征降維算法成為國內(nèi)外學(xué)術(shù)界日益研究的熱點之一。特征降維,即從特征集合中挑選或抽取與類別相關(guān)性強、特征間冗余度小的特征子集,降低特征空間維度,對文本分類技術(shù)的優(yōu)化具有不可忽視的作用。目前,特征降維主要分為三類,過濾式、封裝式和嵌入式方法。過濾式方法計算效率高,特征評價模型簡單,但只關(guān)注單個特征,忽略了不同特征之間結(jié)合可能帶來更好效果的可能性。而封裝式方法盡管能夠產(chǎn)生對分類精度具有較高價值的特征集,但由于其較高的計算成本,而難以得到廣泛的應(yīng)用。因此,本文通過研究分析聚類有效性指標(biāo)在文本分類中的應(yīng)用,提出一種基于聚類有效性指標(biāo)的特征降維算法(WB-Index Sequential Forward Selection WBI-SFS)。由于WBI-SFS算法不依賴特定的分類器評估特征子集,因此屬于一種過濾式特征選擇算法。WBI-SFS算法既有過濾式算法的短時間開銷特點,又具有較高分類精度,兩者兼?zhèn)。WBI-SFS算法的主要創(chuàng)新點有兩個:第一,利用高效、線性的聚類...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文的結(jié)構(gòu)安排
第二章 文本分類理論概述
2.1 文本分類相關(guān)理論
2.1.1 文本分類概念
2.1.2 文本模型表示
2.1.3 文本分類過程
2.2 特征處理
2.2.1 特征降維綜述
2.2.2 特征降維分類
2.3 文本分類模型
2.3.1 分類流程
2.3.2 常用的分類算法
2.4 分類性能評價指標(biāo)
2.4.1 召回率和精確率
2.4.2 宏平均值和微平均值
2.4.3 交叉驗證
2.5 本章小結(jié)
第三章 基于聚類評價指標(biāo)的特征降維算法
3.1 聚類有效性概述
3.1.1 聚類有效性指標(biāo)分類
3.1.2 非模糊聚類算法評估指標(biāo)介紹
3.2 常用的特征選擇算法
3.2.1 過濾式特征選擇
3.2.2 封裝式特征選擇
3.2.3 嵌入式特征選擇
3.3 聚類有效性指標(biāo)在降維算法中的應(yīng)用
3.4 WBI-SFS特征選擇算法
3.4.1 聚類有效性指標(biāo)WB-index指標(biāo)
3.4.2 WBI-SFS算法原理
3.4.3 WBI-SFS算法流程
3.5 本章小結(jié)
第四章 WBI-SFS算法實驗及分析
4.1 實驗數(shù)據(jù)集
4.2 文本分類實驗設(shè)計與分析
4.2.1 實驗設(shè)計
4.2.2 實驗結(jié)果與分析
4.3 非文本實驗設(shè)計與分析
4.3.1 實驗設(shè)計
4.3.2 實驗結(jié)果與分析
4.4 實驗結(jié)論
4.5 本章小結(jié)
第五章 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)的設(shè)計與實現(xiàn)
5.1 系統(tǒng)設(shè)計背景
5.2 系統(tǒng)需求分析
5.2.1 傳統(tǒng)網(wǎng)絡(luò)凈化系統(tǒng)分析
5.2.2 功能性需求分析
5.2.3 非功能性需求分析
5.3 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)總體架構(gòu)
5.4 NEPS服務(wù)器設(shè)計
5.5 功能模塊劃分
5.5.2 內(nèi)容識別模塊
5.5.3 黑白名單管理模塊
5.5.4 用戶管理模塊
5.6 數(shù)據(jù)庫設(shè)計
5.7 系統(tǒng)測試
5.7.1 核心分類器測試
5.7.2 ”凈云“網(wǎng)絡(luò)凈化系統(tǒng)測試
5.8 本章小結(jié)
第六章 總結(jié)和展望
6.1 全文總結(jié)
6.2 研究前景與展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]《機器學(xué)習(xí)》[J]. 周志華. 中國民商. 2016(03)
[2]使用優(yōu)化模擬退火算法的文本特征選擇[J]. 朱顥東,鐘勇. 計算機工程與應(yīng)用. 2010(04)
[3]高維數(shù)據(jù)特征降維研究綜述[J]. 胡潔. 計算機應(yīng)用研究. 2008(09)
[4]基于改進KNN的文本分類方法[J]. 錢曉東,王正歐. 情報科學(xué). 2005(04)
[5]使用最大熵模型進行中文文本分類[J]. 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā). 計算機研究與發(fā)展. 2005(01)
[6]多層次特定類型圖像過濾方法[J]. 段立娟,崔國勤,高文,張洪明. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2002(05)
[7]基于Ngram信息的中文文檔分類研究[J]. 周水庚,關(guān)佶紅,俞紅奇,胡運發(fā). 中文信息學(xué)報. 2001(01)
本文編號:3243598
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:82 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 國外研究現(xiàn)狀
1.2.2 國內(nèi)研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文的結(jié)構(gòu)安排
第二章 文本分類理論概述
2.1 文本分類相關(guān)理論
2.1.1 文本分類概念
2.1.2 文本模型表示
2.1.3 文本分類過程
2.2 特征處理
2.2.1 特征降維綜述
2.2.2 特征降維分類
2.3 文本分類模型
2.3.1 分類流程
2.3.2 常用的分類算法
2.4 分類性能評價指標(biāo)
2.4.1 召回率和精確率
2.4.2 宏平均值和微平均值
2.4.3 交叉驗證
2.5 本章小結(jié)
第三章 基于聚類評價指標(biāo)的特征降維算法
3.1 聚類有效性概述
3.1.1 聚類有效性指標(biāo)分類
3.1.2 非模糊聚類算法評估指標(biāo)介紹
3.2 常用的特征選擇算法
3.2.1 過濾式特征選擇
3.2.2 封裝式特征選擇
3.2.3 嵌入式特征選擇
3.3 聚類有效性指標(biāo)在降維算法中的應(yīng)用
3.4 WBI-SFS特征選擇算法
3.4.1 聚類有效性指標(biāo)WB-index指標(biāo)
3.4.2 WBI-SFS算法原理
3.4.3 WBI-SFS算法流程
3.5 本章小結(jié)
第四章 WBI-SFS算法實驗及分析
4.1 實驗數(shù)據(jù)集
4.2 文本分類實驗設(shè)計與分析
4.2.1 實驗設(shè)計
4.2.2 實驗結(jié)果與分析
4.3 非文本實驗設(shè)計與分析
4.3.1 實驗設(shè)計
4.3.2 實驗結(jié)果與分析
4.4 實驗結(jié)論
4.5 本章小結(jié)
第五章 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)的設(shè)計與實現(xiàn)
5.1 系統(tǒng)設(shè)計背景
5.2 系統(tǒng)需求分析
5.2.1 傳統(tǒng)網(wǎng)絡(luò)凈化系統(tǒng)分析
5.2.2 功能性需求分析
5.2.3 非功能性需求分析
5.3 “凈云”網(wǎng)絡(luò)凈化系統(tǒng)總體架構(gòu)
5.4 NEPS服務(wù)器設(shè)計
5.5 功能模塊劃分
5.5.2 內(nèi)容識別模塊
5.5.3 黑白名單管理模塊
5.5.4 用戶管理模塊
5.6 數(shù)據(jù)庫設(shè)計
5.7 系統(tǒng)測試
5.7.1 核心分類器測試
5.7.2 ”凈云“網(wǎng)絡(luò)凈化系統(tǒng)測試
5.8 本章小結(jié)
第六章 總結(jié)和展望
6.1 全文總結(jié)
6.2 研究前景與展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]《機器學(xué)習(xí)》[J]. 周志華. 中國民商. 2016(03)
[2]使用優(yōu)化模擬退火算法的文本特征選擇[J]. 朱顥東,鐘勇. 計算機工程與應(yīng)用. 2010(04)
[3]高維數(shù)據(jù)特征降維研究綜述[J]. 胡潔. 計算機應(yīng)用研究. 2008(09)
[4]基于改進KNN的文本分類方法[J]. 錢曉東,王正歐. 情報科學(xué). 2005(04)
[5]使用最大熵模型進行中文文本分類[J]. 李榮陸,王建會,陳曉云,陶曉鵬,胡運發(fā). 計算機研究與發(fā)展. 2005(01)
[6]多層次特定類型圖像過濾方法[J]. 段立娟,崔國勤,高文,張洪明. 計算機輔助設(shè)計與圖形學(xué)學(xué)報. 2002(05)
[7]基于Ngram信息的中文文檔分類研究[J]. 周水庚,關(guān)佶紅,俞紅奇,胡運發(fā). 中文信息學(xué)報. 2001(01)
本文編號:3243598
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3243598.html
最近更新
教材專著