基于支持向量機(jī)的文本分類研究
發(fā)布時(shí)間:2017-04-20 09:21
本文關(guān)鍵詞:基于支持向量機(jī)的文本分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】: Internet作為一個(gè)開放的信息空間,近年來(lái)得到了飛速發(fā)展,已經(jīng)成為人們進(jìn)行信息交互和處理的有效平臺(tái)。但隨著Internet上信息量的爆炸式增長(zhǎng),人們很難從大量的信息中迅速有效地獲得所需的信息。為了快速地幫助用戶找到所需的信息,有效地利用這些信息,就需要對(duì)信息進(jìn)行分類組織管理。文本信息在網(wǎng)絡(luò)信息資源中占有很大分量,因此文本自動(dòng)分類技術(shù)的研究就顯得尤為重要。 統(tǒng)計(jì)學(xué)習(xí)理論是一種專門研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論。支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)之上的機(jī)器學(xué)習(xí)方法,它克服了神經(jīng)網(wǎng)絡(luò)分類和傳統(tǒng)統(tǒng)計(jì)分類方法的許多缺點(diǎn),具有較高的泛化性能。 本文以自動(dòng)文本分類的過程為主線,在深入研究了文本表示、特征提取和重構(gòu)以及分類算法的基礎(chǔ)上,提出了一種基于最小二乘支持向量機(jī)和潛在語(yǔ)義分析的網(wǎng)頁(yè)分類算法。首先研究了網(wǎng)頁(yè)文本的特征提取算法。與文本數(shù)據(jù)不同,網(wǎng)頁(yè)數(shù)據(jù)是一種半結(jié)構(gòu)化的數(shù)據(jù),在網(wǎng)頁(yè)表示中,對(duì)任一特征而言,有兩個(gè)因素影響特征的權(quán)值:一是詞在HTML文檔中出現(xiàn)的詞頻,另一個(gè)是該詞在該文檔中出現(xiàn)的位置。在研究了文本特征提取算法的基礎(chǔ)上,根據(jù)網(wǎng)頁(yè)特征的特殊性,對(duì)網(wǎng)頁(yè)文本特征提取和加權(quán)算法進(jìn)行了改進(jìn)。潛在語(yǔ)義分析通過奇異值分解獲得原始詞——文檔矩陣的潛在語(yǔ)義結(jié)構(gòu),在一定程度上解決了一詞多義和多詞一義的問題,最小二乘支持向量機(jī)在大數(shù)據(jù)集上學(xué)習(xí)效率比較高,特別是在獲得有標(biāo)簽樣本成本較高的情況下。本文采用了一種新穎的網(wǎng)頁(yè)特征權(quán)重計(jì)算方法,并利用摘要算法消除網(wǎng)頁(yè)噪音,在保證了網(wǎng)頁(yè)分類的準(zhǔn)確性不變的情況下,提高了分類器的學(xué)習(xí)效率。 最后,通過從網(wǎng)絡(luò)采集的中文語(yǔ)料庫(kù),共12684篇中文文檔,其中9000篇用來(lái)訓(xùn)練,3684篇用于測(cè)試,對(duì)算法進(jìn)行了驗(yàn)證,取得了較好的分類效果,這充分證明算法是有效的。
【關(guān)鍵詞】:文本分類 支持向量機(jī) 特征選擇 特征重構(gòu) 直推式學(xué)習(xí)
【學(xué)位授予單位】:蘭州理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2009
【分類號(hào)】:TP391.1
【目錄】:
- 目錄5-7
- 摘要7-8
- ABSTRACT8-10
- 插圖索引10-11
- 附表索引11-12
- 第一章 緒論12-20
- 1.1 研究背景12
- 1.2 研究意義12
- 1.3 研究現(xiàn)狀12-17
- 1.3.1 文本分類研究進(jìn)展總體分析13
- 1.3.2 文本表示、特征提取和降維技術(shù)的研究進(jìn)展13-14
- 1.3.3 文本分類算法分析14-17
- 1.3.4 分類器性能評(píng)價(jià)17
- 1.4 存在的問題17-18
- 1.5 研究的內(nèi)容18
- 1.6 論文的組織18-20
- 第二章 支持向量機(jī)理論20-32
- 2.1 機(jī)器學(xué)習(xí)20-22
- 2.1.1 機(jī)器學(xué)習(xí)的概念20-21
- 2.1.2 機(jī)器學(xué)習(xí)的模型和目標(biāo)21
- 2.1.3 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化21-22
- 2.2 統(tǒng)計(jì)學(xué)習(xí)理論22-26
- 2.2.1 學(xué)習(xí)過程一致性條件22-24
- 2.2.2 VC維24
- 2.2.3 推廣性的界24-25
- 2.2.4 結(jié)構(gòu)風(fēng)險(xiǎn)最小化25-26
- 2.3 支持向量機(jī)26-30
- 2.3.1 最大分類間隔26-27
- 2.3.2 線性可分支持向量機(jī)27-29
- 2.3.3 非線性支持向量機(jī)29-30
- 2.3.4 不可分情況的處理30
- 2.4 本章小結(jié)30-32
- 第三章 文本表示及特征選擇32-41
- 3.1 文本表示32-35
- 3.1.1 向量空間模型32-33
- 3.1.2 文本預(yù)處理33-34
- 3.1.3 表示空間降維34
- 3.1.4 權(quán)重計(jì)算34-35
- 3.2 特征選擇35-38
- 3.2.1 基于文檔頻率DF的特征選擇36
- 3.2.2 基于互信息MI的特征選擇36
- 3.2.3 基于信息增益IG的特征選擇36-37
- 3.2.4 基于CHI統(tǒng)計(jì)的特征選擇37
- 3.2.5 基于期望交叉熵CE的特征選擇37-38
- 3.3 特征重構(gòu)38-40
- 3.3.1 潛在語(yǔ)義分析38-39
- 3.3.2 詞匯聚類方法39-40
- 3.4 本章小結(jié)40-41
- 第四章 分類模型構(gòu)建41-46
- 4.1 核函數(shù)41-42
- 4.1.1 核的存在性41
- 4.1.2 核的種類及特性41-42
- 4.1.3 核函數(shù)的選擇42
- 4.2 支持向量機(jī)模型的建立42-45
- 4.2.1 懲罰系數(shù)C42-43
- 4.2.2 訓(xùn)練算法43-45
- 4.2.3 支持向量機(jī)學(xué)習(xí)算法45
- 4.2.4 支持向量機(jī)多分類器算法45
- 4.3 本章小結(jié)45-46
- 第五章 基于LS-SVM和LSA的網(wǎng)頁(yè)分類研究46-56
- 5.1 引言46
- 5.2 相關(guān)工作46-49
- 5.2.1 網(wǎng)頁(yè)特征的表述46-47
- 5.2.2 最小二乘支持向量機(jī)47-48
- 5.2.3 潛在語(yǔ)義分析48-49
- 5.3 網(wǎng)頁(yè)分類器的構(gòu)造49-51
- 5.3.1 網(wǎng)頁(yè)噪音消除49
- 5.3.2 文本預(yù)處理49
- 5.3.3 特征提取49
- 5.3.4 權(quán)重計(jì)算49-50
- 5.3.5 利用LSA降維50
- 5.3.6 分類器訓(xùn)練50-51
- 5.4 實(shí)驗(yàn)51-55
- 5.4.1 實(shí)驗(yàn)環(huán)境51
- 5.4.2 數(shù)據(jù)集51
- 5.4.3 實(shí)驗(yàn)設(shè)計(jì)51
- 5.4.4 實(shí)驗(yàn)評(píng)價(jià)51-55
- 5.5 本章小結(jié)55-56
- 第六章 總結(jié)與展望56-57
- 6.1 結(jié)論56
- 6.2 未來(lái)的展望56-57
- 參考文獻(xiàn)57-61
- 致謝61-62
- 附錄 已發(fā)表論文情況62
【引證文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前2條
1 肖敏;基于列表級(jí)的相關(guān)文本排序?qū)W習(xí)算法研究[D];哈爾濱工業(yè)大學(xué);2010年
2 陳澎;基于熱點(diǎn)話題自動(dòng)發(fā)現(xiàn)的網(wǎng)站搜索引擎優(yōu)化[D];復(fù)旦大學(xué);2012年
本文關(guān)鍵詞:基于支持向量機(jī)的文本分類研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):318388
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/318388.html
最近更新
教材專著