特征選取和SVM算法研究及在股市行業(yè)資訊中的應(yīng)用
本文關(guān)鍵詞:特征選取和SVM算法研究及在股市行業(yè)資訊中的應(yīng)用
更多相關(guān)文章: 文本分類 支持向量機(jī) 二叉樹 詞頻 特征項(xiàng)
【摘要】:在信息化時(shí)代的今天,隨著存儲(chǔ)容量的翻倍增長(zhǎng)和網(wǎng)絡(luò)通訊速度的不斷提高,海量文本信息的傳輸和保存已變得異乎平常。很顯然的是傳統(tǒng)的信息獲取技術(shù)早已跟不上時(shí)代的步伐,如何在信息高速膨脹的文本數(shù)據(jù)庫(kù)中及時(shí)地檢索到我們想要的文本信息問(wèn)題顯得日益突出。文本挖掘也正是為解決這一需求而在近些年得到了迅猛的發(fā)展。文本挖掘涉及文本聚類、文本分類、信息提取等多個(gè)方面,其中文本分類是當(dāng)前數(shù)據(jù)挖掘研究領(lǐng)域的熱點(diǎn)內(nèi)容之一。目前,文本分類技術(shù)已被成功應(yīng)用到多個(gè)領(lǐng)域,如郵件服務(wù)器使用的垃圾郵件過(guò)濾技術(shù)、網(wǎng)頁(yè)搜索引擎公司采用的檢索技術(shù)等等。 文本分類就是按照一定的分類規(guī)則對(duì)未知類別的文本進(jìn)行類別的劃分,這里的分類規(guī)則指的是區(qū)分文本類別的特征信息。為了實(shí)現(xiàn)文本的自動(dòng)分類,故需將文本分類規(guī)則數(shù)字化成分類器,也就是由分類器來(lái)決定待分文本的類別。文本分類是有監(jiān)督的機(jī)器學(xué)習(xí),也就是在訓(xùn)練分類器之前樣本的類別是已知的。 通常情況下,文本分類包含的步驟有:文本信息的預(yù)處理、文本特征項(xiàng)的選取、文本分類器的生成、文本分類性能測(cè)試、分類效果評(píng)價(jià)等。其中文本特征項(xiàng)的選取和文本分類器的生成是本文的重要研究?jī)?nèi)容,不同的特征選取方式和選擇不同的分類算法將對(duì)分類的性能產(chǎn)生較大的影響。 本文首先介紹了文本分類研究的背景和意義、國(guó)內(nèi)外研究現(xiàn)狀。與國(guó)外相比,國(guó)內(nèi)文本分類的研究起步較晚,但隨著網(wǎng)絡(luò)技術(shù)取得了突破性的發(fā)展,文本分類技術(shù)逐漸受到國(guó)內(nèi)各級(jí)、各類計(jì)算機(jī)研究機(jī)構(gòu)的重視,并研究出了一系列符合中文文本分類的技術(shù)。 接著對(duì)文本分類的相關(guān)技術(shù)作了概要的描述,包括文本的預(yù)處理、特征項(xiàng)的選取和文本分類算法。針對(duì)使用TF*IDF計(jì)算特征詞的權(quán)重時(shí)存在的不足,提出了改進(jìn)的TF*IDF權(quán)重計(jì)算方法,同時(shí)為了有效地降低文本訓(xùn)練的時(shí)間和空間復(fù)雜度,而又盡量地減少因降低向量維數(shù)對(duì)分類精度的影響,本文引入了特征相關(guān)度的概念,并使用特征相關(guān)系數(shù)來(lái)衡量特征項(xiàng)之間的關(guān)聯(lián)程度。當(dāng)特征項(xiàng)之間的特征相關(guān)系數(shù)大于約定的閾值時(shí),采用一級(jí)特征項(xiàng)取代二級(jí)特征項(xiàng)來(lái)降低特征項(xiàng)集中同義或近義的冗余特征項(xiàng)。 然后對(duì)SVM算法如何解決多類分類問(wèn)題進(jìn)行了研究,其中二叉樹分類方法應(yīng)用最為廣泛,但不同的二叉樹結(jié)構(gòu)會(huì)產(chǎn)生不同的分類結(jié)果。目前在生成二叉樹結(jié)構(gòu)時(shí),通常依據(jù)樣本的分布情況或樣本類別間的距離來(lái)確定樣本在樹中節(jié)點(diǎn)的位置。本文提出了改進(jìn)的方法,即在生成多類分類二叉樹時(shí),綜合考慮了樣本的分布情況和樣本類別間的距離,通過(guò)實(shí)驗(yàn)分析比較改進(jìn)的算法的推廣性能較好。 最后本文設(shè)計(jì)了一個(gè)文本分類應(yīng)用在股市行業(yè)資訊上的自動(dòng)分類系統(tǒng),在特征提取模塊中采用本文改進(jìn)的TF*IDF權(quán)重計(jì)算方法和文本特征項(xiàng)降維方法;在分類模塊中采用本文改進(jìn)的基于二叉樹的SVM多類分類方法。之后,總結(jié)了本文所做的工作,同時(shí)對(duì)本文研究過(guò)程中未能深入探討的相關(guān)問(wèn)題,提出了需進(jìn)一步研究的方向。
【關(guān)鍵詞】:文本分類 支持向量機(jī) 二叉樹 詞頻 特征項(xiàng)
【學(xué)位授予單位】:安徽大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP391.1;TP181
【目錄】:
- 摘要3-5
- Abstract5-7
- 目錄7-10
- 第一章 緒論10-15
- 1.1 論文研究背景及意義10-11
- 1.2 文本分類國(guó)內(nèi)外研究現(xiàn)狀11-13
- 1.2.1 國(guó)外研究現(xiàn)狀11
- 1.2.2 國(guó)內(nèi)研究現(xiàn)狀11-13
- 1.3 論文的主要研究?jī)?nèi)容13-14
- 1.4 論文的組織結(jié)構(gòu)14-15
- 第二章 文本分類相關(guān)技術(shù)概述15-26
- 2.1 文本預(yù)處理16-18
- 2.1.1 文本分詞16-17
- 2.1.2 去除文本停用詞17-18
- 2.2 文本表示18-19
- 2.3 特征選取19-21
- 2.3.1 詞頻*逆文檔頻率(TF~*IDF)19-20
- 2.3.2 互信息(MI)20
- 2.3.3 信息增益(IG)20-21
- 2.3.4 期望交叉熵(ECE)21
- 2.4 文本分類算法21-25
- 2.4.1 樸素貝葉斯算法22
- 2.4.2 K近鄰算法22-23
- 2.4.3 支持向量機(jī)算法23-25
- 2.5 本章小結(jié)25-26
- 第三章 TF~*IDF方法計(jì)算特征項(xiàng)權(quán)重的改進(jìn)和特征項(xiàng)的降維26-34
- 3.1 改進(jìn)的詞頻和逆文檔頻率26-29
- 3.1.1 詞對(duì)于類別之間的區(qū)分能力27-28
- 3.1.2 詞對(duì)于類別內(nèi)部的區(qū)分能力28-29
- 3.1.3 改進(jìn)的TF~*IDF公式29
- 3.2 文本特征項(xiàng)的降維29-33
- 3.3 本章小結(jié)33-34
- 第四章 支持向量機(jī)在多類別問(wèn)題中的應(yīng)用34-40
- 4.1 SVM多類分類方法34-38
- 4.1.1 一對(duì)多分類方法34-35
- 4.1.2 一對(duì)一分類方法35
- 4.1.3 二叉樹分類方法35-37
- 4.1.4 有向無(wú)環(huán)圖分類方法37
- 4.1.5 改進(jìn)的二叉樹分類方法37-38
- 4.2 實(shí)驗(yàn)分析38-39
- 4.3 本章小結(jié)39-40
- 第五章 文本分類應(yīng)用與結(jié)果分析40-48
- 5.1 文本分類應(yīng)用設(shè)計(jì)40-42
- 5.1.1 實(shí)驗(yàn)環(huán)境40
- 5.1.2 分類語(yǔ)料庫(kù)40-41
- 5.1.3 分類應(yīng)用總體流程41-42
- 5.2 分類應(yīng)用流程模塊42-45
- 5.2.1 預(yù)處理模塊42-44
- 5.2.2 文本表示模塊44
- 5.2.3 特征選取模塊44
- 5.2.4 分類模塊44-45
- 5.3 文本分類結(jié)果分析45-46
- 5.4 本章小結(jié)46-48
- 第六章 總結(jié)與展望48-50
- 6.1 工作總結(jié)48-49
- 6.2 研究展望49-50
- 參考文獻(xiàn)50-54
- 附錄A 圖目錄54-55
- Appendix A:Figure index55-56
- 致謝56-57
- 攻讀碩士學(xué)位期間發(fā)表的論文57
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 顧益軍,樊孝忠,王建華,汪濤,黃維金;中文停用詞表的自動(dòng)選取[J];北京理工大學(xué)學(xué)報(bào);2005年04期
2 葉磊;駱興國(guó);;支持向量機(jī)應(yīng)用概述[J];電腦知識(shí)與技術(shù);2010年34期
3 朱聰慧;趙鐵軍;鄭德權(quán);;基于無(wú)向圖序列標(biāo)注模型的中文分詞詞性標(biāo)注一體化系統(tǒng)[J];電子與信息學(xué)報(bào);2010年03期
4 何偉;胡學(xué)鋼;謝飛;;基于張量空間模型的中文文本分類[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年12期
5 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā);使用最大熵模型進(jìn)行中文文本分類[J];計(jì)算機(jī)研究與發(fā)展;2005年01期
6 劉遷;賈惠波;;中文信息處理中自動(dòng)分詞技術(shù)的研究與展望[J];計(jì)算機(jī)工程與應(yīng)用;2006年03期
7 劉健;劉忠;熊鷹;;改進(jìn)的二叉樹支持向量機(jī)多類分類算法研究[J];計(jì)算機(jī)工程與應(yīng)用;2010年33期
8 顧亞祥;丁世飛;;支持向量機(jī)研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2011年02期
9 盧祖友;桑永勝;;基于球向量機(jī)的中文文本分類[J];計(jì)算機(jī)工程與科學(xué);2008年12期
10 孟媛媛,劉希玉;一種新的基于二叉樹的SVM多類分類方法[J];計(jì)算機(jī)應(yīng)用;2005年11期
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前3條
1 劉赫;文本分類中若干問(wèn)題研究[D];吉林大學(xué);2009年
2 高鵬毅;BP神經(jīng)網(wǎng)絡(luò)分類器優(yōu)化技術(shù)研究[D];華中科技大學(xué);2012年
3 楊杰明;文本分類中文本表示模型和特征選擇算法研究[D];吉林大學(xué);2013年
,本文編號(hào):806394
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/806394.html