隨機森林在文本分類上的應用研究
發(fā)布時間:2021-08-12 15:57
隨著互聯(lián)網的普及,計算機技術正在飛速的發(fā)展,我們在網絡上制造了大量的信息數據,正在進入大數據的時代,信息呈現(xiàn)爆炸式增長。對于海量復雜的信息數據,需要有效地組織梳理進而挖掘其關聯(lián),文本分類就是解決這些問題的一個關鍵部分。隨機森林是一種非常典型的組合分類器,通過引入隨機性來構造出決策樹的一種集合,具有較高分類準確率、克服了過擬合的問題,對異常值和噪聲有良好的容忍性等特點,隨機森林得到了十分廣泛的應用,而且在文本分類領域取得了不錯的效果。由于隨機森林算法也存在很多的不足,某些方面還有待更加的完善。本文首先通過對文本分類的流程進行系統(tǒng)化的梳理,介紹了文本分類的預處理、特征抽取和特征選擇等。其中,文本預處理主要是對分詞、去停用詞、詞干提取進行了簡單介紹,特征抽取和特征選擇部分著重介紹了特征選擇的一些方法。并且本文對文本分類領域常用的幾種分類器模型:樸素貝葉斯、支持向量機、K近鄰等算法進行了簡要的介紹,介紹了分類器的性能評價指標。隨后本文簡述了隨機森林的相關理論部分,并將文本分類和隨機森林算法理論運用到實例中,以CNBC網站的金融新聞資訊作為數據源進行文本分類工作。
【文章來源】:武漢大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:42 頁
【學位級別】:碩士
【部分圖文】:
實驗流程圖
爬蟲模板結果展示實驗結果:爬蟲模板主要包括兩部分,分別是獲取URL和爬取數據
數據庫結果展示
【參考文獻】:
期刊論文
[1]基于特征選擇技術的情感詞權重計算[J]. 吳金源,冀俊忠,趙學武,吳晨生,杜芳華. 北京工業(yè)大學學報. 2016(01)
[2]高維數據下基于云平臺的隨機森林算法的研究與實現(xiàn)[J]. 許旻. 科技通報. 2014(06)
[3]基于神經網絡的粒子群算法優(yōu)化SVM參數問題[J]. 李磊,高雷阜,趙世杰. 計算機工程與應用. 2015(04)
[4]面向非平衡訓練集分類的隨機森林算法優(yōu)化[J]. 吳瓊,李運田,鄭獻衛(wèi). 工業(yè)控制計算機. 2013(07)
[5]擬自適應分類隨機森林算法[J]. 馬景義,吳喜之,謝邦昌. 數理統(tǒng)計與管理. 2010(05)
[6]知識抽取中的停用詞處理技術[J]. 化柏林. 現(xiàn)代圖書情報技術. 2007(08)
[7]基于語義理解的文本相似度算法[J]. 金博,史彥軍,滕弘飛. 大連理工大學學報. 2005(02)
[8]基于決策森林特征基因的兩種識別方法[J]. 呂颯麗,汪強虎,李霞,郭政. 生物信息學. 2004(03)
[9]文本分類中的特征降維方法綜述[J]. 陳濤,謝陽群. 情報學報. 2005 (06)
博士論文
[1]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經濟貿易大學 2014
碩士論文
[1]基于屬性組合的隨機森林[D]. 孫麗麗.河北大學 2011
[2]隨機森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學 2008
[3]基于層次分類和集成學習的文本分類技術研究[D]. 張華偉.江西師范大學 2007
本文編號:3338619
【文章來源】:武漢大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:42 頁
【學位級別】:碩士
【部分圖文】:
實驗流程圖
爬蟲模板結果展示實驗結果:爬蟲模板主要包括兩部分,分別是獲取URL和爬取數據
數據庫結果展示
【參考文獻】:
期刊論文
[1]基于特征選擇技術的情感詞權重計算[J]. 吳金源,冀俊忠,趙學武,吳晨生,杜芳華. 北京工業(yè)大學學報. 2016(01)
[2]高維數據下基于云平臺的隨機森林算法的研究與實現(xiàn)[J]. 許旻. 科技通報. 2014(06)
[3]基于神經網絡的粒子群算法優(yōu)化SVM參數問題[J]. 李磊,高雷阜,趙世杰. 計算機工程與應用. 2015(04)
[4]面向非平衡訓練集分類的隨機森林算法優(yōu)化[J]. 吳瓊,李運田,鄭獻衛(wèi). 工業(yè)控制計算機. 2013(07)
[5]擬自適應分類隨機森林算法[J]. 馬景義,吳喜之,謝邦昌. 數理統(tǒng)計與管理. 2010(05)
[6]知識抽取中的停用詞處理技術[J]. 化柏林. 現(xiàn)代圖書情報技術. 2007(08)
[7]基于語義理解的文本相似度算法[J]. 金博,史彥軍,滕弘飛. 大連理工大學學報. 2005(02)
[8]基于決策森林特征基因的兩種識別方法[J]. 呂颯麗,汪強虎,李霞,郭政. 生物信息學. 2004(03)
[9]文本分類中的特征降維方法綜述[J]. 陳濤,謝陽群. 情報學報. 2005 (06)
博士論文
[1]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經濟貿易大學 2014
碩士論文
[1]基于屬性組合的隨機森林[D]. 孫麗麗.河北大學 2011
[2]隨機森林的特征選擇和模型優(yōu)化算法研究[D]. 雍凱.哈爾濱工業(yè)大學 2008
[3]基于層次分類和集成學習的文本分類技術研究[D]. 張華偉.江西師范大學 2007
本文編號:3338619
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3338619.html
最近更新
教材專著