基于深度學(xué)習(xí)的新聞文本分類(lèi)模型研究
【圖文】:
測(cè)試逡逑圖2-1文本分類(lèi)流程圖逡逑文本分類(lèi)過(guò)程主要由訓(xùn)練過(guò)程和測(cè)試過(guò)程兩部分組成,如圖2-1所示。訓(xùn)練過(guò)程和測(cè)逡逑試過(guò)程都需要進(jìn)行文本處理中包含的步驟,這些步驟是分類(lèi)的基礎(chǔ)。隨后分類(lèi)器通過(guò)訓(xùn)練逡逑樣本學(xué)習(xí),完成之后將測(cè)試樣本輸入分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè)。逡逑2.1.1文本預(yù)處理逡逑預(yù)處理是信息檢索和文本挖掘中的重要任務(wù)和關(guān)鍵步驟。主要分三步完成:文檔切分,,逡逑文本分詞和去除停用詞。文檔切分步驟是可選操作,根據(jù)獲得的文本數(shù)據(jù)形式來(lái)判斷。如逡逑果數(shù)據(jù)集中的每一篇文章都屬于獨(dú)立的文檔,則可以省略此步驟。相反,文檔集只有一個(gè)逡逑文件,文章集合都存儲(chǔ)在此文件中,則需要提取每一篇文章并將它們分別存儲(chǔ)在單獨(dú)的文逡逑件中以供將來(lái)操作。通常,如果多篇文章同屬一篇文檔中,則有一些標(biāo)簽會(huì)用于區(qū)分每一逡逑篇文章
支(從根結(jié)點(diǎn)到葉結(jié)點(diǎn))表示。決策樹(shù)算法主要是根據(jù)決策規(guī)則將原本復(fù)雜的分類(lèi)問(wèn)題細(xì)逡逑化成若干個(gè)小的分類(lèi)問(wèn)題,自上至下遞歸建樹(shù),將它們轉(zhuǎn)化為預(yù)測(cè)未知實(shí)例的樹(shù)模型,原逡逑理如圖2-3所示。逡逑有自己的房子逡逑_邐_有工作逡逑是/\逡逑n邐n逡逑是邐否逡逑圖2-3決策樹(shù)算法原理逡逑由圖2-3可以看出,決策樹(shù)思想最主要的就是選取測(cè)試屬性和剪枝問(wèn)題,前者實(shí)際上逡逑就是按照規(guī)則構(gòu)造特征空間的方法,不同的決策樹(shù)使用不同的決策規(guī)則,比如ID3算法用逡逑的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系數(shù)。剪枝問(wèn)題為了修復(fù)決逡逑13逡逑
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP391.1;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前10條
1 唐亞娟;張德賢;楊琳;;基于方差分析的χ~2統(tǒng)計(jì)特征選擇改進(jìn)算法研究[J];電腦知識(shí)與技術(shù);2015年11期
2 王錦波;王蓮芝;高萬(wàn)林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期
3 邸鵬;段利國(guó);;一種新型樸素貝葉斯文本分類(lèi)算法[J];數(shù)據(jù)采集與處理;2014年01期
4 孫光福;吳樂(lè);劉淇;朱琛;陳恩紅;;基于時(shí)序行為的協(xié)同過(guò)濾推薦算法[J];軟件學(xué)報(bào);2013年11期
5 歐陽(yáng)純萍;陽(yáng)小華;雷龍艷;徐強(qiáng);余穎;劉志明;;多策略中文微博細(xì)粒度情緒分析研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期
6 孫志軍;薛磊;許陽(yáng)明;王正;;深度學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2012年08期
7 曾俊;;結(jié)合SVM和KNN的Web日志挖掘技術(shù)研究方法[J];計(jì)算機(jī)應(yīng)用研究;2012年05期
8 劉伍穎;王挺;;結(jié)構(gòu)化集成學(xué)習(xí)垃圾郵件過(guò)濾[J];計(jì)算機(jī)研究與發(fā)展;2012年03期
9 姜蓓蓓;吳斐;;圖式理論與新聞翻譯研究[J];科技信息;2011年31期
10 胡澤文;王效岳;白如江;;國(guó)內(nèi)外文本分類(lèi)研究計(jì)量分析與綜述[J];圖書(shū)情報(bào)工作;2011年06期
相關(guān)碩士學(xué)位論文 前3條
1 楊晶;基于領(lǐng)域詞庫(kù)的新聞提取技術(shù)的研究及應(yīng)用[D];湖北大學(xué);2018年
2 趙柯;面向離散屬性的決策樹(shù)分類(lèi)方法研究[D];大連海事大學(xué);2017年
3 張建明;基于數(shù)據(jù)挖掘的高校貧困生認(rèn)定系統(tǒng)設(shè)計(jì)和分析[D];東南大學(xué);2015年
本文編號(hào):2703292
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2703292.html