天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的新聞文本分類(lèi)模型研究

發(fā)布時(shí)間:2020-06-08 15:39
【摘要】:在自然語(yǔ)言處理領(lǐng)域,文本分類(lèi)作為一種信息處理的基礎(chǔ)技術(shù)一直是熱門(mén)的研究方向。文本分類(lèi)中的每一個(gè)環(huán)節(jié)都會(huì)影響最終分類(lèi)的效果,包括文本預(yù)處理、文本表示、特征選擇和分類(lèi)算法,這些過(guò)程中所涉及到的諸多算法都是學(xué)者們研究的焦點(diǎn)。隨著深度學(xué)習(xí)的興起,許多網(wǎng)絡(luò)模型在文本分類(lèi)領(lǐng)域表現(xiàn)優(yōu)異。新聞文本數(shù)據(jù)具有易獲取、數(shù)據(jù)量大等特點(diǎn),新聞文本分類(lèi)技術(shù)研究成本相對(duì)較低且屬于一種支撐類(lèi)的基礎(chǔ)技術(shù)。因此,對(duì)新聞文本做自動(dòng)分類(lèi)技術(shù)的研究對(duì)于新聞推薦、數(shù)據(jù)新聞、廣告推送等領(lǐng)域也都具有十分重要的影響。為了提高對(duì)新聞文本分類(lèi)精度,本文主要工作以及創(chuàng)新點(diǎn)如下:1.深入研究并介紹了自然語(yǔ)言處理領(lǐng)域文本分類(lèi)的基本過(guò)程,詳細(xì)解釋了過(guò)程中所涉及到的機(jī)器學(xué)習(xí)技術(shù)和深度學(xué)習(xí)技術(shù)。在文本表示和特征選擇過(guò)程中,針對(duì)新聞文本的特點(diǎn),選擇詞嵌入方法,借助Word2Vec工具表示文本數(shù)據(jù),該模型既可以保證詞向量的語(yǔ)義關(guān)系又能避免維度災(zāi)難問(wèn)題,提高分類(lèi)性能。2.基于已有工作,分別研究并改進(jìn)了 SRB文本簡(jiǎn)化模型和嵌套LSTM模型,提出了一種基于文本簡(jiǎn)化方法的混合模型。首先,該模型通過(guò)SRB網(wǎng)絡(luò)逐句簡(jiǎn)化新聞文本,并生成具有高語(yǔ)義相關(guān)性的簡(jiǎn)單句子,既簡(jiǎn)化后面句子層面的模型訓(xùn)練難度,又不丟失語(yǔ)義信息。其次,將句子向量輸入到嵌套LSTM網(wǎng)絡(luò)以學(xué)習(xí)句子間的相關(guān)性及其特征表示。3.混合模型采用了注意機(jī)制來(lái)突出關(guān)鍵句子的特征表達(dá),既能適應(yīng)新聞文本的特點(diǎn)將句子簡(jiǎn)化,又能在獲取上下文特征相關(guān)性的同時(shí)突出關(guān)鍵句的作用,運(yùn)用混合模型的思想將各個(gè)模型優(yōu)勢(shì)結(jié)合。4.將本文提出的模型與五種典型的深度學(xué)習(xí)模型進(jìn)行比較,在三個(gè)流行的不同中文新聞數(shù)據(jù)集上設(shè)計(jì)多組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)表明,本文所提出的模型實(shí)現(xiàn)了最先進(jìn)的分類(lèi)精度。最后,通過(guò)參數(shù)調(diào)整,探究了參數(shù)對(duì)結(jié)果的影響。
【圖文】:

流程圖,文本分類(lèi),測(cè)試過(guò)程,流程圖


測(cè)試逡逑圖2-1文本分類(lèi)流程圖逡逑文本分類(lèi)過(guò)程主要由訓(xùn)練過(guò)程和測(cè)試過(guò)程兩部分組成,如圖2-1所示。訓(xùn)練過(guò)程和測(cè)逡逑試過(guò)程都需要進(jìn)行文本處理中包含的步驟,這些步驟是分類(lèi)的基礎(chǔ)。隨后分類(lèi)器通過(guò)訓(xùn)練逡逑樣本學(xué)習(xí),完成之后將測(cè)試樣本輸入分類(lèi)器進(jìn)行分類(lèi)預(yù)測(cè)。逡逑2.1.1文本預(yù)處理逡逑預(yù)處理是信息檢索和文本挖掘中的重要任務(wù)和關(guān)鍵步驟。主要分三步完成:文檔切分,,逡逑文本分詞和去除停用詞。文檔切分步驟是可選操作,根據(jù)獲得的文本數(shù)據(jù)形式來(lái)判斷。如逡逑果數(shù)據(jù)集中的每一篇文章都屬于獨(dú)立的文檔,則可以省略此步驟。相反,文檔集只有一個(gè)逡逑文件,文章集合都存儲(chǔ)在此文件中,則需要提取每一篇文章并將它們分別存儲(chǔ)在單獨(dú)的文逡逑件中以供將來(lái)操作。通常,如果多篇文章同屬一篇文檔中,則有一些標(biāo)簽會(huì)用于區(qū)分每一逡逑篇文章

原理圖,決策樹(shù)算法,原理


支(從根結(jié)點(diǎn)到葉結(jié)點(diǎn))表示。決策樹(shù)算法主要是根據(jù)決策規(guī)則將原本復(fù)雜的分類(lèi)問(wèn)題細(xì)逡逑化成若干個(gè)小的分類(lèi)問(wèn)題,自上至下遞歸建樹(shù),將它們轉(zhuǎn)化為預(yù)測(cè)未知實(shí)例的樹(shù)模型,原逡逑理如圖2-3所示。逡逑有自己的房子逡逑_邐_有工作逡逑是/\逡逑n邐n逡逑是邐否逡逑圖2-3決策樹(shù)算法原理逡逑由圖2-3可以看出,決策樹(shù)思想最主要的就是選取測(cè)試屬性和剪枝問(wèn)題,前者實(shí)際上逡逑就是按照規(guī)則構(gòu)造特征空間的方法,不同的決策樹(shù)使用不同的決策規(guī)則,比如ID3算法用逡逑的是信息增益,C4.5算法用信息增益率;CART算法使用基尼系數(shù)。剪枝問(wèn)題為了修復(fù)決逡逑13逡逑
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP391.1;TP18

【參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 唐亞娟;張德賢;楊琳;;基于方差分析的χ~2統(tǒng)計(jì)特征選擇改進(jìn)算法研究[J];電腦知識(shí)與技術(shù);2015年11期

2 王錦波;王蓮芝;高萬(wàn)林;喻健;;一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究[J];計(jì)算機(jī)應(yīng)用與軟件;2014年02期

3 邸鵬;段利國(guó);;一種新型樸素貝葉斯文本分類(lèi)算法[J];數(shù)據(jù)采集與處理;2014年01期

4 孫光福;吳樂(lè);劉淇;朱琛;陳恩紅;;基于時(shí)序行為的協(xié)同過(guò)濾推薦算法[J];軟件學(xué)報(bào);2013年11期

5 歐陽(yáng)純萍;陽(yáng)小華;雷龍艷;徐強(qiáng);余穎;劉志明;;多策略中文微博細(xì)粒度情緒分析研究[J];北京大學(xué)學(xué)報(bào)(自然科學(xué)版);2014年01期

6 孫志軍;薛磊;許陽(yáng)明;王正;;深度學(xué)習(xí)研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2012年08期

7 曾俊;;結(jié)合SVM和KNN的Web日志挖掘技術(shù)研究方法[J];計(jì)算機(jī)應(yīng)用研究;2012年05期

8 劉伍穎;王挺;;結(jié)構(gòu)化集成學(xué)習(xí)垃圾郵件過(guò)濾[J];計(jì)算機(jī)研究與發(fā)展;2012年03期

9 姜蓓蓓;吳斐;;圖式理論與新聞翻譯研究[J];科技信息;2011年31期

10 胡澤文;王效岳;白如江;;國(guó)內(nèi)外文本分類(lèi)研究計(jì)量分析與綜述[J];圖書(shū)情報(bào)工作;2011年06期

相關(guān)碩士學(xué)位論文 前3條

1 楊晶;基于領(lǐng)域詞庫(kù)的新聞提取技術(shù)的研究及應(yīng)用[D];湖北大學(xué);2018年

2 趙柯;面向離散屬性的決策樹(shù)分類(lèi)方法研究[D];大連海事大學(xué);2017年

3 張建明;基于數(shù)據(jù)挖掘的高校貧困生認(rèn)定系統(tǒng)設(shè)計(jì)和分析[D];東南大學(xué);2015年



本文編號(hào):2703292

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2703292.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶2b833***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com