天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 自動(dòng)化論文 >

基于深度學(xué)習(xí)的文本分類研究

發(fā)布時(shí)間:2020-05-31 22:51
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),尤其是每天更新的新聞文本。本文從兩個(gè)方面對(duì)新聞文本進(jìn)行研究,分別是文本的主題分類和文本的情感分析。根據(jù)文本的主題內(nèi)容對(duì)文本進(jìn)行分類,可以使復(fù)雜多樣的文本變得容易管理,也可以方便學(xué)校、公司、醫(yī)院、以及各類需要處理文本數(shù)據(jù)的組織機(jī)構(gòu)依照特定的分類準(zhǔn)則對(duì)源源不斷產(chǎn)生的各種文本類數(shù)據(jù)進(jìn)行分類。通過對(duì)文本的情感傾向性進(jìn)行分析研究,在電商平臺(tái)中的商品用戶評(píng)論中可以反映出某商品受顧客的滿意程度;在博客中可以反映群眾對(duì)于某類事件的情感態(tài)度,以及社會(huì)輿論的走向;在影視評(píng)論中,可以反映出某些影視作品受觀眾的喜愛程度等。而對(duì)于新聞?lì)愇谋镜那楦蟹治隹梢苑从吵瞿承袠I(yè)領(lǐng)域或某些企業(yè)的前景是利好還是隱患,或者某些社會(huì)熱點(diǎn)新聞事件是正能量還是負(fù)能量等等。在文本主題分類模型的研究中,利用長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM神經(jīng)網(wǎng)絡(luò))訓(xùn)練文本主題分類模型。首先爬取帶有文本主題類別標(biāo)簽的新聞?wù)Z料,根據(jù)語料的特征進(jìn)行相應(yīng)的數(shù)據(jù)清洗工作,之后經(jīng)過分詞、去停用詞、將類別標(biāo)簽映射為數(shù)字等數(shù)據(jù)預(yù)處理工作,再將文本轉(zhuǎn)化為詞向量作為LSTM神經(jīng)網(wǎng)絡(luò)的輸入,研究了訓(xùn)練神經(jīng)網(wǎng)絡(luò)過程中主要的超參數(shù),通過多組基于不同超參數(shù)值的對(duì)比實(shí)驗(yàn),確定了合適的超參數(shù)訓(xùn)練模型,最終還實(shí)現(xiàn)了文本主題分類的前端界面設(shè)計(jì)及應(yīng)用。在文本情感分析模型的研究中,使用的是fastText神經(jīng)網(wǎng)絡(luò)訓(xùn)練文本情感分析模型。首先根據(jù)文本特征進(jìn)行數(shù)據(jù)清洗,如去除廣告類噪音數(shù)據(jù)、過長過短以及不規(guī)范的新聞文本,再經(jīng)過分詞等數(shù)據(jù)預(yù)處理后作為fastText神經(jīng)網(wǎng)絡(luò)的輸入,訓(xùn)練文本情感分析模型;谖谋厩楦蟹治瞿P脱芯康幕A(chǔ)上又引進(jìn)了集成學(xué)習(xí)的思想,通過對(duì)訓(xùn)練樣本的重采樣,訓(xùn)練多個(gè)弱分類器,之后再通過基于結(jié)合策略為加權(quán)投票的bagging集成學(xué)習(xí)算法聯(lián)合成為一個(gè)強(qiáng)分類器,將弱分類器聯(lián)合后的強(qiáng)分類器有更高的準(zhǔn)確率,而且能適應(yīng)更多不同的數(shù)據(jù)集,有更強(qiáng)的泛化性,在文本情感分析的研究中有很大的理論意義和實(shí)用價(jià)值。
【圖文】:

袋模


圖 2.1 詞袋模型Fig. 2.1 Word bag model畫詞與詞之間的相似性(詞匯鴻溝)。因?yàn)槭褂靡稽c(diǎn)何語義聯(lián)系,,詞向量之間都是獨(dú)立的。詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入,為了使計(jì)算過程不過于

原理圖,原理,神經(jīng)網(wǎng)絡(luò)訓(xùn)練,輸入向量


圖 2.2 詞向量的生成原理Fig. 2.2 Generation principle of word vector是神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的中間產(chǎn)物[38]。輸入層是一個(gè) V 維的一點(diǎn)式向個(gè)輸入向量[x1,x2,……,xv],該向量視為 V 個(gè)單元,其中一個(gè)單元的
【學(xué)位授予單位】:沈陽工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP181

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 汪明霓;BASIC文本系統(tǒng)[J];計(jì)算機(jī)應(yīng)用研究;1988年01期

2 易樹鴻;張為群;;一種基于粗集的文本數(shù)據(jù)特征信息的挖掘方法[J];計(jì)算機(jī)科學(xué);2002年08期

3 婁道國;李若斌;劉冰;張冬冬;;云計(jì)算下各分散文本數(shù)據(jù)的全方位集成融合方法[J];科技通報(bào);2019年02期

4 潘大勝;;不確定噪聲下海量文本數(shù)據(jù)的模糊挖掘算法研究[J];微電子學(xué)與計(jì)算機(jī);2017年09期

5 王珊珊;馮利鑫;;基于新詞識(shí)別的大數(shù)據(jù)聊天文本輿情熱點(diǎn)挖掘[J];電子商務(wù);2018年01期

6 陳曉峰;如何在flash中讀入外部文本數(shù)據(jù)[J];電腦知識(shí)與技術(shù);2004年13期

7 馬欣欣;林克;;大文本數(shù)據(jù)快速分析統(tǒng)計(jì)理論與算法[J];電子元器件與信息技術(shù);2019年01期

8 施瑞朗;;基于社交平臺(tái)數(shù)據(jù)的文本分類算法研究[J];電子科技;2018年10期

9 張玉紅;陳偉;胡學(xué)鋼;;一種面向不完全標(biāo)記的文本數(shù)據(jù)流自適應(yīng)分類方法[J];計(jì)算機(jī)科學(xué);2016年12期

10 袁鵬;江媛媛;;多元化文本數(shù)據(jù)的智能提取[J];測(cè)繪與空間地理信息;2015年09期

相關(guān)會(huì)議論文 前10條

1 易天元;葉春生;;工業(yè)鍋爐圖紙輸入的文本數(shù)據(jù)處理[A];1997中國控制與決策學(xué)術(shù)年會(huì)論文集[C];1997年

2 陳光強(qiáng);楊樹強(qiáng);張曉輝;李潤恒;賈焰;;面向海量文本數(shù)據(jù)的多任務(wù)并行調(diào)度加載技術(shù)研究與實(shí)現(xiàn)[A];第15屆全國信息存儲(chǔ)技術(shù)學(xué)術(shù)會(huì)議論文集[C];2008年

3 周純潔;黎]

本文編號(hào):2690581


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2690581.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8054e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com