天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于深度學(xué)習(xí)的微博評論情感傾向研究

發(fā)布時間:2021-06-07 01:16
  在現(xiàn)代網(wǎng)絡(luò)時代中,微博成為現(xiàn)代網(wǎng)民表達(dá)意見和情感觀點的主要載體,在社交媒體中占據(jù)了很大比重。大部分微博評論表現(xiàn)了網(wǎng)民用戶針對某個事件、現(xiàn)象或者用戶與產(chǎn)品的情感狀態(tài)。而使用何種算法與處理方式可以更快、更準(zhǔn)確的分析這些微博文本信息,及時獲取針對某個話題或事件的微博評論情感傾向,獲得話題輿論傾向性也成為自然語言處理領(lǐng)域的研究熱點。傳統(tǒng)的情感分析方法常常使用文本的統(tǒng)計特征或情感詞典構(gòu)建句子特征,這種方法存在無法獲取句子語義信息和分類誤差率高的缺點。而現(xiàn)在網(wǎng)絡(luò)上的數(shù)據(jù)量不斷增大,統(tǒng)計特征的提取難度也不斷增加,同時情感詞典的判斷方式(僅通過情感詞計數(shù))相對簡單且魯棒性低。而傳統(tǒng)的統(tǒng)計機(jī)器學(xué)習(xí)方法使用文本的統(tǒng)計特征訓(xùn)練,并不能很好的學(xué)習(xí)到文本的語義信息。為了解決上述問題,本文提出一種基于詞嵌入文本特征的深度學(xué)習(xí)改進(jìn)算法,進(jìn)行微博評論的情感分析工作。本文的創(chuàng)新點主要有:(1)使用神經(jīng)網(wǎng)絡(luò)語言模型在較大規(guī)模語料數(shù)據(jù)上進(jìn)行訓(xùn)練,以更方便的無監(jiān)督訓(xùn)練方式學(xué)習(xí)詞語的隱層語義特征,使用詞嵌入向量取代傳統(tǒng)文本特征的提取方法,然后使用該文本特征進(jìn)行深度模型的監(jiān)督訓(xùn)練;(2)為了在深度模型訓(xùn)練時可以獲得更多文本語義特... 

【文章來源】:大連海事大學(xué)遼寧省 211工程院校

【文章頁數(shù)】:70 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的微博評論情感傾向研究


圖2.2?CBOW模型??Fig.?2.2?CBOW?model??

模型結(jié)構(gòu)


?大連海事大學(xué)碩士學(xué)位論文???的數(shù)據(jù)集B任務(wù)的時候,便可以先調(diào)用該模型關(guān)于A的參數(shù)集進(jìn)行模型初始化工作,??通過使用模型A己經(jīng)訓(xùn)練得到的模型參數(shù),然后將高層參數(shù)進(jìn)行隨機(jī)初始化,最后通過??數(shù)據(jù)集B進(jìn)行模式的再學(xué)習(xí)與模型參數(shù)的調(diào)整,也就是模型的微.調(diào)模式網(wǎng)??(Fine-Tuning)。??OpenAI提出的GPT[35^用多層單向的TranSformer[32堪本模型結(jié)構(gòu)(如圖2.4所示);??而ELMo則是使用兩個獨立的單向雙層的LSTM作為基本模型結(jié)構(gòu)(如圖2.6所示):??BERT的基本結(jié)構(gòu)則是使用多層多個雙向Transformer作為基本的處理單元(如圖2.5所??示),與GPT相比BERT兼顧了正序與倒序上下文信息做訓(xùn)練,而相比較同樣使用正??反序上下文的ELMo,使用Transformer為基礎(chǔ)單元結(jié)構(gòu)的BERT比使用LSTM為基礎(chǔ)??單元的ELMo在訓(xùn)練時效率較高,速度相對更快。??在各類預(yù)訓(xùn)練語言模型中,達(dá)到目前較高水平的模型是Google提出的BERT[37]??(Bidirectional?Encoder?Representations?from?Transformers)模型,本文將詳細(xì)介紹該模型??的原理。??OpenAI?GPT?BERT??[V]?rvi?…[\?j?[V]?rvi?…丨上?i??(Trm?)(?Trm?)…?(Trm?)?(?Trm?)(?Trm?)?...?f?Trm?)??(Trm?Trm?)…?(Trm?)?(?Trm?Trm?)?...?f?Trm?J??1?l?e2?…?en?E2?...?en??圖2.4?GPT模型結(jié)構(gòu)?圖2.5?

語義,字符,語言模型,向量


?E〖sep】|??+?+?+?+?+?+??+???+?+?+??Segment?_?F—?p?]?'? ̄Z ̄ ̄?^?p?]?F?F?[?p??Embeddings?丨?1?* ̄A?!?CA?丨匚A?CA?""B?丨?CB?丨匚b?丨仁b??+?+?+?HH?+?+?+?+?HK?+?+??Position?ppppppppp?p?p??Embeddings?^0?^2?丨匚3?* ̄4?c5?c6?丨匚7?c8?c9?C10??圖2.7多嵌入融合??Fig.?2.7?Embeddings?concatenate??最后將各個獲得的嵌入向量(字符嵌入、語義嵌入、位置嵌入)進(jìn)行拼接輸出獲得??最終的語言模型。Google團(tuán)隊訓(xùn)練BERT模型時使用的語料是800M個詞的??B〇〇ksC〇rpus[55^?2500M個詞的英文Wiki百科語料,合計共約33億個詞作為大規(guī)模語??料進(jìn)行訓(xùn)練,并在64塊TPU上持續(xù)訓(xùn)練約4天時間,獲得訓(xùn)練好的語言模型。雖然??BERT在多個評測任務(wù)中獲得了較好的實驗結(jié)果,但是其模型的規(guī)模程度過大,訓(xùn)練損??耗與訓(xùn)練的設(shè)備成本時間成本也超出常規(guī)的模型訓(xùn)練,是GPT訓(xùn)練時間的數(shù)倍以上,??具有較低的可復(fù)制性。??2.4本章小結(jié)??作為自然語言處理任務(wù)中最重要的基礎(chǔ)部分,文本特征提取技術(shù)愈發(fā)變得重要。本??章首先介紹了傳統(tǒng)基于統(tǒng)計方法的》-gram語言模型的原理,然后仔細(xì)描述了神經(jīng)網(wǎng)絡(luò)??語言模型提取特征的詳細(xì)原理與相關(guān)計算公式。在神經(jīng)網(wǎng)絡(luò)語言模型中又詳細(xì)介紹了??word2vec中的兩種改進(jìn)語言模型CBOW與Skip-Gram,最后詳細(xì)介紹了大規(guī)

【參考文獻(xiàn)】:
期刊論文
[1]基于改進(jìn)隨機(jī)森林算法的文本分類研究與應(yīng)用[J]. 劉勇,興艷云.  計算機(jī)系統(tǒng)應(yīng)用. 2019(05)
[2]基于SA-SVM的中文文本分類研究[J]. 郭超磊,陳軍華.  計算機(jī)應(yīng)用與軟件. 2019(03)
[3]基于隨機(jī)森林的文本分類并行化[J]. 彭徵,王靈矯,郭華.  計算機(jī)科學(xué). 2018(12)
[4]基于支持向量機(jī)的中文極短文本分類模型[J]. 王楊,許閃閃,李昌,艾世成,張衛(wèi)東,甄磊,孟丹.  計算機(jī)應(yīng)用研究. 2020(02)
[5]基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析[J]. 李洋,董紅斌.  計算機(jī)應(yīng)用. 2018(11)
[6]基于支持向量機(jī)的不均衡文本分類方法[J]. 高超,許翰林.  現(xiàn)代電子技術(shù). 2018(15)
[7]基于word2vec和LSTM的飲食健康文本分類研究[J]. 趙明,杜會芳,董翠翠,陳長松.  農(nóng)業(yè)機(jī)械學(xué)報. 2017(10)
[8]基于遞歸神經(jīng)網(wǎng)絡(luò)的文本分類研究[J]. 黃磊,杜昌順.  北京化工大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[9]情感詞匯本體的構(gòu)造[J]. 徐琳宏,林鴻飛,潘宇,任惠,陳建美.  情報學(xué)報. 2008 (02)



本文編號:3215543

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3215543.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶325cc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com