天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于領(lǐng)域詞典與機(jī)器學(xué)習(xí)的中文評(píng)論情感分析

發(fā)布時(shí)間:2021-03-04 07:45
  隨著互聯(lián)網(wǎng)日新月異的發(fā)展,以微博、論壇和電商為代表的線上平臺(tái)正在崛起。人們?cè)絹?lái)越習(xí)慣于在這些平臺(tái)上發(fā)表對(duì)實(shí)事熱點(diǎn)的觀點(diǎn)以及對(duì)產(chǎn)品的使用感受,這一現(xiàn)象使得評(píng)論數(shù)據(jù)爆炸式增長(zhǎng)。在這些評(píng)論中,大量對(duì)于商家、賣(mài)家以及政府有價(jià)值的情感信息蘊(yùn)含其中,如何提取并應(yīng)用這些情感信息使得情感分析應(yīng)運(yùn)而生;谠~典的情感分析方法作為情感分析最基礎(chǔ)的方法,對(duì)于特定領(lǐng)域通常沒(méi)有非常合適的詞典可以使用,其打分規(guī)則也有待優(yōu)化。因此本文基于SO-PMI算法構(gòu)建了酒店領(lǐng)域情感詞典,基于中文語(yǔ)法結(jié)構(gòu)提出一套打分規(guī)則。對(duì)預(yù)處理之后的數(shù)據(jù)結(jié)合多種詞典進(jìn)行情感權(quán)值計(jì)算,按照打分規(guī)則得到句子情感得分從而判斷句子情感極性。實(shí)驗(yàn)證明,所提出的基于情感詞典的情感分析方法有較高的準(zhǔn)確率。在中文文本中語(yǔ)境復(fù)雜,常常存在一詞多義的現(xiàn)象,使得基于情感詞典的情感分析方法會(huì)產(chǎn)生一定的誤差。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的高性能方法,可以在語(yǔ)境復(fù)雜的中文文本中有更好的表現(xiàn)力,而取得這樣的表現(xiàn)是在構(gòu)造出優(yōu)秀的中文詞向量的前提下。因此本文基于維基中文數(shù)據(jù)集,利用Word2Vec工具構(gòu)造了一套適用于所有中文的詞向量。在對(duì)比實(shí)驗(yàn)中,所構(gòu)建出的中文詞向量具有不錯(cuò)的表現(xiàn)... 

【文章來(lái)源】:南京郵電大學(xué)江蘇省

【文章頁(yè)數(shù)】:62 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于領(lǐng)域詞典與機(jī)器學(xué)習(xí)的中文評(píng)論情感分析


結(jié)巴分詞后部分展示

效果圖,效果圖


4.二層神經(jīng)網(wǎng)絡(luò)核函數(shù)基本模型為特征空間上的間隔最大的線性分類器,其學(xué)習(xí)策略便是間隔最大化圖 4.6 SVM 模型特點(diǎn)驗(yàn) 實(shí)驗(yàn)步驟驗(yàn)的開(kāi)發(fā)環(huán)境為 windows下的Python2.7 版本,實(shí)驗(yàn)的實(shí)現(xiàn)需要加載例如:Jieba,learn,Pandas,Numpy 等許多著名的第三方模塊。實(shí)驗(yàn)采用中科院發(fā)布的中文停與第三章相同的中文酒店評(píng)論集,包含 5000 條積極評(píng)論與 5000 條消極評(píng)論。次實(shí)驗(yàn)采用 Jieba 分詞對(duì)語(yǔ)料進(jìn)行分詞處理,在處理之前需要對(duì)語(yǔ)料以及停詞文理,再對(duì)文本進(jìn)行字母、特殊符號(hào)及數(shù)字的處理,效果如下圖所示:

文件,特征詞,語(yǔ)料,向量


南京郵電大學(xué)專業(yè)學(xué)位碩士研究生學(xué)位論文 第四章中文詞向量的構(gòu)建方法在分詞完成后,讀取中文停用詞表,遍歷分詞后的句子,將每個(gè)分詞后的詞語(yǔ)放入表中進(jìn)行匹配,如果此詞在表中存在則替換為空,即可完成去停用詞步驟。經(jīng)過(guò)上述操作后得到正負(fù)評(píng)論語(yǔ)料的特征詞,為使模型的輸入為計(jì)算機(jī)語(yǔ)言,將由詞匯組成的每條文本采用 Word2Vec 詞向量模型轉(zhuǎn)化成向量。特征詞向量的選取需要基于已訓(xùn)練完成的詞向量模型,本實(shí)驗(yàn)擬從維基中文大型語(yǔ)料中生成詞向量,從而抽取酒店評(píng)論語(yǔ)料的特征值向量。獲取特征詞向量的主要步驟如下:①讀取模型詞向量矩陣;②遍歷每條評(píng)論中的每個(gè)詞匯,在模型詞向量矩陣中尋找到當(dāng)前詞匯的向量,每條評(píng)論得到一個(gè)二維矩陣。行為詞的數(shù)量,列為模型之前設(shè)定的維數(shù);③把得到的矩陣進(jìn)行均值計(jì)算作為當(dāng)前評(píng)論語(yǔ)句的特征詞向量;④在所有評(píng)論語(yǔ)句計(jì)算完成后,拼接語(yǔ)句類別代表的值,寫(xiě)入 csv 文件。獲得的詞向量部分截圖如下圖所示:

【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量與句法樹(shù)的中文句子情感分析[J]. 相若晨,孫美鳳.  計(jì)算機(jī)與現(xiàn)代化. 2016(08)
[2]Study of Sentiment Classification for Chinese Microblog Based on Recurrent Neural Network[J]. ZHANG Yangsen,JIANG Yuru,TONG Yixuan.  Chinese Journal of Electronics. 2016(04)
[3]基于word embedding和CNN的情感分類模型[J]. 蔡慧蘋(píng),王麗丹,段書(shū)凱.  計(jì)算機(jī)應(yīng)用研究. 2016(10)
[4]基于POS-CBOW語(yǔ)言模型的相似詞分析[J]. 阮冬茹,潘洪巖,高凱.  河北科技大學(xué)學(xué)報(bào). 2015(05)
[5]基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 梁軍,柴玉梅,原慧斌,高明磊,昝紅英.  中文信息學(xué)報(bào). 2015(05)
[6]基于平滑SO-PMI算法的微博情感詞典構(gòu)建方法研究[J]. 杜銳,朱艷輝,田海龍,劉璟,馬進(jìn).  湖南工業(yè)大學(xué)學(xué)報(bào). 2015(05)
[7]利用word2vec對(duì)中文詞進(jìn)行聚類的研究[J]. 鄭文超,徐鵬.  軟件. 2013(12)
[8]中文微博情感分析研究綜述[J]. 周勝臣,瞿文婷,石英子,施詢之,孫韻辰.  計(jì)算機(jī)應(yīng)用與軟件. 2013(03)
[9]基于權(quán)值算法的中文情感分析系統(tǒng)研究與實(shí)現(xiàn)[J]. 張昊旻,石博瑩,劉栩宏.  計(jì)算機(jī)應(yīng)用研究. 2012(12)
[10]基于主題情感混合模型的無(wú)監(jiān)督文本情感分析[J]. 孫艷,周學(xué)廣,付偉.  北京大學(xué)學(xué)報(bào)(自然科學(xué)版). 2013(01)

博士論文
[1]支持向量機(jī)算法的研究及其應(yīng)用[D]. 范昕煒.浙江大學(xué) 2003

碩士論文
[1]基于情感詞典拓展和詞向量的中文情感分析技術(shù)的研究[D]. 丁卜建.遼寧大學(xué) 2016
[2]基于Word2Vec語(yǔ)言模型與圖核設(shè)計(jì)的文本分類研究[D]. 袁艷紅.西南大學(xué) 2016
[3]基于深度學(xué)習(xí)的情感詞向量及文本情感分析的研究[D]. 張志華.華東師范大學(xué) 2016
[4]基于word2vec和SVMperf的網(wǎng)絡(luò)中文文本評(píng)論信息情感分類研究[D]. 蘇增才.河北科技大學(xué) 2015
[5]基于Twitter的情感分析相關(guān)問(wèn)題研究[D]. 朱婧.武漢理工大學(xué) 2014
[6]中文文本分類中互信息特征選擇方法研究[D]. 鄧彩鳳.西南大學(xué) 2011



本文編號(hào):3062834

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3062834.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cf175***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com