基于詞典與改進(jìn)信息增益的微博情感分析
發(fā)布時(shí)間:2021-03-30 16:16
隨著計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)的發(fā)展日新月異,社交媒體與網(wǎng)絡(luò)平臺(tái)已然成為人們獲取、發(fā)布、共享、傳播信息的載體。這些信息對(duì)于政府與企業(yè)進(jìn)行網(wǎng)絡(luò)輿情監(jiān)控、電子商務(wù)等都具有重要的社會(huì)意義與商業(yè)價(jià)值。本文以新浪微博平臺(tái)中的人們所發(fā)布的語(yǔ)料信息為研究對(duì)象,重點(diǎn)研究分析了情感分析任務(wù)中基于情感詞典與基于機(jī)器學(xué)習(xí)的兩種方法。主要研究?jī)?nèi)容如下:1.針對(duì)現(xiàn)有的情感詞典由于對(duì)網(wǎng)絡(luò)新詞的涵蓋率較低而無(wú)法應(yīng)用于微博領(lǐng)域的情感分析問(wèn)題,本文搜集了當(dāng)前現(xiàn)有的一些基礎(chǔ)情感詞典,網(wǎng)絡(luò)情感詞典與表情符號(hào)庫(kù),并在去重后構(gòu)造了基礎(chǔ)綜合情感詞典。針對(duì)SO-PMI算法中共現(xiàn)窗口大小與語(yǔ)料庫(kù)規(guī)模對(duì)算法效果產(chǎn)生不利影響等問(wèn)題,本文提出了使用距離互信息與古德-圖靈平滑方法來(lái)對(duì)SO-PMI算法進(jìn)行優(yōu)化,并利用改進(jìn)后的SO-PMI算法來(lái)擴(kuò)展基于微博領(lǐng)域的情感詞典。通過(guò)實(shí)驗(yàn)對(duì)比綜合基礎(chǔ)情感詞典、基于傳統(tǒng)SO-PMI算法擴(kuò)展的情感詞典、基于拉普拉斯平滑的SO-PMI算法擴(kuò)展的情感詞典以及本文所構(gòu)建的中文微博綜合情感詞典,使用本文所構(gòu)建的情感詞典進(jìn)行情感分析的效果皆好于其他三種情感詞典。2.研究分析了常用的特征選擇算法并著重研究了信息增益算法。針對(duì)傳統(tǒng)...
【文章來(lái)源】:安徽理工大學(xué)安徽省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1文檔的向量空間模型示意圖??Fig2-1?Schematic?diagram?of?the?vector?space?model?of?the?document??
使兩側(cè)的所有節(jié)點(diǎn)距離平面最遠(yuǎn),兩個(gè)類之間的距離最遠(yuǎn),從而提供分類能力。??有許多超平面符合條件,為了找到超平面,平面兩側(cè)的白色空間最大化以實(shí)現(xiàn)最??準(zhǔn)確的分類。SVM在二維空間下的分類原理如圖2-2所示:??i?\??\?H:?=?0??〇?\?m?H+:'lp-x+b=l??c-°?〇?:w?x?+?b?=?-l??????圖2-2?SVM分類原理圖??Fig2-2?SVM?classification?schematic??15??
將其進(jìn)行整合,并利用距離互信息與古德-圖靈平滑結(jié)合改進(jìn)后的SO-PMI算法對(duì)??微博領(lǐng)域的情感詞典進(jìn)行擴(kuò)展,將兩者整合構(gòu)建出中文微博綜合情感詞典。主要??組成結(jié)構(gòu)如圖3-1所示:??中文微博綜合情感詞典??構(gòu)建???T?????議合—詞典碰.?囂???y???5;???iii????^調(diào)構(gòu)|?|M絡(luò):^典|?卜?1獅|?|程度_詞典|?|否定詞詞典??圖3-1中文微博情感詞典組成結(jié)構(gòu)圖??Fig3-1?Chinese?Weibo?Sentiment?Dictionary?Composition?Chart??3.2基礎(chǔ)綜合情感詞典構(gòu)建??本節(jié)將利用幾種常用情感詞典整合構(gòu)建成的基礎(chǔ)微博情感詞典,網(wǎng)絡(luò)情感詞??典,表情符號(hào)詞典,程度副詞詞典,否定詞詞典等構(gòu)建綜合基礎(chǔ)情感詞典。??3.2.1基礎(chǔ)情感詞典構(gòu)建??本節(jié)將當(dāng)前使用廣泛的幾種中文情感詞典收集整合后構(gòu)建成基礎(chǔ)情感詞典。??1.知網(wǎng)??中科院的董振東教授耗費(fèi)十年時(shí)間構(gòu)造了知網(wǎng)(Hownet)知識(shí)體系t43],同時(shí)??知網(wǎng)也是一部較為詳實(shí)的語(yǔ)義知識(shí)詞典。在知網(wǎng)中,部分詞語(yǔ)的情感傾向可以由??構(gòu)成其概念的義原(漢語(yǔ)中最小語(yǔ)義單位)表示出來(lái)。目前,已經(jīng)在網(wǎng)上公布了??情感詞匯資源信息分為主張?jiān)~語(yǔ)、正面情感詞語(yǔ)、正面評(píng)價(jià)詞語(yǔ)、負(fù)面情感詞語(yǔ)、??負(fù)面評(píng)價(jià)詞語(yǔ)和程度級(jí)別詞語(yǔ)。本文選取知網(wǎng)情感詞匯資源中的正、反面情感詞??語(yǔ),正、反面評(píng)價(jià)詞語(yǔ)來(lái)加入基礎(chǔ)情感詞典中。??本文選用HowNet中情感詞的具體數(shù)目如表3-1所示:??20??
【參考文獻(xiàn)】:
期刊論文
[1]基于語(yǔ)義的微博短文本傾向性分析研究[J]. 馬力,劉笑,宮玉龍. 計(jì)算機(jī)應(yīng)用研究. 2016(10)
[2]面向中文微博的觀點(diǎn)句識(shí)別研究[J]. 丁晟春,孟美任,李霄. 情報(bào)學(xué)報(bào). 2014 (02)
[3]微博產(chǎn)品評(píng)論挖掘模型研究[J]. 唐曉波,王洪艷. 情報(bào)雜志. 2013(02)
[4]基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 劉志明,劉魯. 計(jì)算機(jī)工程與應(yīng)用. 2012(01)
[5]網(wǎng)絡(luò)評(píng)論情感語(yǔ)料庫(kù)的構(gòu)建研究[J]. 崔大志,李媛. 中國(guó)社會(huì)科學(xué)院研究生院學(xué)報(bào). 2010(04)
[6]微博:一種蘊(yùn)含巨大能量的新型傳播形態(tài)[J]. 喻國(guó)明. 新聞與寫作. 2010(02)
[7]中文文本分類中的文本表示因素比較[J]. 張愛(ài)華,荊繼武,向繼. 中國(guó)科學(xué)院研究生院學(xué)報(bào). 2009(03)
[8]中文分詞算法解析[J]. 張磊,張代遠(yuǎn). 電腦知識(shí)與技術(shù). 2009(01)
[9]知識(shí)抽取中的停用詞處理技術(shù)[J]. 化柏林. 現(xiàn)代圖書情報(bào)技術(shù). 2007(08)
[10]基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J]. 徐琳宏,林鴻飛,楊志豪. 中文信息學(xué)報(bào). 2007(01)
博士論文
[1]自動(dòng)文本分類若干基本問(wèn)題研究[D]. 宋楓溪.南京理工大學(xué) 2004
碩士論文
[1]基于機(jī)器學(xué)習(xí)的微博情感分析及應(yīng)用[D]. 張俊東.北京郵電大學(xué) 2017
[2]中文情感詞匯本體的擴(kuò)充及應(yīng)用[D]. 趙虹杰.大連理工大學(xué) 2015
[3]中文微博情感分析[D]. 張俊.西北民族大學(xué) 2015
[4]面向中文微博文本的情感分類研究[D]. 杜銳.湖南工業(yè)大學(xué) 2014
[5]基于情感詞典與規(guī)則結(jié)合的微博情感分析模型研究[D]. 楊希.安徽大學(xué) 2014
[6]基于語(yǔ)義情感空間模型的微博情感傾向性研究[D]. 游建平.暨南大學(xué) 2012
[7]搜索引擎中文分詞技術(shù)研究[D]. 任麗蕓.重慶理工大學(xué) 2011
本文編號(hào):3109783
【文章來(lái)源】:安徽理工大學(xué)安徽省
【文章頁(yè)數(shù)】:72 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖2-1文檔的向量空間模型示意圖??Fig2-1?Schematic?diagram?of?the?vector?space?model?of?the?document??
使兩側(cè)的所有節(jié)點(diǎn)距離平面最遠(yuǎn),兩個(gè)類之間的距離最遠(yuǎn),從而提供分類能力。??有許多超平面符合條件,為了找到超平面,平面兩側(cè)的白色空間最大化以實(shí)現(xiàn)最??準(zhǔn)確的分類。SVM在二維空間下的分類原理如圖2-2所示:??i?\??\?H:?=?0??〇?\?m?H+:'lp-x+b=l??c-°?〇?:w?x?+?b?=?-l??????圖2-2?SVM分類原理圖??Fig2-2?SVM?classification?schematic??15??
將其進(jìn)行整合,并利用距離互信息與古德-圖靈平滑結(jié)合改進(jìn)后的SO-PMI算法對(duì)??微博領(lǐng)域的情感詞典進(jìn)行擴(kuò)展,將兩者整合構(gòu)建出中文微博綜合情感詞典。主要??組成結(jié)構(gòu)如圖3-1所示:??中文微博綜合情感詞典??構(gòu)建???T?????議合—詞典碰.?囂???y???5;???iii????^調(diào)構(gòu)|?|M絡(luò):^典|?卜?1獅|?|程度_詞典|?|否定詞詞典??圖3-1中文微博情感詞典組成結(jié)構(gòu)圖??Fig3-1?Chinese?Weibo?Sentiment?Dictionary?Composition?Chart??3.2基礎(chǔ)綜合情感詞典構(gòu)建??本節(jié)將利用幾種常用情感詞典整合構(gòu)建成的基礎(chǔ)微博情感詞典,網(wǎng)絡(luò)情感詞??典,表情符號(hào)詞典,程度副詞詞典,否定詞詞典等構(gòu)建綜合基礎(chǔ)情感詞典。??3.2.1基礎(chǔ)情感詞典構(gòu)建??本節(jié)將當(dāng)前使用廣泛的幾種中文情感詞典收集整合后構(gòu)建成基礎(chǔ)情感詞典。??1.知網(wǎng)??中科院的董振東教授耗費(fèi)十年時(shí)間構(gòu)造了知網(wǎng)(Hownet)知識(shí)體系t43],同時(shí)??知網(wǎng)也是一部較為詳實(shí)的語(yǔ)義知識(shí)詞典。在知網(wǎng)中,部分詞語(yǔ)的情感傾向可以由??構(gòu)成其概念的義原(漢語(yǔ)中最小語(yǔ)義單位)表示出來(lái)。目前,已經(jīng)在網(wǎng)上公布了??情感詞匯資源信息分為主張?jiān)~語(yǔ)、正面情感詞語(yǔ)、正面評(píng)價(jià)詞語(yǔ)、負(fù)面情感詞語(yǔ)、??負(fù)面評(píng)價(jià)詞語(yǔ)和程度級(jí)別詞語(yǔ)。本文選取知網(wǎng)情感詞匯資源中的正、反面情感詞??語(yǔ),正、反面評(píng)價(jià)詞語(yǔ)來(lái)加入基礎(chǔ)情感詞典中。??本文選用HowNet中情感詞的具體數(shù)目如表3-1所示:??20??
【參考文獻(xiàn)】:
期刊論文
[1]基于語(yǔ)義的微博短文本傾向性分析研究[J]. 馬力,劉笑,宮玉龍. 計(jì)算機(jī)應(yīng)用研究. 2016(10)
[2]面向中文微博的觀點(diǎn)句識(shí)別研究[J]. 丁晟春,孟美任,李霄. 情報(bào)學(xué)報(bào). 2014 (02)
[3]微博產(chǎn)品評(píng)論挖掘模型研究[J]. 唐曉波,王洪艷. 情報(bào)雜志. 2013(02)
[4]基于機(jī)器學(xué)習(xí)的中文微博情感分類實(shí)證研究[J]. 劉志明,劉魯. 計(jì)算機(jī)工程與應(yīng)用. 2012(01)
[5]網(wǎng)絡(luò)評(píng)論情感語(yǔ)料庫(kù)的構(gòu)建研究[J]. 崔大志,李媛. 中國(guó)社會(huì)科學(xué)院研究生院學(xué)報(bào). 2010(04)
[6]微博:一種蘊(yùn)含巨大能量的新型傳播形態(tài)[J]. 喻國(guó)明. 新聞與寫作. 2010(02)
[7]中文文本分類中的文本表示因素比較[J]. 張愛(ài)華,荊繼武,向繼. 中國(guó)科學(xué)院研究生院學(xué)報(bào). 2009(03)
[8]中文分詞算法解析[J]. 張磊,張代遠(yuǎn). 電腦知識(shí)與技術(shù). 2009(01)
[9]知識(shí)抽取中的停用詞處理技術(shù)[J]. 化柏林. 現(xiàn)代圖書情報(bào)技術(shù). 2007(08)
[10]基于語(yǔ)義理解的文本傾向性識(shí)別機(jī)制[J]. 徐琳宏,林鴻飛,楊志豪. 中文信息學(xué)報(bào). 2007(01)
博士論文
[1]自動(dòng)文本分類若干基本問(wèn)題研究[D]. 宋楓溪.南京理工大學(xué) 2004
碩士論文
[1]基于機(jī)器學(xué)習(xí)的微博情感分析及應(yīng)用[D]. 張俊東.北京郵電大學(xué) 2017
[2]中文情感詞匯本體的擴(kuò)充及應(yīng)用[D]. 趙虹杰.大連理工大學(xué) 2015
[3]中文微博情感分析[D]. 張俊.西北民族大學(xué) 2015
[4]面向中文微博文本的情感分類研究[D]. 杜銳.湖南工業(yè)大學(xué) 2014
[5]基于情感詞典與規(guī)則結(jié)合的微博情感分析模型研究[D]. 楊希.安徽大學(xué) 2014
[6]基于語(yǔ)義情感空間模型的微博情感傾向性研究[D]. 游建平.暨南大學(xué) 2012
[7]搜索引擎中文分詞技術(shù)研究[D]. 任麗蕓.重慶理工大學(xué) 2011
本文編號(hào):3109783
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3109783.html
最近更新
教材專著