情感是人類(lèi)智能表現(xiàn)的一種特征。情感既可以是身體上生理狀態(tài)發(fā)生變化的反映,也可通過(guò)文本加以表達(dá)。目前研究情感分析的語(yǔ)料資源大部分來(lái)源于用戶(hù)評(píng)論文本。評(píng)論文本已成為消費(fèi)者購(gòu)買(mǎi)商品的重要參考。從文本中獲取情感信息,首先要從文本中抽取語(yǔ)義特征信息并加以分類(lèi)。因?yàn)闊o(wú)法及時(shí)提取到信息豐富的評(píng)論,且基于詞典的方法或基于機(jī)器學(xué)習(xí)的方法量化得到的情感特征過(guò)于片面,無(wú)法很好的輔助消費(fèi)者進(jìn)行決策,所以提取評(píng)論文本的情感特征及對(duì)評(píng)論文本進(jìn)行主客觀分類(lèi)的研究就有現(xiàn)實(shí)意義。但基于詞典的研究依賴(lài)于情感詞典,由于新的詞匯以及未登錄詞較多,情感詞典的構(gòu)建難度較大,且詞語(yǔ)缺少?gòu)?qiáng)度量化。機(jī)器學(xué)習(xí)的方法不能較好解決多個(gè)情感詞時(shí)引發(fā)的情感發(fā)散問(wèn)題。本文提出了結(jié)合詞典和機(jī)器學(xué)習(xí)的情感分析方法,得到可以提高預(yù)測(cè)評(píng)論主客觀性的正確率的情感特征組合。本文將手機(jī)評(píng)論文本作為研究對(duì)象進(jìn)行相關(guān)情感分析研究工作,將基于詞典與主題模型結(jié)合方法、基于機(jī)器學(xué)習(xí)方法以及詞典和機(jī)器學(xué)習(xí)組合方法得到的情感特征進(jìn)行量化表示。實(shí)驗(yàn)比較量化的情感特征對(duì)主客觀分類(lèi)的影響。本文的研究工作如下:(1)詞典擴(kuò)充與極性計(jì)算研究。在基于詞典的情感分析中,針對(duì)目前通用情感詞典無(wú)法滿(mǎn)足特定領(lǐng)域情感分析的要求,本文基于SO-PMI算法構(gòu)建了由通用詞典、擴(kuò)展詞典和專(zhuān)用領(lǐng)域詞典組合的手機(jī)領(lǐng)域的專(zhuān)屬情感詞庫(kù)。并利用其情感詞抽取和主題模型特征表示的結(jié)合方法對(duì)相應(yīng)情感特征進(jìn)行量化表示。實(shí)驗(yàn)得出,與基于詞典的方法相比,詞典與主題模型相結(jié)合的方法進(jìn)一步優(yōu)化了情感特征的量化表示。(2)機(jī)器學(xué)習(xí)的情感特征挖掘。在特征選擇和組合、特征維度和分類(lèi)算法選擇方面進(jìn)行最優(yōu)化,最大化情感分類(lèi)準(zhǔn)確率。手機(jī)評(píng)論領(lǐng)域的情感分類(lèi)時(shí)采用貝葉斯、邏輯回歸、支持向量機(jī)這三種分類(lèi)算法,實(shí)驗(yàn)得貝葉斯分類(lèi)效果最好。以所有詞、雙詞搭配、所有詞和雙詞搭配、信息量豐富的詞、信息豐富的詞和雙詞搭配作為特征選擇組合方式,實(shí)驗(yàn)得出信息豐富的詞和雙詞搭配為特征在1000維時(shí)取得最優(yōu)分類(lèi)效果。(3)特征選擇與分類(lèi)算法研究。將基于詞典的方法得到的情感權(quán)值、均值、標(biāo)準(zhǔn)差與基于機(jī)器學(xué)習(xí)的方法得到的積極、消極情感概率作為情感特征候選項(xiàng),并結(jié)合信息特征、屬性特征、語(yǔ)言特征進(jìn)行隨機(jī)森林構(gòu)造,通過(guò)隨機(jī)森林分類(lèi)器對(duì)評(píng)論文本主客觀分類(lèi)預(yù)測(cè),研究不同情感特征候選項(xiàng)組合對(duì)主客觀分類(lèi)預(yù)測(cè)的影響,得到結(jié)合詞典和機(jī)器學(xué)習(xí)的情感分析方法得到的情感特征組合分類(lèi)準(zhǔn)確率最高,且隨機(jī)森林分類(lèi)算法比支持向量機(jī)和貝葉斯分類(lèi)算法的準(zhǔn)確率有很大的提升。
【學(xué)位授予單位】:西安郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP391.1;TP181
文章目錄
摘要
ABSTRACT
主要符號(hào)表
第1章 緒論
1.1 研究背景與意義
1.2 研究現(xiàn)狀
1.3 主要研究?jī)?nèi)容
1.4 論文組織結(jié)構(gòu)
第2章 文本情感分析相關(guān)技術(shù)
2.1 情感分析流程
2.2 文本預(yù)處理
2.2.1 中文分詞
2.2.2 詞性標(biāo)注
2.3 文本表示模型
2.4 文本特征與權(quán)重計(jì)算
2.4.1 文本特征選擇
2.4.2 特征權(quán)重計(jì)算
2.5 情感詞典
2.6 文本分類(lèi)算法與性能
2.6.1 貝葉斯
2.6.2 邏輯回歸
2.6.3 支持向量機(jī)
2.6.4 隨機(jī)森林
2.7 分類(lèi)性能
2.7.1 正確率、召回率和F-測(cè)度值
2.7.2 微平均和宏平均
2.8 本章小結(jié)
第3章 基于情感詞典和LDA的情感特征提取
3.1 基于SO-PMI算法的情感詞典擴(kuò)充
3.2 情感詞典的構(gòu)建
3.2.1 通用基礎(chǔ)詞典
3.2.2 擴(kuò)充詞典
3.2.3 領(lǐng)域詞典的構(gòu)建
3.3 基于LDA的文本主題模型的構(gòu)造與改進(jìn)
3.3.1 潛在狄利克雷分配主題模型構(gòu)造
3.3.2 改進(jìn)LDA模型的文本主題分類(lèi)
3.4 基于詞典和LDA的文本情感值計(jì)算
3.5 實(shí)驗(yàn)結(jié)果及分析
3.5.1 特征權(quán)重選擇
3.5.2 特基于詞典與LDA結(jié)合的情感分類(lèi)實(shí)驗(yàn)
3.6 本章小結(jié)
第4章 基于評(píng)論文本的機(jī)器學(xué)習(xí)分類(lèi)算法研究
4.1 基本流程
4.2 特征選擇
4.3 情感分類(lèi)
4.4 實(shí)驗(yàn)結(jié)果及分析
4.5 本章小結(jié)
第5章 基于情感特征的主客觀分類(lèi)預(yù)測(cè)
5.1 基本流程
5.2 特征選擇與驗(yàn)證
5.3 基于隨機(jī)森林的主客觀分類(lèi)算法
5.4 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)
5.4.1 實(shí)驗(yàn)環(huán)境
5.4.2 實(shí)驗(yàn)數(shù)據(jù)
5.5 實(shí)驗(yàn)結(jié)果及分析
5.5.1 實(shí)驗(yàn)結(jié)果
5.5.2 實(shí)驗(yàn)結(jié)果分析
5.6 本章小結(jié)
第6章 總結(jié)與展望
6.1 相關(guān)工作總結(jié)
6.2 下一步研究方向
參考文獻(xiàn)
攻讀學(xué)位期間取得的研究成果
致謝
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 夏潤(rùn)海,王開(kāi)顏;機(jī)器學(xué)習(xí)與智能決策支持系統(tǒng)[J];濰坊學(xué)院學(xué)報(bào);2003年02期
2 張明玉,倪志偉;基于機(jī)器學(xué)習(xí)的智能決策支持系統(tǒng)[J];淮南師范學(xué)院學(xué)報(bào);2005年03期
3 楊凌霄;武建平;;機(jī)器學(xué)習(xí)方法在人臉檢測(cè)中的應(yīng)用[J];計(jì)算機(jī)與數(shù)字工程;2008年03期
4 ;第十一屆中國(guó)機(jī)器學(xué)習(xí)會(huì)議[J];智能系統(tǒng)學(xué)報(bào);2008年02期
5 ;第14屆中國(guó)機(jī)器學(xué)習(xí)會(huì)議[J];智能系統(tǒng)學(xué)報(bào);2012年06期
6 費(fèi)宗銘;呂建;王志堅(jiān);陳道蓄;徐家福;;機(jī)器學(xué)習(xí)[J];計(jì)算機(jī)科學(xué);1991年01期
7 趙沁平;魏華;王軍玲;;機(jī)器學(xué)習(xí)技術(shù)與機(jī)器學(xué)習(xí)系統(tǒng)[J];計(jì)算機(jī)科學(xué);1993年05期
8 姚敏;機(jī)器學(xué)習(xí)及其發(fā)展方向[J];計(jì)算機(jī)時(shí)代;1994年04期
9 ;第31屆機(jī)器學(xué)習(xí)國(guó)際會(huì)議(英文)[J];智能系統(tǒng)學(xué)報(bào);2014年01期
10 黃海濱;機(jī)器學(xué)習(xí)及其主要策略[J];河池師范高等專(zhuān)科學(xué)校學(xué)報(bào)(自然科學(xué)版);2000年04期
相關(guān)博士學(xué)位論文 前10條
1 董春茹;機(jī)器學(xué)習(xí)中的權(quán)重學(xué)習(xí)與差分演化[D];華南理工大學(xué);2015年
2 姚明臣;機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的若干問(wèn)題研究[D];大連理工大學(xué);2016年
3 Maxim Pecionchin;[D];對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué);2016年
4 杜宇;基于深度機(jī)器學(xué)習(xí)的體態(tài)與手勢(shì)感知計(jì)算關(guān)鍵技術(shù)研究[D];浙江大學(xué);2017年
5 鐘錦紅;群智學(xué)習(xí)若干問(wèn)題研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2017年
6 趙東;基于群智能優(yōu)化的機(jī)器學(xué)習(xí)方法研究及應(yīng)用[D];吉林大學(xué);2017年
7 趙玉鵬;機(jī)器學(xué)習(xí)的哲學(xué)探索[D];大連理工大學(xué);2010年
8 胡巍;面向格結(jié)構(gòu)的機(jī)器學(xué)習(xí)[D];上海交通大學(xué);2009年
9 張義榮;基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2005年
10 錢(qián)線(xiàn);快速精確的結(jié)構(gòu)化機(jī)器學(xué)習(xí)方法研究[D];復(fù)旦大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 毛海斌;基于半監(jiān)督機(jī)器學(xué)習(xí)的情感分類(lèi)領(lǐng)域適應(yīng)問(wèn)題研究[D];南京理工大學(xué);2015年
2 安軍輝;基于微博數(shù)據(jù)的微博用戶(hù)性別判斷研究[D];華中師范大學(xué);2015年
3 陳召陽(yáng);基于機(jī)器學(xué)習(xí)的改性麥槽吸附重金屬構(gòu)效關(guān)系模型研究[D];江西理工大學(xué);2014年
4 王成;基于半監(jiān)督機(jī)器學(xué)習(xí)的文本情感分析技術(shù)[D];南京理工大學(xué);2015年
5 孫科;基于Spark的機(jī)器學(xué)習(xí)應(yīng)用框架研究與實(shí)現(xiàn)[D];上海交通大學(xué);2015年
6 劉江龍;基于機(jī)器學(xué)習(xí)的射頻指紋定位方法研究[D];電子科技大學(xué);2015年
7 張蕾;基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)輿情采集技術(shù)研究與設(shè)計(jì)[D];電子科技大學(xué);2014年
8 施宇;基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的木馬檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2014年
9 施應(yīng)敏;基于機(jī)器學(xué)習(xí)的Femtocell信道頻譜與功率資源分配算法的研究[D];南京郵電大學(xué);2015年
10 裴松年;基于機(jī)器學(xué)習(xí)的分類(lèi)算法研究[D];中北大學(xué);2016年
本文編號(hào):
1444741
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/1444741.html