中文旅游評論的情感分析研究
本文關(guān)鍵詞:中文旅游評論的情感分析研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著全球旅游業(yè)快速發(fā)展和人們生活水平的提高,旅游逐漸成為人們閑暇時問的生活方式。然而,每個游客都會面臨旅行目的地景點或酒店的選擇決策問題。國內(nèi)外一些知名的旅游網(wǎng)站上均包含豐富的旅游評論信息,為廣大游客的選擇決策提供重要依據(jù)。對這些用戶發(fā)布的反饋和評價進行情感分析研究,無論在理論分析和實際應用上都具有重要意義。目前國內(nèi)旅游領(lǐng)域的情感分析研究不夠深入,未能考慮到中文的復雜多樣性和評論集的不平衡性。針對以上問題,本文以攜程網(wǎng)為語料源,面向中文旅游評論進行了情感分析研究。由于語料集呈現(xiàn)較大的不平衡性,為消除不平衡因素的影響,本文主要分為平衡集和不平衡集的情感分類研究兩部分。在平衡集的研究中,本文在特征提取層面提出了兩種改進方法:一是基于旅游主題詞+情感詞序列的特征提取算法,二是基于中文句式的特征改進方法。在此基礎(chǔ)上,本文構(gòu)建了SVM分類模型,對以上兩種方法的有效性進行了驗證。實驗結(jié)果表明,改進方法提取了旅游維度各屬性的特征及情感意見詞,降低了特征的維度;能夠有效識別復雜評論中真正表達的情感。在不平衡集的研究中,本文采用過抽樣算法合成負面樣本,降低數(shù)據(jù)集的不平衡性。本文討論了SMOTE和BSMOTE算法的局限性,比如忽略了孤立點的影響,采樣倍率不合理導致分類性能下降。針對這兩個問題,本文提出了MSMOTE算法,并與前兩種算法的性能進行了對比分析。實驗結(jié)果表明,MSMOTE算法有效地提高了負面樣本的分類性能。本文建立了適應旅游領(lǐng)域的情感分類模型,降低了數(shù)據(jù)不平衡性對情感分類的影響,并提高了未知評論的分類準確率,可以幫助游客迅速識別評論的情感傾向,并為旅行目的地的滿意度分析提供理論依據(jù)。
【關(guān)鍵詞】:情感分析 特征提取 SVM分類 不平衡集 過抽樣算法
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
- 致謝5-6
- 摘要6-7
- ABSTRACT7-12
- 1 引言12-16
- 1.1 研究背景與意義12-13
- 1.2 國內(nèi)外研究現(xiàn)狀13-14
- 1.2.1 國外研究現(xiàn)狀13
- 1.2.2 國內(nèi)研究現(xiàn)狀13-14
- 1.2.3 旅游領(lǐng)域的研究現(xiàn)狀14
- 1.3 本文的工作14-15
- 1.4 本文的章節(jié)結(jié)構(gòu)15-16
- 2 情感分析相關(guān)理論概述16-28
- 2.1 情感分析的定義16
- 2.2 情感分類的基本原理16-18
- 2.2.1 基于機器學習的情感分類16-17
- 2.2.2 基于語義分析的情感分類17-18
- 2.3 情感分類的主要步驟及技術(shù)18-25
- 2.3.1 文本預處理18-19
- 2.3.2 文本的表示19-20
- 2.3.3 特征選擇20-22
- 2.3.4 文本特征加權(quán)22-23
- 2.3.5 SVM分類算法23-25
- 2.4 文本分類評價標準25-27
- 2.5 本章小結(jié)27-28
- 3 中文旅行評論情感分析28-47
- 3.1 中文語料的獲取28-31
- 3.1.1 評論指標的構(gòu)建28-29
- 3.1.2 在線評論的收集29-31
- 3.2 語料清理和人工分類31-33
- 3.3 情感分析實驗33-36
- 3.3.1 中文分詞和詞性標注33-34
- 3.3.2 SVM分類實驗34-36
- 3.3.3 實驗結(jié)果及分析36
- 3.4 基于序列化規(guī)則的改進36-41
- 3.4.1 主題詞與情感詞37-38
- 3.4.2 序列化規(guī)則38-39
- 3.4.3 實驗結(jié)果及分析39-41
- 3.5 基于中文句式的改進41-46
- 3.5.1 復雜句式和總結(jié)句42-43
- 3.5.2 實驗方案設(shè)計43-44
- 3.5.3 實驗結(jié)果及分析44-46
- 3.6 本章小結(jié)46-47
- 4 不平衡數(shù)據(jù)情感分類47-63
- 4.1 不平衡數(shù)據(jù)分類的研究方法47-49
- 4.1.1 欠抽樣方法48-49
- 4.1.2 過抽樣方法49
- 4.2 基于SMOTE算法的不平衡分類49-53
- 4.2.1 SMOTE算法描述50-51
- 4.2.2 基于SMOTE算法的分類實驗51-53
- 4.2.3 SMOTE算法的優(yōu)缺點53
- 4.3 基于BSMOTE算法的不平衡分類53-57
- 4.3.1 BSMOTE算法描述54-55
- 4.3.2 基于BSMOTE算法的分類實驗55-57
- 4.4 改進的BSMOTE算法57-62
- 4.4.1 MSMOTE算法描述57-59
- 4.4.2 合成倍率設(shè)置59-60
- 4.4.3 實驗結(jié)果與分析60-62
- 4.5 本章小結(jié)62-63
- 5 總結(jié)與展望63-65
- 5.1 論文總結(jié)63
- 5.2 不足與展望63-65
- 參考文獻65-67
- 作者簡歷及攻讀碩士/博士學位期間取得的研究成果67-69
- 學位論文數(shù)據(jù)集69
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前8條
1 覃國蓉;葉志成;莊檳豪;蔡哲聰;;旅游網(wǎng)絡(luò)評論情感分析方法研究及系統(tǒng)實現(xiàn)[J];深圳信息職業(yè)技術(shù)學院學報;2015年03期
2 邸鵬;李愛萍;段利國;;基于轉(zhuǎn)折句式的文本情感傾向性分析[J];計算機工程與設(shè)計;2014年12期
3 傅向華;劉國;郭巖巖;郭武彪;;中文博客多方面話題情感分析研究[J];中文信息學報;2013年01期
4 王振宇;吳澤衡;胡方濤;;基于HowNet和PMI的詞語情感極性計算[J];計算機工程;2012年15期
5 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學報;2012年01期
6 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計算機工程;2010年17期
7 李維杰;;情感分析與認知[J];計算機科學;2010年07期
8 徐琳宏;林鴻飛;楊志豪;;基于語義理解的文本傾向性識別機制[J];中文信息學報;2007年01期
中國博士學位論文全文數(shù)據(jù)庫 前2條
1 劉楠;面向微博短文本的情感分析研究[D];武漢大學;2013年
2 廖一星;文本分類及其特征降維研究[D];浙江大學;2012年
中國碩士學位論文全文數(shù)據(jù)庫 前5條
1 崔連超;互聯(lián)網(wǎng)評論文本情感分析研究[D];山東大學;2015年
2 樊小超;基于機器學習的中文文本主題分類及情感分類研究[D];南京理工大學;2014年
3 韓秋玲;過抽樣算法在不平衡數(shù)據(jù)學習中的應用[D];華南理工大學;2011年
4 張巖;基于SVM算法的文本分類器的實現(xiàn)[D];電子科技大學;2011年
5 曹斌;互聯(lián)網(wǎng)上旅游評論的情感分析及其有用性研究[D];哈爾濱工業(yè)大學;2008年
本文關(guān)鍵詞:中文旅游評論的情感分析研究,由筆耕文化傳播整理發(fā)布。
,本文編號:295119
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/295119.html