天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

中文旅游評論的情感分析研究

發(fā)布時間:2017-04-09 11:09

  本文關(guān)鍵詞:中文旅游評論的情感分析研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著全球旅游業(yè)快速發(fā)展和人們生活水平的提高,旅游逐漸成為人們閑暇時問的生活方式。然而,每個游客都會面臨旅行目的地景點或酒店的選擇決策問題。國內(nèi)外一些知名的旅游網(wǎng)站上均包含豐富的旅游評論信息,為廣大游客的選擇決策提供重要依據(jù)。對這些用戶發(fā)布的反饋和評價進行情感分析研究,無論在理論分析和實際應用上都具有重要意義。目前國內(nèi)旅游領(lǐng)域的情感分析研究不夠深入,未能考慮到中文的復雜多樣性和評論集的不平衡性。針對以上問題,本文以攜程網(wǎng)為語料源,面向中文旅游評論進行了情感分析研究。由于語料集呈現(xiàn)較大的不平衡性,為消除不平衡因素的影響,本文主要分為平衡集和不平衡集的情感分類研究兩部分。在平衡集的研究中,本文在特征提取層面提出了兩種改進方法:一是基于旅游主題詞+情感詞序列的特征提取算法,二是基于中文句式的特征改進方法。在此基礎(chǔ)上,本文構(gòu)建了SVM分類模型,對以上兩種方法的有效性進行了驗證。實驗結(jié)果表明,改進方法提取了旅游維度各屬性的特征及情感意見詞,降低了特征的維度;能夠有效識別復雜評論中真正表達的情感。在不平衡集的研究中,本文采用過抽樣算法合成負面樣本,降低數(shù)據(jù)集的不平衡性。本文討論了SMOTE和BSMOTE算法的局限性,比如忽略了孤立點的影響,采樣倍率不合理導致分類性能下降。針對這兩個問題,本文提出了MSMOTE算法,并與前兩種算法的性能進行了對比分析。實驗結(jié)果表明,MSMOTE算法有效地提高了負面樣本的分類性能。本文建立了適應旅游領(lǐng)域的情感分類模型,降低了數(shù)據(jù)不平衡性對情感分類的影響,并提高了未知評論的分類準確率,可以幫助游客迅速識別評論的情感傾向,并為旅行目的地的滿意度分析提供理論依據(jù)。
【關(guān)鍵詞】:情感分析 特征提取 SVM分類 不平衡集 過抽樣算法
【學位授予單位】:北京交通大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP391.1
【目錄】:
  • 致謝5-6
  • 摘要6-7
  • ABSTRACT7-12
  • 1 引言12-16
  • 1.1 研究背景與意義12-13
  • 1.2 國內(nèi)外研究現(xiàn)狀13-14
  • 1.2.1 國外研究現(xiàn)狀13
  • 1.2.2 國內(nèi)研究現(xiàn)狀13-14
  • 1.2.3 旅游領(lǐng)域的研究現(xiàn)狀14
  • 1.3 本文的工作14-15
  • 1.4 本文的章節(jié)結(jié)構(gòu)15-16
  • 2 情感分析相關(guān)理論概述16-28
  • 2.1 情感分析的定義16
  • 2.2 情感分類的基本原理16-18
  • 2.2.1 基于機器學習的情感分類16-17
  • 2.2.2 基于語義分析的情感分類17-18
  • 2.3 情感分類的主要步驟及技術(shù)18-25
  • 2.3.1 文本預處理18-19
  • 2.3.2 文本的表示19-20
  • 2.3.3 特征選擇20-22
  • 2.3.4 文本特征加權(quán)22-23
  • 2.3.5 SVM分類算法23-25
  • 2.4 文本分類評價標準25-27
  • 2.5 本章小結(jié)27-28
  • 3 中文旅行評論情感分析28-47
  • 3.1 中文語料的獲取28-31
  • 3.1.1 評論指標的構(gòu)建28-29
  • 3.1.2 在線評論的收集29-31
  • 3.2 語料清理和人工分類31-33
  • 3.3 情感分析實驗33-36
  • 3.3.1 中文分詞和詞性標注33-34
  • 3.3.2 SVM分類實驗34-36
  • 3.3.3 實驗結(jié)果及分析36
  • 3.4 基于序列化規(guī)則的改進36-41
  • 3.4.1 主題詞與情感詞37-38
  • 3.4.2 序列化規(guī)則38-39
  • 3.4.3 實驗結(jié)果及分析39-41
  • 3.5 基于中文句式的改進41-46
  • 3.5.1 復雜句式和總結(jié)句42-43
  • 3.5.2 實驗方案設(shè)計43-44
  • 3.5.3 實驗結(jié)果及分析44-46
  • 3.6 本章小結(jié)46-47
  • 4 不平衡數(shù)據(jù)情感分類47-63
  • 4.1 不平衡數(shù)據(jù)分類的研究方法47-49
  • 4.1.1 欠抽樣方法48-49
  • 4.1.2 過抽樣方法49
  • 4.2 基于SMOTE算法的不平衡分類49-53
  • 4.2.1 SMOTE算法描述50-51
  • 4.2.2 基于SMOTE算法的分類實驗51-53
  • 4.2.3 SMOTE算法的優(yōu)缺點53
  • 4.3 基于BSMOTE算法的不平衡分類53-57
  • 4.3.1 BSMOTE算法描述54-55
  • 4.3.2 基于BSMOTE算法的分類實驗55-57
  • 4.4 改進的BSMOTE算法57-62
  • 4.4.1 MSMOTE算法描述57-59
  • 4.4.2 合成倍率設(shè)置59-60
  • 4.4.3 實驗結(jié)果與分析60-62
  • 4.5 本章小結(jié)62-63
  • 5 總結(jié)與展望63-65
  • 5.1 論文總結(jié)63
  • 5.2 不足與展望63-65
  • 參考文獻65-67
  • 作者簡歷及攻讀碩士/博士學位期間取得的研究成果67-69
  • 學位論文數(shù)據(jù)集69

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前8條

1 覃國蓉;葉志成;莊檳豪;蔡哲聰;;旅游網(wǎng)絡(luò)評論情感分析方法研究及系統(tǒng)實現(xiàn)[J];深圳信息職業(yè)技術(shù)學院學報;2015年03期

2 邸鵬;李愛萍;段利國;;基于轉(zhuǎn)折句式的文本情感傾向性分析[J];計算機工程與設(shè)計;2014年12期

3 傅向華;劉國;郭巖巖;郭武彪;;中文博客多方面話題情感分析研究[J];中文信息學報;2013年01期

4 王振宇;吳澤衡;胡方濤;;基于HowNet和PMI的詞語情感極性計算[J];計算機工程;2012年15期

5 謝麗星;周明;孫茂松;;基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J];中文信息學報;2012年01期

6 楊凱峰;張毅坤;李燕;;基于文檔頻率的特征選擇方法[J];計算機工程;2010年17期

7 李維杰;;情感分析與認知[J];計算機科學;2010年07期

8 徐琳宏;林鴻飛;楊志豪;;基于語義理解的文本傾向性識別機制[J];中文信息學報;2007年01期

中國博士學位論文全文數(shù)據(jù)庫 前2條

1 劉楠;面向微博短文本的情感分析研究[D];武漢大學;2013年

2 廖一星;文本分類及其特征降維研究[D];浙江大學;2012年

中國碩士學位論文全文數(shù)據(jù)庫 前5條

1 崔連超;互聯(lián)網(wǎng)評論文本情感分析研究[D];山東大學;2015年

2 樊小超;基于機器學習的中文文本主題分類及情感分類研究[D];南京理工大學;2014年

3 韓秋玲;過抽樣算法在不平衡數(shù)據(jù)學習中的應用[D];華南理工大學;2011年

4 張巖;基于SVM算法的文本分類器的實現(xiàn)[D];電子科技大學;2011年

5 曹斌;互聯(lián)網(wǎng)上旅游評論的情感分析及其有用性研究[D];哈爾濱工業(yè)大學;2008年


  本文關(guān)鍵詞:中文旅游評論的情感分析研究,由筆耕文化傳播整理發(fā)布。

,

本文編號:295119

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/295119.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶51437***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com