基于消費意圖和情感分析的票房預(yù)測建模
發(fā)布時間:2017-06-11 11:09
本文關(guān)鍵詞:基于消費意圖和情感分析的票房預(yù)測建模,由筆耕文化傳播整理發(fā)布。
【摘要】:微博作為一種新興的社交媒體,已經(jīng)積累了大量的用戶和影響力。微博不斷增加的在線評論正在極大影響著傳統(tǒng)的市場決策,使得文本挖掘成為商業(yè)界和學(xué)術(shù)界共同的熱點話題。用戶的每一條評論所匯聚成的集體智慧,不僅含有對某種商品的購買意愿,即消費意圖,此外,微博平臺上包含著用戶對商品各方面評價的用戶評論也影響消費者的購買決策。這些包含消費意圖和情感傾向的數(shù)據(jù)對科學(xué)研究和商業(yè)應(yīng)用有著極高的價值。本文以微博中電影主創(chuàng)人員的電影評論為研究對象,重點關(guān)注評論中的消費意圖和情感信息挖掘,并探討將這種信息用于票房預(yù)測。具體來說本文的工作主要包括以下五個方面:(1)對消費意圖分類進行重定義:在微博評論中即便用戶表達出了消費意圖,也不一定代表會有消費行為,因為消費意圖正例包括顯式消費意圖和隱式消費意圖。因此,本文將消費意圖正例定義為顯示消費意圖,即明確表明要進行消費的用戶。(2)對情感分類標準進行重定義:由于正面評論的數(shù)量和票房之間沒有直接的關(guān)系。因此本文首先假設(shè)如果有更多的微博評論是和票房增長相關(guān),則電影的票房會更好。基于這個假設(shè)將經(jīng)過主客觀分類的微博評論分為3類:正面評論即消費意圖正例;中性評論即對影片、演員等表達積極情感的評論;負面評論是對劇情、演技等表達負面或者消極的情感。(3)基于SVM的消費意圖挖掘:本文提出了基于SVM的消費意圖分類算法,首先通過對微博語料的觀察,定義消費意圖正例的2類特征;然后采用人工標注的方式獲得消費意圖正例;將定義的2類特征用來表示評論文本并訓(xùn)練出消費意圖分類模型,并利用該模型對給定的微博評論進行消費意圖分類;最后將分類結(jié)果與人工標注的結(jié)果對比,準確率高達73%。(4)基于SVM的情感分類:為了對評論中的信息進行挖掘,本文首先對已有的情感資源加以概括和總結(jié),使用擴展的點互信息算法(SO-PMI)判斷候選詞的情感類別,自動獲得領(lǐng)域詞典,構(gòu)建一個面向微博電影評論的情感詞典。然后,由于微博表達方式的多元化,首先對評論文本進行預(yù)處理,采用情感詞作為特征選擇;最后使用Libsvm進行情感分類。(5)將消費意圖和情感分析用于票房預(yù)測:本文探討了將消費意圖和情感分析應(yīng)用于票房預(yù)測,并使用線性回歸模型和SVR分別進行了實驗。結(jié)果表明,融入了消費意圖的模型在首映周有更好的預(yù)測效果,其對首映周的票房解釋能力高達87%。此外,本文提出的模型和Baseline實驗對比,首映周相對誤差絕對值降低了24個百分點;總票房的相對誤差絕對值降低了14個百分點。
【關(guān)鍵詞】:消費意圖 情感分析 票房預(yù)測 支持向量機 線性回歸模型
【學(xué)位授予單位】:杭州電子科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:J943;F713.55
【目錄】:
- 摘要5-6
- ABSTRACT6-11
- 1 緒論11-21
- 1.1 研究背景及意義11-12
- 1.2 研究現(xiàn)狀12-18
- 1.2.1 票房預(yù)測研究現(xiàn)狀12-15
- 1.2.2 消費意圖研究現(xiàn)狀15-16
- 1.2.3 情感分析研究現(xiàn)狀16-18
- 1.3 本文工作18-19
- 1.4 本文結(jié)構(gòu)19-20
- 1.5 本章小結(jié)20-21
- 2 相關(guān)概念及技術(shù)21-33
- 2.1 微博相關(guān)概述21-22
- 2.1.1 微博的定義及發(fā)展21
- 2.1.2 微博文本中的符號21-22
- 2.1.3 中文微博研究中的難點22
- 2.2 文本預(yù)處理22-27
- 2.2.1 中文分詞22-26
- 2.2.2 去掉停用詞26-27
- 2.3 特征選擇27-29
- 2.3.1 詞頻法27-28
- 2.3.2 文檔頻率法28
- 2.3.3 互信息法28-29
- 2.3.4 信息增益法29
- 2.3.5 CHI統(tǒng)計29
- 2.4 情感分類方法29-32
- 2.4.1 基于詞典和規(guī)則相結(jié)合的方法30
- 2.4.2 基于機器學(xué)習(xí)的方法30-32
- 2.5 本章小結(jié)32-33
- 3 基于SVM的微博消費意圖分類33-36
- 3.1 引入微博消費意圖的原因33-34
- 3.2 消費意圖語料的獲取與標注34
- 3.3 基于SVM的消費意圖挖掘34-35
- 3.3.1 問題描述34-35
- 3.3.2 微博消費意圖分類35
- 3.4 本章小結(jié)35-36
- 4 微博情感詞典構(gòu)建和情感極性分類36-46
- 4.1 情感詞典相關(guān)介紹36-38
- 4.1.1 情感術(shù)語說明36
- 4.1.2 情感詞典的重要性36-37
- 4.1.3 微博情感詞典的構(gòu)成37-38
- 4.2 情感詞典的構(gòu)建38-44
- 4.2.1 基礎(chǔ)情感詞典38
- 4.2.2 網(wǎng)絡(luò)用語情感詞典38-39
- 4.2.3 表情符號情感詞典39-40
- 4.2.4 否定詞詞典40-41
- 4.2.5 領(lǐng)域情感詞典41-44
- 4.3 基于SVM的中文微博情感極性分類44-45
- 4.3.1 文本表示模型44
- 4.3.2 基于SVM的中文微博情感極性分類44-45
- 4.4 本章小結(jié)45-46
- 5 基于消費意圖和情感分析的票房預(yù)測46-55
- 5.1 問題引出46-49
- 5.1.1 前向建模法46-47
- 5.1.2 研究假設(shè)47-49
- 5.2 預(yù)測模型49
- 5.2.1 基于線性回歸的票房預(yù)測模型49
- 5.2.2 基于SVR的票房預(yù)測模型49
- 5.3 實驗結(jié)果與分析49-54
- 5.3.1 數(shù)據(jù)準備49-50
- 5.3.2 評價指標50-51
- 5.3.3 實驗設(shè)計51
- 5.3.4 結(jié)果分析51-54
- 5.4 本章小結(jié)54-55
- 6 總結(jié)與展望55-57
- 6.1 全文總結(jié)55
- 6.2 進一步的研究方向55-57
- 致謝57-58
- 參考文獻58-61
- 附錄 161
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 峻冰;;中國電影評論的現(xiàn)狀及未來[J];電影文學(xué);2006年11期
2 李建強;;需要什么樣的電影評論?[J];電影藝術(shù);2006年01期
3 胡泊;;當下電影評論的迷失與建構(gòu)[J];新疆藝術(shù)學(xué)院學(xué)報;2009年04期
4 王宜文;李t犵,
本文編號:441474
本文鏈接:http://www.sikaile.net/wenyilunwen/dianyingdianshilunwen/441474.html