基于情感分類的微博主題挖掘算法的研究及應(yīng)用
本文關(guān)鍵詞:基于情感分類的微博主題挖掘算法的研究及應(yīng)用
更多相關(guān)文章: 微博 評論信息 主題挖掘 情感分析 SC-LDA SVM LDA
【摘要】:當(dāng)今,微博在創(chuàng)新科技影響下得到迅猛發(fā)展,使得越來越多的人們在其平臺(tái)上發(fā)表對自己關(guān)注的各種信息的評論,該平臺(tái)已經(jīng)成為人們?nèi)粘I畹囊徊糠。在微博平臺(tái)上時(shí)時(shí)刻刻都會(huì)產(chǎn)生大量由用戶發(fā)表的言論信息,包括新聞人物、突發(fā)事件、購物體驗(yàn)等等。這些信息中不僅帶有用戶的情感傾向,而且所含有的主題信息包含著重要的社會(huì)價(jià)值和商業(yè)價(jià)值。因此,分析微博上的評論信息的情感傾向,挖掘出主題信息,找出人們所關(guān)心和需要的信息就顯得尤為重要,也成為了當(dāng)前許多學(xué)者的研究熱點(diǎn)。本論文的研究重點(diǎn)是如何從微博評論信息中挖掘出潛在的、具有價(jià)值的、蘊(yùn)含情感的主題信息。論文的主要工作和創(chuàng)新點(diǎn)如下:(1)考慮到評論信息中正向情感的表達(dá)和負(fù)向情感的表達(dá)對主題結(jié)果的意義完全不同,本文提出了一種將文本分類和主題挖掘相結(jié)合的微博主題挖掘算法SC-LDA(Sentiment Classification-Latent Dirichlet Allocation,SC-LDA)。SC-LDA算法的基本思想是:對微博上的評論信息進(jìn)行分詞處理后的數(shù)據(jù)首先利用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行情感分類,得到正向情感和負(fù)向情感兩類數(shù)據(jù),然后再利用LDA(Latent Dirichlet Allocation,LDA)模型對已分類的評論信息進(jìn)行相關(guān)主題挖掘。(2)對本文提出的主題挖掘算法(SC-LDA)進(jìn)行了仿真實(shí)驗(yàn),仿真結(jié)果表明SC-LDA對測試數(shù)據(jù)集的大小不敏感,對數(shù)據(jù)源的來源不敏感。同時(shí)對獲取的未經(jīng)過分類處理的微博數(shù)據(jù)也進(jìn)行了主題挖掘的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明挖掘得到的主題信息不能夠有效的表明用戶的情感傾向,可能會(huì)影響第三方的推斷。從而從相反方向驗(yàn)證了本文所提出算法的有效性。(3)同時(shí)為了能夠獲得更好的用戶體驗(yàn),針對SC-LDA算法,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于情感分類的微博主題挖掘系統(tǒng)。系統(tǒng)實(shí)現(xiàn)了微博數(shù)據(jù)的抓取、數(shù)據(jù)的預(yù)處理、特征提取、情感分類、主題挖掘、挖掘結(jié)果的呈現(xiàn)等功能。
【關(guān)鍵詞】:微博 評論信息 主題挖掘 情感分析 SC-LDA SVM LDA
【學(xué)位授予單位】:重慶師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092;TP391.1
【目錄】:
- 中文摘要5-6
- 英文摘要6-10
- 1 緒論10-17
- 1.1 研究背景和意義10-11
- 1.2 國內(nèi)外研究現(xiàn)狀11-14
- 1.3 主要研究內(nèi)容14-15
- 1.4 本論文結(jié)構(gòu)15-17
- 2 情感分類與微博主題挖掘的相關(guān)技術(shù)17-23
- 2.1 研究意義17
- 2.2 微博的特點(diǎn)和功能17-18
- 2.3 預(yù)處理技術(shù)18-19
- 2.3.1 中文分詞技術(shù)18
- 2.3.2 詞典匹配分詞技術(shù)18-19
- 2.3.3 分詞工具19
- 2.4 情感特征的抽取方法19
- 2.4.1 情感詞典的特征抽取19
- 2.4.2 表情符號的抽取19
- 2.5 情感分析相關(guān)技術(shù)19-21
- 2.5.1 微博單詞極性分析20
- 2.5.2 微博全文情感極性的分析20-21
- 2.6 主題挖掘21-22
- 2.7 本章總結(jié)22-23
- 3 中文微博情感分析23-30
- 3.1 研究意義23-24
- 3.2 情感分類24-25
- 3.3 具體實(shí)現(xiàn)25-28
- 3.3.1 預(yù)處理模塊26
- 3.3.2 情感特征抽取模塊26-27
- 3.3.3 構(gòu)造特征向量27-28
- 3.4 實(shí)驗(yàn)結(jié)果與分析28-29
- 3.5 本章總結(jié)29-30
- 4 基于情感分類的微博主題挖掘30-40
- 4.1 LDA模型30-32
- 4.1.1 LDA的模型表示和生成30-31
- 4.1.2 符號和定義31-32
- 4.2 Gibbs抽樣32-33
- 4.3 基于情感分類的微博主題挖掘模型SC-LDA33-34
- 4.4 仿真實(shí)驗(yàn)及結(jié)果分析34-39
- 4.4.1 SC-LDA模型對測試集的大小不敏感35-37
- 4.4.2 SC-LDA模型對數(shù)據(jù)源的來源不敏感37-38
- 4.4.3 驗(yàn)證SC-LDA方法的有效性38-39
- 4.5 本章總結(jié)39-40
- 5 SC-LDA算法系統(tǒng)實(shí)現(xiàn)40-47
- 5.1 系統(tǒng)功能模塊構(gòu)成40
- 5.2 系統(tǒng)的框架結(jié)構(gòu)40-41
- 5.3 系統(tǒng)具體實(shí)現(xiàn)41-46
- 5.3.1 系統(tǒng)開發(fā)平臺(tái)42-43
- 5.3.2 預(yù)處理模塊43-44
- 5.3.3 情感分類模塊44-45
- 5.3.4 主題挖掘模塊45-46
- 5.4 本章總結(jié)46-47
- 6 結(jié)論與展望47-50
- 6.1 論文工作總結(jié)47-48
- 6.2 論文展望48-50
- 參考文獻(xiàn)50-53
- 附錄A53-54
- 致謝54-55
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 吳玲達(dá),謝毓湘,欒悉道,肖鵬;互聯(lián)網(wǎng)多媒體主題信息自動(dòng)收集與處理系統(tǒng)的研制[J];計(jì)算機(jī)應(yīng)用研究;2005年05期
2 蔣凡,高俊波,張敏,王煦法;BBS中主題發(fā)現(xiàn)原型系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)工程與應(yīng)用;2005年31期
3 周亦鵬;杜軍平;;基于時(shí)空情境模型的主題跟蹤[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年08期
4 陳雄;都云程;李渝勤;施水才;;基于頁面結(jié)構(gòu)分析的論壇主題信息定位方法研究[J];微計(jì)算機(jī)信息;2010年27期
5 何利益;陸國鋒;羅鵬;;動(dòng)態(tài)新聞主題信息推薦系統(tǒng)設(shè)計(jì)[J];指揮信息系統(tǒng)與技術(shù);2013年04期
6 關(guān)慧芬;師軍;;基于本體的主題爬蟲技術(shù)研究[J];計(jì)算機(jī)仿真;2009年10期
7 張宇;宋巍;劉挺;李生;;基于URL主題的查詢分類方法[J];計(jì)算機(jī)研究與發(fā)展;2012年06期
8 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期
9 呂聚旺;都云程;王弘蔚;施水才;;基于新型主題信息量化方法的Web主題信息提取研究[J];現(xiàn)代圖書情報(bào)技術(shù);2008年12期
10 朱夢麟;李光耀;周毅敏;;基于樹比較的Web頁面主題信息抽取[J];微型機(jī)與應(yīng)用;2011年19期
中國重要會(huì)議論文全文數(shù)據(jù)庫 前6條
1 吳晨;宋丹;薛德軍;師慶輝;;科技主題識別及表示[A];第五屆全國信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
2 熊方;王曉宇;鄭駿;周傲英;;ITED:一種基于鏈接的主題提取和主題發(fā)現(xiàn)系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2002年
3 王玉婷;杜亞軍;涂騰濤;;基于Web鏈接的主題爬行蟲初始URL的研究[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上)[C];2008年
4 馮少卿;都云程;施水才;;基于模板的網(wǎng)頁主題信息抽取[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年
5 王琦;唐世渭;楊冬青;王騰蛟;;基于DOM的網(wǎng)頁主題信息自動(dòng)提取[A];第二十一屆中國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2004年
6 刁宇峰;王昊;林鴻飛;楊亮;;博客中重復(fù)評論發(fā)現(xiàn)[A];中國計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前4條
1 楊肖;基于主題的互聯(lián)網(wǎng)信息抓取研究[D];浙江大學(xué);2014年
2 趙一鳴;基于多維尺度分析的潛在主題可視化研究[D];華中師范大學(xué);2013年
3 吳永輝;面向?qū)I(yè)領(lǐng)域的網(wǎng)絡(luò)信息采集及主題檢測技術(shù)研究與應(yīng)用[D];哈爾濱工業(yè)大學(xué);2010年
4 薛利;面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問題研究[D];復(fù)旦大學(xué);2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 解琰;主題優(yōu)化過濾方法研究與應(yīng)用[D];大連海事大學(xué);2015年
2 楊春艷;基于語義和引用加權(quán)的文獻(xiàn)主題提取研究[D];浙江大學(xué);2015年
3 盧洋;基于主題模型的混合推薦算法研究[D];電子科技大學(xué);2014年
4 黃志;基于維基歧義頁的搜索結(jié)果聚類方法研究[D];北京理工大學(xué);2015年
5 王亮;基于主題模型的文本挖掘的研究[D];大連理工大學(xué);2015年
6 任昱鳳;基于Hadoop的分布式主題爬蟲及其實(shí)現(xiàn)[D];陜西師范大學(xué);2015年
7 韓琳;基于貝葉斯主題爬蟲的研究與實(shí)現(xiàn)[D];北京工業(yè)大學(xué);2015年
8 黎楠;面向?qū)@闹黝}挖掘技術(shù)研究及應(yīng)用[D];北京工業(yè)大學(xué);2015年
9 劉學(xué)江;超大規(guī)模社交網(wǎng)絡(luò)中基于結(jié)構(gòu)與主題的社團(tuán)挖掘[D];電子科技大學(xué);2015年
10 黃文強(qiáng);安卓技術(shù)信息的主題爬蟲技術(shù)研究與實(shí)現(xiàn)[D];東南大學(xué);2015年
,本文編號:875323
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/875323.html