多文檔集合話題情感挖掘研究
發(fā)布時(shí)間:2021-10-29 19:35
本文研究多文檔集合話題情感挖掘。本文使用能自動(dòng)確定組件個(gè)數(shù)的層次Dirichlet過(guò)程將文檔集合表示為多個(gè)組件的混合,每個(gè)組件包含話題詞和情感成分,擴(kuò)展了話題情感混合模型。模型能夠從多文檔集合上挖掘出一組話題。話題在各文檔集上有各自的比例和對(duì)應(yīng)的情感比例,并為每個(gè)文檔集找到一個(gè)正面和一個(gè)負(fù)面詞匯分布。模型通過(guò)馬爾科夫鏈蒙特卡洛方法實(shí)現(xiàn),實(shí)驗(yàn)表明模型可以找出有意義的話題和它們的情感傾向。模型在參數(shù)設(shè)置方面比現(xiàn)有的多側(cè)面或聯(lián)合情感模型有優(yōu)勢(shì),在多領(lǐng)域情感數(shù)據(jù)集上的實(shí)驗(yàn)確認(rèn)了模型有進(jìn)行情感分析的能力。通過(guò)對(duì)中文事件微博和新聞?wù)Z料的迭代過(guò)程實(shí)驗(yàn),分析了衡量多文檔集話題混合相似程度的參數(shù),發(fā)現(xiàn)了一些微博媒體和新聞媒體的區(qū)別。新聞媒體上事件事實(shí)具體,微博則有更多的討論,例如占領(lǐng)華爾街事件中新聞具體報(bào)道示威活動(dòng)并表達(dá)了負(fù)面情緒,同時(shí)微博用戶討論不少和中國(guó)相關(guān)的話題使得正負(fù)情感變得偏向混合;新聞更多地報(bào)道本國(guó)工作,例如在馬航MH370失聯(lián)事件中對(duì)我方工作的報(bào)道。
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
主要符號(hào)對(duì)照表
第一章 緒論
1.1 研究背景及目的
1.1.1 研究背景
1.1.2 研究?jī)?nèi)容和應(yīng)用場(chǎng)景
1.2 本文組織結(jié)構(gòu)
第二章 相關(guān)工作
2.1 話題情感聯(lián)合挖掘
2.1.1 觀點(diǎn)發(fā)現(xiàn)方法
2.1.2 聯(lián)合情感話題模型
2.1.3 話題情感混合模型
2.1.4 和非聯(lián)合方法的區(qū)別
2.2 多文檔集文本建模
2.3 本章小結(jié)
第三章 多文檔集合話題情感模型
3.1 概念定義與說(shuō)明
3.2 模型設(shè)計(jì)
3.2.1 基本假設(shè)
3.2.2 模型:文檔集生成過(guò)程
3.3 模型推斷方法
3.3.1 馬爾科夫鏈蒙特卡洛方法
3.3.2 模型參數(shù)的推斷
3.3.3 模型超參數(shù)的設(shè)置
3.3.4 模型初始化簡(jiǎn)述
3.4 本章小結(jié)
第四章 實(shí)驗(yàn)結(jié)果與評(píng)測(cè)
4.1 多文檔集話題情感挖掘
4.1.1 數(shù)據(jù)集說(shuō)明
4.1.2 前提假設(shè)和模型設(shè)置
4.1.3 實(shí)驗(yàn)結(jié)果展示
4.2 文檔情感分析
4.2.1 數(shù)據(jù)集說(shuō)明
4.2.2 情感分析方法
4.2.3 模型參數(shù)設(shè)置和使用
4.2.4 實(shí)驗(yàn)結(jié)果分析
4.3 微博和新聞在同一事件上的話題情感對(duì)比研究
4.3.1 任務(wù)背景
4.3.2 數(shù)據(jù)集說(shuō)明
4.3.3 先驗(yàn)假設(shè)和參數(shù)設(shè)置
4.3.4 事件參數(shù)分析
4.3.5 實(shí)驗(yàn)結(jié)果展示與評(píng)價(jià)
4.3.6 話題情感混合迭代分析
4.3.7 本節(jié)小結(jié)
4.4 本章小結(jié)
第五章 全文總結(jié)
5.1 主要工作與創(chuàng)新點(diǎn)
5.2 后續(xù)研究工作
5.3 結(jié)束語(yǔ)
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀學(xué)位期間參與的項(xiàng)目
上海交通大學(xué)碩士學(xué)位論文答辯決議書(shū)
【參考文獻(xiàn)】:
期刊論文
[1]特定事件微博與新聞報(bào)道話題對(duì)比研究[J]. 周振宇,李芳. 中文信息學(xué)報(bào). 2014(01)
[2]面向顧客點(diǎn)評(píng)數(shù)據(jù)的屬性層次觀點(diǎn)挖掘研究(英文)[J]. 徐學(xué)可,程學(xué)旗,譚松波,劉悅,沈華偉. 中國(guó)通信. 2013(03)
[3]情感詞匯本體的構(gòu)造[J]. 徐琳宏,林鴻飛,潘宇,任惠,陳建美. 情報(bào)學(xué)報(bào). 2008 (02)
本文編號(hào):3465276
【文章來(lái)源】:上海交通大學(xué)上海市 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:66 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
主要符號(hào)對(duì)照表
第一章 緒論
1.1 研究背景及目的
1.1.1 研究背景
1.1.2 研究?jī)?nèi)容和應(yīng)用場(chǎng)景
1.2 本文組織結(jié)構(gòu)
第二章 相關(guān)工作
2.1 話題情感聯(lián)合挖掘
2.1.1 觀點(diǎn)發(fā)現(xiàn)方法
2.1.2 聯(lián)合情感話題模型
2.1.3 話題情感混合模型
2.1.4 和非聯(lián)合方法的區(qū)別
2.2 多文檔集文本建模
2.3 本章小結(jié)
第三章 多文檔集合話題情感模型
3.1 概念定義與說(shuō)明
3.2 模型設(shè)計(jì)
3.2.1 基本假設(shè)
3.2.2 模型:文檔集生成過(guò)程
3.3 模型推斷方法
3.3.1 馬爾科夫鏈蒙特卡洛方法
3.3.2 模型參數(shù)的推斷
3.3.3 模型超參數(shù)的設(shè)置
3.3.4 模型初始化簡(jiǎn)述
3.4 本章小結(jié)
第四章 實(shí)驗(yàn)結(jié)果與評(píng)測(cè)
4.1 多文檔集話題情感挖掘
4.1.1 數(shù)據(jù)集說(shuō)明
4.1.2 前提假設(shè)和模型設(shè)置
4.1.3 實(shí)驗(yàn)結(jié)果展示
4.2 文檔情感分析
4.2.1 數(shù)據(jù)集說(shuō)明
4.2.2 情感分析方法
4.2.3 模型參數(shù)設(shè)置和使用
4.2.4 實(shí)驗(yàn)結(jié)果分析
4.3 微博和新聞在同一事件上的話題情感對(duì)比研究
4.3.1 任務(wù)背景
4.3.2 數(shù)據(jù)集說(shuō)明
4.3.3 先驗(yàn)假設(shè)和參數(shù)設(shè)置
4.3.4 事件參數(shù)分析
4.3.5 實(shí)驗(yàn)結(jié)果展示與評(píng)價(jià)
4.3.6 話題情感混合迭代分析
4.3.7 本節(jié)小結(jié)
4.4 本章小結(jié)
第五章 全文總結(jié)
5.1 主要工作與創(chuàng)新點(diǎn)
5.2 后續(xù)研究工作
5.3 結(jié)束語(yǔ)
參考文獻(xiàn)
致謝
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄
攻讀學(xué)位期間參與的項(xiàng)目
上海交通大學(xué)碩士學(xué)位論文答辯決議書(shū)
【參考文獻(xiàn)】:
期刊論文
[1]特定事件微博與新聞報(bào)道話題對(duì)比研究[J]. 周振宇,李芳. 中文信息學(xué)報(bào). 2014(01)
[2]面向顧客點(diǎn)評(píng)數(shù)據(jù)的屬性層次觀點(diǎn)挖掘研究(英文)[J]. 徐學(xué)可,程學(xué)旗,譚松波,劉悅,沈華偉. 中國(guó)通信. 2013(03)
[3]情感詞匯本體的構(gòu)造[J]. 徐琳宏,林鴻飛,潘宇,任惠,陳建美. 情報(bào)學(xué)報(bào). 2008 (02)
本文編號(hào):3465276
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3465276.html
最近更新
教材專(zhuān)著