基于分布式爬蟲(chóng)的游戲輿情監(jiān)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
發(fā)布時(shí)間:2022-08-11 09:34
隨著游戲市場(chǎng)的崛起,游戲相關(guān)從業(yè)人員亟需了解玩家對(duì)游戲的實(shí)際體驗(yàn),以便有針對(duì)性地指導(dǎo)游戲運(yùn)營(yíng)與開(kāi)發(fā)。與此同時(shí),在輿情信息監(jiān)測(cè)的實(shí)際業(yè)務(wù)中,也存在著手動(dòng)收集評(píng)論信息范圍過(guò)窄、信息處理效率過(guò)低以及分析結(jié)果過(guò)為主觀等問(wèn)題。因此,為了滿足業(yè)務(wù)需求,本文設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于分布式爬蟲(chóng)的游戲輿情監(jiān)測(cè)系統(tǒng)。該輿情監(jiān)測(cè)系統(tǒng)將高效分布式爬蟲(chóng)與輿情分析系統(tǒng)結(jié)合,可以實(shí)時(shí)高效地進(jìn)行游戲評(píng)論數(shù)據(jù)獲取和分析并通過(guò)可視化圖表直觀地進(jìn)行展示。文本主要工作如下:1.分布式游戲主題增量爬蟲(chóng)。為解決游戲評(píng)價(jià)數(shù)量大、更新快、分布散的問(wèn)題,本文設(shè)計(jì)了一個(gè)基于Master-Slave架構(gòu)的分布式網(wǎng)絡(luò)增量數(shù)據(jù)獲取系統(tǒng),以實(shí)時(shí)、高效地收集信息,同時(shí)設(shè)計(jì)了一個(gè)進(jìn)行信息抽取的通用論壇信息抽取算法。此外,利用redis實(shí)現(xiàn)了一個(gè)高效的分布式Bloom Filter,極大提升了分布式環(huán)境下URL去重的效率。2.游戲評(píng)論數(shù)據(jù)分析。本文設(shè)計(jì)了包含網(wǎng)絡(luò)新詞發(fā)現(xiàn)、游戲熱點(diǎn)追蹤和游戲情感分析的游戲評(píng)論數(shù)據(jù)分析系統(tǒng)。針對(duì)游戲評(píng)論數(shù)據(jù)中新詞、專有名詞多的問(wèn)題,使用左右熵和互信息結(jié)合游戲知識(shí)庫(kù)實(shí)現(xiàn)了Tire樹(shù)加速的游戲?qū)S行略~發(fā)現(xiàn)算法;針對(duì)從業(yè)人員自動(dòng)探...
【文章頁(yè)數(shù)】:88 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 項(xiàng)目背景
1.2 項(xiàng)目目的與意義
1.3 國(guó)內(nèi)外發(fā)展與研究現(xiàn)狀
1.3.1 分布式爬蟲(chóng)
1.3.2 情感傾向分析
1.3.3 輿情監(jiān)測(cè)系統(tǒng)
1.4 論文主要工作
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)技術(shù)
2.1 分布式網(wǎng)絡(luò)爬蟲(chóng)
2.1.1 爬蟲(chóng)基本知識(shí)
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架構(gòu)
2.1.4 信息抽取策略
2.2 文本數(shù)據(jù)處理
2.2.1 中文分詞技術(shù)
2.2.2 CBOW與 Skip-Gram模型
2.2.3 LSTM模型
2.3 系統(tǒng)實(shí)現(xiàn)相關(guān)框架結(jié)構(gòu)
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js圖表庫(kù)
2.4 本章小結(jié)
第三章 游戲輿情監(jiān)測(cè)系統(tǒng)總體架構(gòu)
3.1 游戲輿情監(jiān)測(cè)系統(tǒng)整體結(jié)構(gòu)
3.1.1 游戲輿情監(jiān)測(cè)系統(tǒng)整體層次結(jié)構(gòu)設(shè)計(jì)
3.1.2 游戲輿情監(jiān)測(cè)系統(tǒng)整體模塊設(shè)計(jì)
3.2 游戲輿情監(jiān)測(cè)系統(tǒng)詳細(xì)功能設(shè)計(jì)
3.2.1 系統(tǒng)后臺(tái)監(jiān)控
3.2.2 自動(dòng)處理任務(wù)
3.2.3 數(shù)據(jù)可視化前端
3.3 網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)
3.4 數(shù)據(jù)庫(kù)設(shè)計(jì)
3.5 本章小結(jié)
第四章 分布式增量爬蟲(chóng)子系統(tǒng)
4.1 論壇信息抽取模塊
4.1.1 CPEA論壇信息通用抽取算法
4.1.2 其他關(guān)鍵信息提取
4.1.3 手動(dòng)抽取標(biāo)準(zhǔn)接口設(shè)計(jì)
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter設(shè)計(jì)原理
4.2.2 基于Redis的 Bloom Filter算法實(shí)現(xiàn)
4.3 分布式增量爬蟲(chóng)子系統(tǒng)整體結(jié)構(gòu)
4.3.1 分布式增量爬蟲(chóng)子系統(tǒng)流程設(shè)計(jì)
4.3.2 分布式增量爬蟲(chóng)支撐性組件
4.3.3 分布式增量爬蟲(chóng)增量策略設(shè)計(jì)
4.3.4 分布式增量爬蟲(chóng)架構(gòu)設(shè)計(jì)
4.4 本章小結(jié)
第五章 游戲評(píng)論數(shù)據(jù)分析子系統(tǒng)
5.1 游戲評(píng)論數(shù)據(jù)預(yù)處理
5.1.1 游戲評(píng)論數(shù)據(jù)清洗
5.2 游戲評(píng)論數(shù)據(jù)新詞發(fā)現(xiàn)GCD算法
5.2.1 GCD算法設(shè)計(jì)
5.2.2 Tire樹(shù)加速的GCD算法實(shí)現(xiàn)
5.2.3 游戲評(píng)論數(shù)據(jù)知識(shí)GCD詞典生成
5.3 游戲熱點(diǎn)挖掘
5.4 GCSC游戲評(píng)論數(shù)據(jù)情感傾向分類器
5.4.1 Emotion-Skip Gram詞向量模型
5.4.2 GCSC情感傾向分類器設(shè)計(jì)
5.5 本章小結(jié)
第六章 游戲輿情監(jiān)測(cè)系統(tǒng)實(shí)現(xiàn)與測(cè)試
6.1 總體實(shí)現(xiàn)框架
6.2 重點(diǎn)模塊實(shí)現(xiàn)
6.2.1 系統(tǒng)監(jiān)測(cè)模塊實(shí)現(xiàn)
6.2.2 游戲輿情可視化模塊實(shí)現(xiàn)
6.2.3 分布式增量爬蟲(chóng)監(jiān)控模塊實(shí)現(xiàn)
6.3 系統(tǒng)測(cè)試
6.3.1 測(cè)試環(huán)境
6.3.2 測(cè)試用例
6.3.3 系統(tǒng)性能測(cè)試
6.4 算法效果測(cè)試
6.4.1 Tire樹(shù)加速的GCD算法效果測(cè)試
6.4.2 GCSC情感傾向分類器效果測(cè)試
6.5 本章小結(jié)
第七章 結(jié)論與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻(xiàn)】:
期刊論文
[1]基于公眾情緒上下文的LSTM情感分析研究——以臺(tái)風(fēng)“利奇馬”為例[J]. 陳凌,宋衍欣. 現(xiàn)代情報(bào). 2020(06)
[2]基于事理圖譜的網(wǎng)絡(luò)輿情事件預(yù)測(cè)方法研究[J]. 單曉紅,龐世紅,劉曉燕,楊娟. 情報(bào)理論與實(shí)踐. 2020(10)
[3]淺析三層架構(gòu)的組成及優(yōu)勢(shì)[J]. 陳敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交網(wǎng)絡(luò)輿情事件綜合評(píng)價(jià)研究[J]. 趙慶亮,王培勇,劉佳欣,侯亞文,吳靖. 情報(bào)探索. 2019(12)
[5]Python最新Web編程框架Flask研究[J]. 葉鋒. 電腦編程技巧與維護(hù). 2015(15)
[6]網(wǎng)絡(luò)輿情熱點(diǎn)話題聚類方法研究[J]. 張壽華,劉振鵬. 小型微型計(jì)算機(jī)系統(tǒng). 2013(03)
[7]基于話題檢測(cè)與聚類的內(nèi)部輿情監(jiān)測(cè)系統(tǒng)[J]. 李忠俊. 計(jì)算機(jī)科學(xué). 2012(12)
[8]如何開(kāi)發(fā)輿情監(jiān)測(cè)產(chǎn)品?——人民網(wǎng)輿情監(jiān)測(cè)室的運(yùn)作模式[J]. 羅婷,李成. 中國(guó)記者. 2010(06)
[9]網(wǎng)絡(luò)輿情熱點(diǎn)信息自動(dòng)發(fā)現(xiàn)方法[J]. 鄭魁,疏學(xué)明,袁宏永. 計(jì)算機(jī)工程. 2010(03)
[10]網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng)、指標(biāo)與機(jī)制[J]. 曾潤(rùn)喜,徐曉林. 情報(bào)雜志. 2009(11)
本文編號(hào):3674416
【文章頁(yè)數(shù)】:88 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 項(xiàng)目背景
1.2 項(xiàng)目目的與意義
1.3 國(guó)內(nèi)外發(fā)展與研究現(xiàn)狀
1.3.1 分布式爬蟲(chóng)
1.3.2 情感傾向分析
1.3.3 輿情監(jiān)測(cè)系統(tǒng)
1.4 論文主要工作
1.5 論文組織結(jié)構(gòu)
第二章 相關(guān)技術(shù)
2.1 分布式網(wǎng)絡(luò)爬蟲(chóng)
2.1.1 爬蟲(chóng)基本知識(shí)
2.1.2 Bloom Filter
2.1.3 Master-Slave分布式架構(gòu)
2.1.4 信息抽取策略
2.2 文本數(shù)據(jù)處理
2.2.1 中文分詞技術(shù)
2.2.2 CBOW與 Skip-Gram模型
2.2.3 LSTM模型
2.3 系統(tǒng)實(shí)現(xiàn)相關(guān)框架結(jié)構(gòu)
2.3.1 Flask框架
2.3.2 Angular JS
2.3.3 Chart.js圖表庫(kù)
2.4 本章小結(jié)
第三章 游戲輿情監(jiān)測(cè)系統(tǒng)總體架構(gòu)
3.1 游戲輿情監(jiān)測(cè)系統(tǒng)整體結(jié)構(gòu)
3.1.1 游戲輿情監(jiān)測(cè)系統(tǒng)整體層次結(jié)構(gòu)設(shè)計(jì)
3.1.2 游戲輿情監(jiān)測(cè)系統(tǒng)整體模塊設(shè)計(jì)
3.2 游戲輿情監(jiān)測(cè)系統(tǒng)詳細(xì)功能設(shè)計(jì)
3.2.1 系統(tǒng)后臺(tái)監(jiān)控
3.2.2 自動(dòng)處理任務(wù)
3.2.3 數(shù)據(jù)可視化前端
3.3 網(wǎng)絡(luò)拓?fù)湓O(shè)計(jì)
3.4 數(shù)據(jù)庫(kù)設(shè)計(jì)
3.5 本章小結(jié)
第四章 分布式增量爬蟲(chóng)子系統(tǒng)
4.1 論壇信息抽取模塊
4.1.1 CPEA論壇信息通用抽取算法
4.1.2 其他關(guān)鍵信息提取
4.1.3 手動(dòng)抽取標(biāo)準(zhǔn)接口設(shè)計(jì)
4.2 基于Redis的 Bloom Filter
4.2.1 基于Redis的 Bloom Filter設(shè)計(jì)原理
4.2.2 基于Redis的 Bloom Filter算法實(shí)現(xiàn)
4.3 分布式增量爬蟲(chóng)子系統(tǒng)整體結(jié)構(gòu)
4.3.1 分布式增量爬蟲(chóng)子系統(tǒng)流程設(shè)計(jì)
4.3.2 分布式增量爬蟲(chóng)支撐性組件
4.3.3 分布式增量爬蟲(chóng)增量策略設(shè)計(jì)
4.3.4 分布式增量爬蟲(chóng)架構(gòu)設(shè)計(jì)
4.4 本章小結(jié)
第五章 游戲評(píng)論數(shù)據(jù)分析子系統(tǒng)
5.1 游戲評(píng)論數(shù)據(jù)預(yù)處理
5.1.1 游戲評(píng)論數(shù)據(jù)清洗
5.2 游戲評(píng)論數(shù)據(jù)新詞發(fā)現(xiàn)GCD算法
5.2.1 GCD算法設(shè)計(jì)
5.2.2 Tire樹(shù)加速的GCD算法實(shí)現(xiàn)
5.2.3 游戲評(píng)論數(shù)據(jù)知識(shí)GCD詞典生成
5.3 游戲熱點(diǎn)挖掘
5.4 GCSC游戲評(píng)論數(shù)據(jù)情感傾向分類器
5.4.1 Emotion-Skip Gram詞向量模型
5.4.2 GCSC情感傾向分類器設(shè)計(jì)
5.5 本章小結(jié)
第六章 游戲輿情監(jiān)測(cè)系統(tǒng)實(shí)現(xiàn)與測(cè)試
6.1 總體實(shí)現(xiàn)框架
6.2 重點(diǎn)模塊實(shí)現(xiàn)
6.2.1 系統(tǒng)監(jiān)測(cè)模塊實(shí)現(xiàn)
6.2.2 游戲輿情可視化模塊實(shí)現(xiàn)
6.2.3 分布式增量爬蟲(chóng)監(jiān)控模塊實(shí)現(xiàn)
6.3 系統(tǒng)測(cè)試
6.3.1 測(cè)試環(huán)境
6.3.2 測(cè)試用例
6.3.3 系統(tǒng)性能測(cè)試
6.4 算法效果測(cè)試
6.4.1 Tire樹(shù)加速的GCD算法效果測(cè)試
6.4.2 GCSC情感傾向分類器效果測(cè)試
6.5 本章小結(jié)
第七章 結(jié)論與展望
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的研究成果
致謝
附件
【參考文獻(xiàn)】:
期刊論文
[1]基于公眾情緒上下文的LSTM情感分析研究——以臺(tái)風(fēng)“利奇馬”為例[J]. 陳凌,宋衍欣. 現(xiàn)代情報(bào). 2020(06)
[2]基于事理圖譜的網(wǎng)絡(luò)輿情事件預(yù)測(cè)方法研究[J]. 單曉紅,龐世紅,劉曉燕,楊娟. 情報(bào)理論與實(shí)踐. 2020(10)
[3]淺析三層架構(gòu)的組成及優(yōu)勢(shì)[J]. 陳敏. 信息通信. 2020(01)
[4]基于TOPSIS的社交網(wǎng)絡(luò)輿情事件綜合評(píng)價(jià)研究[J]. 趙慶亮,王培勇,劉佳欣,侯亞文,吳靖. 情報(bào)探索. 2019(12)
[5]Python最新Web編程框架Flask研究[J]. 葉鋒. 電腦編程技巧與維護(hù). 2015(15)
[6]網(wǎng)絡(luò)輿情熱點(diǎn)話題聚類方法研究[J]. 張壽華,劉振鵬. 小型微型計(jì)算機(jī)系統(tǒng). 2013(03)
[7]基于話題檢測(cè)與聚類的內(nèi)部輿情監(jiān)測(cè)系統(tǒng)[J]. 李忠俊. 計(jì)算機(jī)科學(xué). 2012(12)
[8]如何開(kāi)發(fā)輿情監(jiān)測(cè)產(chǎn)品?——人民網(wǎng)輿情監(jiān)測(cè)室的運(yùn)作模式[J]. 羅婷,李成. 中國(guó)記者. 2010(06)
[9]網(wǎng)絡(luò)輿情熱點(diǎn)信息自動(dòng)發(fā)現(xiàn)方法[J]. 鄭魁,疏學(xué)明,袁宏永. 計(jì)算機(jī)工程. 2010(03)
[10]網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警系統(tǒng)、指標(biāo)與機(jī)制[J]. 曾潤(rùn)喜,徐曉林. 情報(bào)雜志. 2009(11)
本文編號(hào):3674416
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3674416.html
最近更新
教材專著