輿情系統(tǒng)中文章相似性分析和摘要生成的研究與實現(xiàn)
發(fā)布時間:2023-07-31 19:44
近年來我國互聯(lián)網(wǎng)普及率穩(wěn)步上升,越來越多的網(wǎng)民參與到網(wǎng)絡(luò)輿情事件的發(fā)生、發(fā)展與傳播過程中,網(wǎng)絡(luò)輿情數(shù)據(jù)以指數(shù)形式增長。面對海量的輿情數(shù)據(jù),如何快速找到社會事件相關(guān)的輿情文本并生成摘要性總結(jié),供人們對輿情事件發(fā)展作出判斷是一件十分有意義的事情。在此背景下,輿情系統(tǒng)應(yīng)運而生。輿情系統(tǒng)是網(wǎng)絡(luò)輿情信息的自動采集與分析工具。系統(tǒng)通過網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中自動收集輿情數(shù)據(jù),通過輿情檢索、監(jiān)測功能幫助用戶快速定位到輿情文本,結(jié)合數(shù)據(jù)統(tǒng)計與文本自動摘要功能為用戶提供分析報表與文字內(nèi)容總結(jié),幫助用戶全面地了解輿情事件。本文設(shè)計并實現(xiàn)了一個針對新聞文本的輿情系統(tǒng),在研究文章相似性分析與摘要生成技術(shù)的基礎(chǔ)上,重點實現(xiàn)了系統(tǒng)中的多文本自動摘要功能。本文的具體工作內(nèi)容包括如下幾個方面:1)對文本相似性分析以及文本自動摘要技術(shù)的研究進展進行了介紹,分析相關(guān)方法的優(yōu)缺點;2)研究并實現(xiàn)了基于ALN(Association Link Network,關(guān)聯(lián)語義鏈網(wǎng)絡(luò))的文章相似性分析方法。針對ALN語義節(jié)點存在多義詞的情況,按照詞性重新劃分,并通過基于位置的節(jié)點權(quán)重系數(shù),增強語義網(wǎng)絡(luò)對文本語義信息的表示能力。在使用社區(qū)發(fā)現(xiàn)...
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 研究目標(biāo)與內(nèi)容
1.3 本文結(jié)構(gòu)與組織
第二章 相關(guān)理論與技術(shù)
2.1 文章相似性分析
2.1.1 基于詞袋模型的相似性分析
2.1.2 基于主題模型的相似性分析
2.1.3 基于序列化模型的相似性分析
2.2 文本摘要
2.2.1 文本摘要的概述
2.2.2 文本摘要的研究現(xiàn)狀
2.3 本章小結(jié)
第三章 基于關(guān)聯(lián)語義鏈網(wǎng)絡(luò)的文章相似性分析
3.1 關(guān)聯(lián)語義鏈網(wǎng)絡(luò)
3.2 事件語義發(fā)現(xiàn)方法
3.2.1 概述
3.2.2 文本預(yù)處理
3.2.3 構(gòu)建關(guān)聯(lián)語義鏈網(wǎng)絡(luò)
3.2.4 語義社區(qū)發(fā)現(xiàn)算法
3.3 文章相似性分析方法
3.3.1 文本映射
3.3.2 重建事件語義社區(qū)
3.4 實驗驗證
3.4.1 數(shù)據(jù)集
3.4.2 評價標(biāo)準(zhǔn)
3.4.3 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 輿情文本的摘要自動生成
4.1 基于Seq2Seq框架的短文本摘要模型
4.1.1 層級化模型概述
4.1.2 層級化注意力機制
4.1.3 OOV問題處理
4.1.4 重復(fù)生成問題處理
4.1.5 實驗驗證
4.2 基于網(wǎng)絡(luò)圖結(jié)構(gòu)的多文檔摘要生成方法
4.2.1 LexRank算法
4.2.2 摘要句得分計算
4.2.3 冗余處理
4.2.4 語句排序
4.2.5 實驗驗證
4.3 分段式的多文檔摘要生成方法
4.4 本章小結(jié)
第五章 輿情系統(tǒng)的設(shè)計與實現(xiàn)
5.1 用例分析
5.2 系統(tǒng)架構(gòu)設(shè)計
5.3 核心功能模塊設(shè)計
5.3.1 文本采集模塊
5.3.2 數(shù)據(jù)預(yù)處理模塊
5.3.3 輿情檢索模塊
5.3.4 統(tǒng)計分析模塊
5.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計
5.5 系統(tǒng)主要功能實現(xiàn)
5.5.1 新聞文本采集
5.5.2 數(shù)據(jù)預(yù)處理
5.5.3 輿情檢索與輿情監(jiān)測
5.5.4 文本自動摘要
5.6 系統(tǒng)功能驗證
5.7 本章小結(jié)
第六章 總結(jié)與展望
參考文獻
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
本文編號:3837983
【文章頁數(shù)】:87 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景與意義
1.2 研究目標(biāo)與內(nèi)容
1.3 本文結(jié)構(gòu)與組織
第二章 相關(guān)理論與技術(shù)
2.1 文章相似性分析
2.1.1 基于詞袋模型的相似性分析
2.1.2 基于主題模型的相似性分析
2.1.3 基于序列化模型的相似性分析
2.2 文本摘要
2.2.1 文本摘要的概述
2.2.2 文本摘要的研究現(xiàn)狀
2.3 本章小結(jié)
第三章 基于關(guān)聯(lián)語義鏈網(wǎng)絡(luò)的文章相似性分析
3.1 關(guān)聯(lián)語義鏈網(wǎng)絡(luò)
3.2 事件語義發(fā)現(xiàn)方法
3.2.1 概述
3.2.2 文本預(yù)處理
3.2.3 構(gòu)建關(guān)聯(lián)語義鏈網(wǎng)絡(luò)
3.2.4 語義社區(qū)發(fā)現(xiàn)算法
3.3 文章相似性分析方法
3.3.1 文本映射
3.3.2 重建事件語義社區(qū)
3.4 實驗驗證
3.4.1 數(shù)據(jù)集
3.4.2 評價標(biāo)準(zhǔn)
3.4.3 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 輿情文本的摘要自動生成
4.1 基于Seq2Seq框架的短文本摘要模型
4.1.1 層級化模型概述
4.1.2 層級化注意力機制
4.1.3 OOV問題處理
4.1.4 重復(fù)生成問題處理
4.1.5 實驗驗證
4.2 基于網(wǎng)絡(luò)圖結(jié)構(gòu)的多文檔摘要生成方法
4.2.1 LexRank算法
4.2.2 摘要句得分計算
4.2.3 冗余處理
4.2.4 語句排序
4.2.5 實驗驗證
4.3 分段式的多文檔摘要生成方法
4.4 本章小結(jié)
第五章 輿情系統(tǒng)的設(shè)計與實現(xiàn)
5.1 用例分析
5.2 系統(tǒng)架構(gòu)設(shè)計
5.3 核心功能模塊設(shè)計
5.3.1 文本采集模塊
5.3.2 數(shù)據(jù)預(yù)處理模塊
5.3.3 輿情檢索模塊
5.3.4 統(tǒng)計分析模塊
5.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計
5.5 系統(tǒng)主要功能實現(xiàn)
5.5.1 新聞文本采集
5.5.2 數(shù)據(jù)預(yù)處理
5.5.3 輿情檢索與輿情監(jiān)測
5.5.4 文本自動摘要
5.6 系統(tǒng)功能驗證
5.7 本章小結(jié)
第六章 總結(jié)與展望
參考文獻
致謝
攻讀碩士學(xué)位期間已發(fā)表或錄用的論文
本文編號:3837983
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3837983.html
最近更新
教材專著