新聞事件的自動摘要研究
發(fā)布時(shí)間:2021-04-21 05:57
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)新聞的數(shù)量飛速增長,人們面對海量的新聞信息難以準(zhǔn)確快速地獲取到自己所需的關(guān)鍵信息。為此,本文設(shè)計(jì)了一種新聞事件的自動摘要系統(tǒng)。該系統(tǒng)能夠根據(jù)用戶輸入的關(guān)鍵詞采集相關(guān)事件的新聞報(bào)道,獲得新聞事件的演化過程和各個子話題的文本摘要。本文的主要工作和創(chuàng)新點(diǎn)如下。首先,出一種改進(jìn)的Single-Pass聚類算法。此算法利用Doc2vec模型表示新聞文本信息,該模型能較好地挖掘文本的語義信息。針對新聞事件子話題的特點(diǎn),設(shè)計(jì)了一種新聞報(bào)道的復(fù)合相似度計(jì)算方法。此方法充分考慮了新聞標(biāo)題對新聞文本信息表達(dá)的重要性,由新聞標(biāo)題和新聞?wù)膬?nèi)容各自相似度組成新聞報(bào)道的文本相似度。另外考慮到發(fā)布時(shí)間是新聞子話題聚類的關(guān)鍵影響因素,于是引入新聞報(bào)道的時(shí)間相似度計(jì)算方法。接著,綜合利用新聞報(bào)道的文本相似度和時(shí)間相似度共同計(jì)算新聞報(bào)道的復(fù)合相似度,給出了改進(jìn)的聚類算法。其次,出一種基于TextRank的自動文本摘要算法。針對句子的表示問題設(shè)計(jì)了一種基于Word2vec模型的表示方法來完成文本的自動摘要工作:(1)采用所出的句子表示方法將句子文本向量化;(2)從句子之間的相似度、關(guān)鍵詞的覆蓋率...
【文章來源】:南京理工大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 相關(guān)工作的研究現(xiàn)狀
1.2.1 話題檢測與跟蹤技術(shù)
1.2.2 自動文本摘要技術(shù)
1.3 本文的主要研究工作
1.4 本文結(jié)構(gòu)
2 相關(guān)理論與技術(shù)
2.1 網(wǎng)絡(luò)爬蟲技術(shù)
2.2 文本預(yù)處理及表示模型
2.3 話題檢測與跟蹤相關(guān)技術(shù)
2.3.1 話題檢測與跟蹤相關(guān)理論
2.3.2 新聞報(bào)道相似度計(jì)算
2.3.3 類簇之間距離表示法
2.3.4 文本聚類方法
2.3.5 文本聚類評價(jià)方法
2.4 自動文本摘要相關(guān)技術(shù)
2.4.1 自動文本摘要基本介紹
2.4.2 自動文本摘要評價(jià)方法
2.5 本章小結(jié)
3 改進(jìn)的Single-Pass子話題聚類算法
3.1 新聞報(bào)道表示模型
3.1.1 Doc2vec模型概述
3.1.2 新聞報(bào)道特征取
3.2 文本聚類算法
3.2.1 Single-Pass聚類算法
3.2.2 新聞報(bào)道復(fù)合相似度計(jì)算
3.2.3 改進(jìn)的Single-Pass聚類算法
3.3 聚類實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)環(huán)境
3.3.2 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)標(biāo)準(zhǔn)
3.3.3 新聞報(bào)道復(fù)合特征向量平衡因子的確定
3.3.4 類簇相似度的取值
3.3.5 聚類結(jié)果分析
3.4 本章小結(jié)
4 改進(jìn)的TextRank算法
4.1 文本特征表示
4.1.1 Word2vec模型概述
4.1.2 改進(jìn)的句子文本表示方法
4.2 文本摘要算法
4.2.1 TextRank算法
4.2.2 改進(jìn)的TextRank算法
4.3 文本摘要實(shí)驗(yàn)與結(jié)果分析
4.3.1 實(shí)驗(yàn)環(huán)境
4.3.2 實(shí)驗(yàn)數(shù)據(jù)與評價(jià)標(biāo)準(zhǔn)
4.3.3 影響因子加權(quán)系數(shù)的確定
4.3.4 實(shí)驗(yàn)結(jié)果及分析
4.4 摘要潤色處理
4.5 本章小結(jié)
5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 系統(tǒng)設(shè)計(jì)
5.2 系統(tǒng)核心模塊設(shè)計(jì)
5.2.1 新聞數(shù)據(jù)采集模塊
5.2.2 文本預(yù)處理模塊
5.2.3 子話題聚類模塊
5.2.4 自動文本摘要模塊
5.2.5 Web展示模塊
5.3 系統(tǒng)功能展示
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來工作展望
致謝
參考文獻(xiàn)
附錄
【參考文獻(xiàn)】:
期刊論文
[1]爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用探索[J]. 楊青松. 電腦知識與技術(shù). 2016(15)
[2]基于改進(jìn)的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計(jì)算機(jī)科學(xué). 2016(06)
[3]大數(shù)據(jù)聚類算法綜述[J]. 海沫. 計(jì)算機(jī)科學(xué). 2016(S1)
[4]深度學(xué)習(xí)理論綜述[J]. 韓小虎,徐鵬,韓森森. 計(jì)算機(jī)時(shí)代. 2016(06)
[5]面向社交媒體文本的話題檢測與追蹤技術(shù)研究綜述[J]. 彭敏,官宸宇,朱佳暉,謝倩倩,黃佳佳,黃濟(jì)民,楊紹雄,高望,應(yīng)稱. 武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2016(03)
[6]基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 葉成緒,楊萍,劉少鵬. 計(jì)算機(jī)應(yīng)用與軟件. 2016(02)
[7]使用關(guān)鍵詞擴(kuò)展的新聞文本自動摘要方法[J]. 李峰,黃金柱,李舟軍,楊偉銘. 計(jì)算機(jī)科學(xué)與探索. 2016(03)
[8]基于Single-Pass的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)算法[J]. 格桑多吉,喬少杰,韓楠,張小松,楊燕,元昌安,康健. 電子科技大學(xué)學(xué)報(bào). 2015(04)
[9]基于鏈接和螢火蟲算法聚類博文發(fā)現(xiàn)熱點(diǎn)話題[J]. 王雅琳,陸向艷,鐘誠. 計(jì)算機(jī)工程與設(shè)計(jì). 2015(06)
[10]基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究[J]. 李鳳嶺,朱保平. 計(jì)算機(jī)應(yīng)用與軟件. 2014(10)
碩士論文
[1]話題檢測與跟蹤算法的研究[D]. 張美珍.北京交通大學(xué) 2010
本文編號:3151195
【文章來源】:南京理工大學(xué)江蘇省 211工程院校
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.2 相關(guān)工作的研究現(xiàn)狀
1.2.1 話題檢測與跟蹤技術(shù)
1.2.2 自動文本摘要技術(shù)
1.3 本文的主要研究工作
1.4 本文結(jié)構(gòu)
2 相關(guān)理論與技術(shù)
2.1 網(wǎng)絡(luò)爬蟲技術(shù)
2.2 文本預(yù)處理及表示模型
2.3 話題檢測與跟蹤相關(guān)技術(shù)
2.3.1 話題檢測與跟蹤相關(guān)理論
2.3.2 新聞報(bào)道相似度計(jì)算
2.3.3 類簇之間距離表示法
2.3.4 文本聚類方法
2.3.5 文本聚類評價(jià)方法
2.4 自動文本摘要相關(guān)技術(shù)
2.4.1 自動文本摘要基本介紹
2.4.2 自動文本摘要評價(jià)方法
2.5 本章小結(jié)
3 改進(jìn)的Single-Pass子話題聚類算法
3.1 新聞報(bào)道表示模型
3.1.1 Doc2vec模型概述
3.1.2 新聞報(bào)道特征取
3.2 文本聚類算法
3.2.1 Single-Pass聚類算法
3.2.2 新聞報(bào)道復(fù)合相似度計(jì)算
3.2.3 改進(jìn)的Single-Pass聚類算法
3.3 聚類實(shí)驗(yàn)與結(jié)果分析
3.3.1 實(shí)驗(yàn)環(huán)境
3.3.2 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)標(biāo)準(zhǔn)
3.3.3 新聞報(bào)道復(fù)合特征向量平衡因子的確定
3.3.4 類簇相似度的取值
3.3.5 聚類結(jié)果分析
3.4 本章小結(jié)
4 改進(jìn)的TextRank算法
4.1 文本特征表示
4.1.1 Word2vec模型概述
4.1.2 改進(jìn)的句子文本表示方法
4.2 文本摘要算法
4.2.1 TextRank算法
4.2.2 改進(jìn)的TextRank算法
4.3 文本摘要實(shí)驗(yàn)與結(jié)果分析
4.3.1 實(shí)驗(yàn)環(huán)境
4.3.2 實(shí)驗(yàn)數(shù)據(jù)與評價(jià)標(biāo)準(zhǔn)
4.3.3 影響因子加權(quán)系數(shù)的確定
4.3.4 實(shí)驗(yàn)結(jié)果及分析
4.4 摘要潤色處理
4.5 本章小結(jié)
5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 系統(tǒng)設(shè)計(jì)
5.2 系統(tǒng)核心模塊設(shè)計(jì)
5.2.1 新聞數(shù)據(jù)采集模塊
5.2.2 文本預(yù)處理模塊
5.2.3 子話題聚類模塊
5.2.4 自動文本摘要模塊
5.2.5 Web展示模塊
5.3 系統(tǒng)功能展示
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 本文總結(jié)
6.2 未來工作展望
致謝
參考文獻(xiàn)
附錄
【參考文獻(xiàn)】:
期刊論文
[1]爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用探索[J]. 楊青松. 電腦知識與技術(shù). 2016(15)
[2]基于改進(jìn)的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛. 計(jì)算機(jī)科學(xué). 2016(06)
[3]大數(shù)據(jù)聚類算法綜述[J]. 海沫. 計(jì)算機(jī)科學(xué). 2016(S1)
[4]深度學(xué)習(xí)理論綜述[J]. 韓小虎,徐鵬,韓森森. 計(jì)算機(jī)時(shí)代. 2016(06)
[5]面向社交媒體文本的話題檢測與追蹤技術(shù)研究綜述[J]. 彭敏,官宸宇,朱佳暉,謝倩倩,黃佳佳,黃濟(jì)民,楊紹雄,高望,應(yīng)稱. 武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2016(03)
[6]基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 葉成緒,楊萍,劉少鵬. 計(jì)算機(jī)應(yīng)用與軟件. 2016(02)
[7]使用關(guān)鍵詞擴(kuò)展的新聞文本自動摘要方法[J]. 李峰,黃金柱,李舟軍,楊偉銘. 計(jì)算機(jī)科學(xué)與探索. 2016(03)
[8]基于Single-Pass的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)算法[J]. 格桑多吉,喬少杰,韓楠,張小松,楊燕,元昌安,康健. 電子科技大學(xué)學(xué)報(bào). 2015(04)
[9]基于鏈接和螢火蟲算法聚類博文發(fā)現(xiàn)熱點(diǎn)話題[J]. 王雅琳,陸向艷,鐘誠. 計(jì)算機(jī)工程與設(shè)計(jì). 2015(06)
[10]基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究[J]. 李鳳嶺,朱保平. 計(jì)算機(jī)應(yīng)用與軟件. 2014(10)
碩士論文
[1]話題檢測與跟蹤算法的研究[D]. 張美珍.北京交通大學(xué) 2010
本文編號:3151195
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3151195.html
最近更新
教材專著