天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

新聞事件的自動摘要研究

發(fā)布時(shí)間:2021-04-21 05:57
  隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)新聞的數(shù)量飛速增長,人們面對海量的新聞信息難以準(zhǔn)確快速地獲取到自己所需的關(guān)鍵信息。為此,本文設(shè)計(jì)了一種新聞事件的自動摘要系統(tǒng)。該系統(tǒng)能夠根據(jù)用戶輸入的關(guān)鍵詞采集相關(guān)事件的新聞報(bào)道,獲得新聞事件的演化過程和各個子話題的文本摘要。本文的主要工作和創(chuàng)新點(diǎn)如下。首先,出一種改進(jìn)的Single-Pass聚類算法。此算法利用Doc2vec模型表示新聞文本信息,該模型能較好地挖掘文本的語義信息。針對新聞事件子話題的特點(diǎn),設(shè)計(jì)了一種新聞報(bào)道的復(fù)合相似度計(jì)算方法。此方法充分考慮了新聞標(biāo)題對新聞文本信息表達(dá)的重要性,由新聞標(biāo)題和新聞?wù)膬?nèi)容各自相似度組成新聞報(bào)道的文本相似度。另外考慮到發(fā)布時(shí)間是新聞子話題聚類的關(guān)鍵影響因素,于是引入新聞報(bào)道的時(shí)間相似度計(jì)算方法。接著,綜合利用新聞報(bào)道的文本相似度和時(shí)間相似度共同計(jì)算新聞報(bào)道的復(fù)合相似度,給出了改進(jìn)的聚類算法。其次,出一種基于TextRank的自動文本摘要算法。針對句子的表示問題設(shè)計(jì)了一種基于Word2vec模型的表示方法來完成文本的自動摘要工作:(1)采用所出的句子表示方法將句子文本向量化;(2)從句子之間的相似度、關(guān)鍵詞的覆蓋率... 

【文章來源】:南京理工大學(xué)江蘇省 211工程院校

【文章頁數(shù)】:71 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
Abstract
1 緒論
    1.1 研究背景與意義
    1.2 相關(guān)工作的研究現(xiàn)狀
        1.2.1 話題檢測與跟蹤技術(shù)
        1.2.2 自動文本摘要技術(shù)
    1.3 本文的主要研究工作
    1.4 本文結(jié)構(gòu)
2 相關(guān)理論與技術(shù)
    2.1 網(wǎng)絡(luò)爬蟲技術(shù)
    2.2 文本預(yù)處理及表示模型
    2.3 話題檢測與跟蹤相關(guān)技術(shù)
        2.3.1 話題檢測與跟蹤相關(guān)理論
        2.3.2 新聞報(bào)道相似度計(jì)算
        2.3.3 類簇之間距離表示法
        2.3.4 文本聚類方法
        2.3.5 文本聚類評價(jià)方法
    2.4 自動文本摘要相關(guān)技術(shù)
        2.4.1 自動文本摘要基本介紹
        2.4.2 自動文本摘要評價(jià)方法
    2.5 本章小結(jié)
3 改進(jìn)的Single-Pass子話題聚類算法
    3.1 新聞報(bào)道表示模型
        3.1.1 Doc2vec模型概述
        3.1.2 新聞報(bào)道特征取
    3.2 文本聚類算法
        3.2.1 Single-Pass聚類算法
        3.2.2 新聞報(bào)道復(fù)合相似度計(jì)算
        3.2.3 改進(jìn)的Single-Pass聚類算法
    3.3 聚類實(shí)驗(yàn)與結(jié)果分析
        3.3.1 實(shí)驗(yàn)環(huán)境
        3.3.2 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)標(biāo)準(zhǔn)
        3.3.3 新聞報(bào)道復(fù)合特征向量平衡因子的確定
        3.3.4 類簇相似度的取值
        3.3.5 聚類結(jié)果分析
    3.4 本章小結(jié)
4 改進(jìn)的TextRank算法
    4.1 文本特征表示
        4.1.1 Word2vec模型概述
        4.1.2 改進(jìn)的句子文本表示方法
    4.2 文本摘要算法
        4.2.1 TextRank算法
        4.2.2 改進(jìn)的TextRank算法
    4.3 文本摘要實(shí)驗(yàn)與結(jié)果分析
        4.3.1 實(shí)驗(yàn)環(huán)境
        4.3.2 實(shí)驗(yàn)數(shù)據(jù)與評價(jià)標(biāo)準(zhǔn)
        4.3.3 影響因子加權(quán)系數(shù)的確定
        4.3.4 實(shí)驗(yàn)結(jié)果及分析
    4.4 摘要潤色處理
    4.5 本章小結(jié)
5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
    5.1 系統(tǒng)設(shè)計(jì)
    5.2 系統(tǒng)核心模塊設(shè)計(jì)
        5.2.1 新聞數(shù)據(jù)采集模塊
        5.2.2 文本預(yù)處理模塊
        5.2.3 子話題聚類模塊
        5.2.4 自動文本摘要模塊
        5.2.5 Web展示模塊
    5.3 系統(tǒng)功能展示
    5.4 本章小結(jié)
6 總結(jié)與展望
    6.1 本文總結(jié)
    6.2 未來工作展望
致謝
參考文獻(xiàn)
附錄


【參考文獻(xiàn)】:
期刊論文
[1]爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用探索[J]. 楊青松.  電腦知識與技術(shù). 2016(15)
[2]基于改進(jìn)的TextRank的自動摘要提取方法[J]. 余珊珊,蘇錦鈿,李鵬飛.  計(jì)算機(jī)科學(xué). 2016(06)
[3]大數(shù)據(jù)聚類算法綜述[J]. 海沫.  計(jì)算機(jī)科學(xué). 2016(S1)
[4]深度學(xué)習(xí)理論綜述[J]. 韓小虎,徐鵬,韓森森.  計(jì)算機(jī)時(shí)代. 2016(06)
[5]面向社交媒體文本的話題檢測與追蹤技術(shù)研究綜述[J]. 彭敏,官宸宇,朱佳暉,謝倩倩,黃佳佳,黃濟(jì)民,楊紹雄,高望,應(yīng)稱.  武漢大學(xué)學(xué)報(bào)(理學(xué)版). 2016(03)
[6]基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J]. 葉成緒,楊萍,劉少鵬.  計(jì)算機(jī)應(yīng)用與軟件. 2016(02)
[7]使用關(guān)鍵詞擴(kuò)展的新聞文本自動摘要方法[J]. 李峰,黃金柱,李舟軍,楊偉銘.  計(jì)算機(jī)科學(xué)與探索. 2016(03)
[8]基于Single-Pass的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)算法[J]. 格桑多吉,喬少杰,韓楠,張小松,楊燕,元昌安,康健.  電子科技大學(xué)學(xué)報(bào). 2015(04)
[9]基于鏈接和螢火蟲算法聚類博文發(fā)現(xiàn)熱點(diǎn)話題[J]. 王雅琳,陸向艷,鐘誠.  計(jì)算機(jī)工程與設(shè)計(jì). 2015(06)
[10]基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究[J]. 李鳳嶺,朱保平.  計(jì)算機(jī)應(yīng)用與軟件. 2014(10)

碩士論文
[1]話題檢測與跟蹤算法的研究[D]. 張美珍.北京交通大學(xué) 2010



本文編號:3151195

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3151195.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cb0b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com