中文新聞文檔自動(dòng)文摘關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2022-02-08 17:56
隨著互聯(lián)網(wǎng)的飛快發(fā)展,海量的新聞信息充斥著人們的各個(gè)方面,人們因此受到了信息過(guò)載的困擾,如何將大量而又冗長(zhǎng)的新聞信息簡(jiǎn)明扼要地呈現(xiàn)成為迫切待解決的問(wèn)題之一。自動(dòng)文摘技術(shù)是解決上述問(wèn)題的一種核心手段,它能夠幫助人們概括新聞文本冗長(zhǎng)的內(nèi)容,并能夠快速并準(zhǔn)確地獲取重要信息,從而提升人們閱讀新聞的速度,有效地減少了瀏覽信息的精力。本文對(duì)新聞單文檔和多文檔自動(dòng)摘要技術(shù)進(jìn)行了深入研究,主要包含以下工作:(1)針對(duì)中文新聞單文檔自動(dòng)文摘任務(wù),本文對(duì)文本詞語(yǔ)的表示進(jìn)行了優(yōu)化。在數(shù)據(jù)處理的過(guò)程中,對(duì)Word Embedding融合了額外的特征,分別加入了詞語(yǔ)的詞性和TF-IDF值,使每個(gè)詞語(yǔ)的向量表示中具有了多個(gè)維度。該方法可充分利用文本的語(yǔ)言特征信息,以提升生成新聞?wù)倪B貫性。(2)提出基于注意力機(jī)制和改進(jìn)的Sequence-to-Sequence的模型來(lái)進(jìn)行中文新聞單文檔自動(dòng)文摘任務(wù)。其中,Encoder采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)和Decoder采用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)改進(jìn)的模型結(jié)構(gòu),同時(shí)加入Decoder/Pointer機(jī)制來(lái)解決出現(xiàn)未登錄詞的問(wèn)題。經(jīng)實(shí)驗(yàn)表明,本文實(shí)驗(yàn)?zāi)P驮贜ews2016zh數(shù)據(jù)集上表...
【文章來(lái)源】:杭州師范大學(xué)浙江省
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
獲取數(shù)據(jù)存儲(chǔ)情況
杭州師范大學(xué)碩士學(xué)位論文基于改進(jìn)的Encoder-Decoder模型新聞單文檔自動(dòng)文摘方法30圖4-2預(yù)處理之后的數(shù)據(jù)存儲(chǔ)情況。4.1.3基于Word2Vec的數(shù)據(jù)向量化表示根據(jù)3.2小節(jié)對(duì)Word2Vec的原理和模型推導(dǎo),利用預(yù)處理后的語(yǔ)料庫(kù)通過(guò)將單詞轉(zhuǎn)換成向量形式的工具——Word2Vec。Word2Vec根據(jù)語(yǔ)料訓(xùn)練出語(yǔ)言模型,再把對(duì)文本內(nèi)容轉(zhuǎn)化為向量空間中的向量運(yùn)算,計(jì)算出向量空間上的相似度,來(lái)表示文本語(yǔ)義上的相似度。訓(xùn)練語(yǔ)言模型的基本參數(shù)設(shè)置如表4-1所示。表4-1Word2Vec基本參數(shù)設(shè)置參數(shù)值窗口大小(window)5詞向量維度(size)400最小詞頻(min_count)5迭代次數(shù)(iter)5訓(xùn)練硬件(workers)CPU運(yùn)用Word2Vec訓(xùn)練出的模型得到詞的詞向量維度為400,部分詞表示為詞向量的形式如下表4-2所示。在本文的實(shí)驗(yàn)中,所有的中文文本經(jīng)過(guò)預(yù)處理之后必須轉(zhuǎn)化為詞向量的形式才能被深度神經(jīng)網(wǎng)絡(luò)接收并進(jìn)行訓(xùn)練。
杭州師范大學(xué)碩士學(xué)位論文基于改進(jìn)的Encoder-Decoder模型新聞單文檔自動(dòng)文摘方法364.5.4實(shí)驗(yàn)結(jié)果分析將驗(yàn)證集通過(guò)基線Encoder-Decoder模型和本文研究的基于改進(jìn)Encoder-Decoder模型進(jìn)行驗(yàn)證,通過(guò)生成的相應(yīng)的文本摘要進(jìn)行對(duì)比,部分測(cè)試結(jié)果如圖4-5所示。圖4-5部分測(cè)試結(jié)果對(duì)比圖從測(cè)試結(jié)果可以看出,基線模型生成的摘要存在很多由于未登錄詞而導(dǎo)致的“UNK”的問(wèn)題,而且在連貫性上做得不夠好。然而,本文研究基于改進(jìn)Encoder-Decoder模型的生成的摘要,在對(duì)未登錄詞的處理方面,“UNK”的問(wèn)題出現(xiàn)的
【參考文獻(xiàn)】:
期刊論文
[1]自然語(yǔ)言處理發(fā)展及應(yīng)用綜述[J]. 趙京勝,宋夢(mèng)雪,高祥. 信息技術(shù)與信息化. 2019(07)
[2]基于深度學(xué)習(xí)的文本自動(dòng)摘要方案[J]. 張克君,李偉男,錢(qián)榕,史泰猛,焦萌. 計(jì)算機(jī)應(yīng)用. 2019(02)
[3]近70年文本自動(dòng)摘要研究綜述[J]. 劉家益,鄒益民. 情報(bào)科學(xué). 2017(07)
[4]基于密度峰值優(yōu)化的K-means文本聚類(lèi)算法[J]. 田詩(shī)宵,丁立新,鄭金秋. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(04)
[5]基于LDA的軟件代碼主題摘要自動(dòng)生成方法[J]. 李文鵬,趙俊峰,謝冰. 計(jì)算機(jī)科學(xué). 2017(04)
[6]基于CR-PageRank算法的個(gè)人事件自動(dòng)摘要研究[J]. 高永兵,王宇,馬占飛. 計(jì)算機(jī)工程. 2016(11)
[7]融合句義特征的多文檔自動(dòng)摘要算法研究[J]. 羅森林,白建敏,潘麗敏,韓磊,孟強(qiáng). 北京理工大學(xué)學(xué)報(bào). 2016(10)
[8]基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報(bào). 2016(02)
[9]基于LDA重要主題的多文檔自動(dòng)摘要算法[J]. 劉娜,路瑩,唐曉君,李明霞. 計(jì)算機(jī)科學(xué)與探索. 2015(02)
[10]基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J]. 阮光冊(cè). 情報(bào)雜志. 2014(03)
本文編號(hào):3615494
【文章來(lái)源】:杭州師范大學(xué)浙江省
【文章頁(yè)數(shù)】:67 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
獲取數(shù)據(jù)存儲(chǔ)情況
杭州師范大學(xué)碩士學(xué)位論文基于改進(jìn)的Encoder-Decoder模型新聞單文檔自動(dòng)文摘方法30圖4-2預(yù)處理之后的數(shù)據(jù)存儲(chǔ)情況。4.1.3基于Word2Vec的數(shù)據(jù)向量化表示根據(jù)3.2小節(jié)對(duì)Word2Vec的原理和模型推導(dǎo),利用預(yù)處理后的語(yǔ)料庫(kù)通過(guò)將單詞轉(zhuǎn)換成向量形式的工具——Word2Vec。Word2Vec根據(jù)語(yǔ)料訓(xùn)練出語(yǔ)言模型,再把對(duì)文本內(nèi)容轉(zhuǎn)化為向量空間中的向量運(yùn)算,計(jì)算出向量空間上的相似度,來(lái)表示文本語(yǔ)義上的相似度。訓(xùn)練語(yǔ)言模型的基本參數(shù)設(shè)置如表4-1所示。表4-1Word2Vec基本參數(shù)設(shè)置參數(shù)值窗口大小(window)5詞向量維度(size)400最小詞頻(min_count)5迭代次數(shù)(iter)5訓(xùn)練硬件(workers)CPU運(yùn)用Word2Vec訓(xùn)練出的模型得到詞的詞向量維度為400,部分詞表示為詞向量的形式如下表4-2所示。在本文的實(shí)驗(yàn)中,所有的中文文本經(jīng)過(guò)預(yù)處理之后必須轉(zhuǎn)化為詞向量的形式才能被深度神經(jīng)網(wǎng)絡(luò)接收并進(jìn)行訓(xùn)練。
杭州師范大學(xué)碩士學(xué)位論文基于改進(jìn)的Encoder-Decoder模型新聞單文檔自動(dòng)文摘方法364.5.4實(shí)驗(yàn)結(jié)果分析將驗(yàn)證集通過(guò)基線Encoder-Decoder模型和本文研究的基于改進(jìn)Encoder-Decoder模型進(jìn)行驗(yàn)證,通過(guò)生成的相應(yīng)的文本摘要進(jìn)行對(duì)比,部分測(cè)試結(jié)果如圖4-5所示。圖4-5部分測(cè)試結(jié)果對(duì)比圖從測(cè)試結(jié)果可以看出,基線模型生成的摘要存在很多由于未登錄詞而導(dǎo)致的“UNK”的問(wèn)題,而且在連貫性上做得不夠好。然而,本文研究基于改進(jìn)Encoder-Decoder模型的生成的摘要,在對(duì)未登錄詞的處理方面,“UNK”的問(wèn)題出現(xiàn)的
【參考文獻(xiàn)】:
期刊論文
[1]自然語(yǔ)言處理發(fā)展及應(yīng)用綜述[J]. 趙京勝,宋夢(mèng)雪,高祥. 信息技術(shù)與信息化. 2019(07)
[2]基于深度學(xué)習(xí)的文本自動(dòng)摘要方案[J]. 張克君,李偉男,錢(qián)榕,史泰猛,焦萌. 計(jì)算機(jī)應(yīng)用. 2019(02)
[3]近70年文本自動(dòng)摘要研究綜述[J]. 劉家益,鄒益民. 情報(bào)科學(xué). 2017(07)
[4]基于密度峰值優(yōu)化的K-means文本聚類(lèi)算法[J]. 田詩(shī)宵,丁立新,鄭金秋. 計(jì)算機(jī)工程與設(shè)計(jì). 2017(04)
[5]基于LDA的軟件代碼主題摘要自動(dòng)生成方法[J]. 李文鵬,趙俊峰,謝冰. 計(jì)算機(jī)科學(xué). 2017(04)
[6]基于CR-PageRank算法的個(gè)人事件自動(dòng)摘要研究[J]. 高永兵,王宇,馬占飛. 計(jì)算機(jī)工程. 2016(11)
[7]融合句義特征的多文檔自動(dòng)摘要算法研究[J]. 羅森林,白建敏,潘麗敏,韓磊,孟強(qiáng). 北京理工大學(xué)學(xué)報(bào). 2016(10)
[8]基于改進(jìn)的TF-IDF算法的微博話題檢測(cè)[J]. 陳朔鷹,金鎮(zhèn)晟. 科技導(dǎo)報(bào). 2016(02)
[9]基于LDA重要主題的多文檔自動(dòng)摘要算法[J]. 劉娜,路瑩,唐曉君,李明霞. 計(jì)算機(jī)科學(xué)與探索. 2015(02)
[10]基于LDA的網(wǎng)絡(luò)評(píng)論主題發(fā)現(xiàn)研究[J]. 阮光冊(cè). 情報(bào)雜志. 2014(03)
本文編號(hào):3615494
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3615494.html
最近更新
教材專(zhuān)著