天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中文自動摘要模型及其應(yīng)用

發(fā)布時間:2024-05-16 23:06
  在移動互聯(lián)網(wǎng)時代,面對涌現(xiàn)的海量數(shù)據(jù),如何快速準(zhǔn)確地從中尋找關(guān)鍵信息成為目前亟待解決的問題。因此,利用自動摘要技術(shù)對文章添加短文本摘要以準(zhǔn)確提煉出關(guān)鍵信息已成為廣大學(xué)者關(guān)注的熱點(diǎn)。本文就中文自動摘要模型及其應(yīng)用進(jìn)行了研究與分析。首先,本文分別對抽取式自動摘要和生成式自動摘要進(jìn)行研究與分析。對于抽取式自動摘要,通過使用BERT(Bidirectional Encoder Representations From Transformers)句向量來提高傳統(tǒng)詞向量的表征能力,并結(jié)合Alexander M.Rush、Sumit Chopra等人提出的最大邊緣相關(guān)算法(MMR)得到針對抽取式自動摘要BE-MMR模型。對于生成式自動摘要,傳統(tǒng)的方式是利用序列到序列模型(Seq2Seq)將所有信息編碼到一個固定維度的中間向量,而在實(shí)際場景中Seq2Seq進(jìn)行解碼時會造成大量的信息遺失。為了解決解碼時的信息遺失問題,本文將注意力機(jī)制(Attention)融合到Seq2Seq模型中,并利用雙層雙向長短期記憶網(wǎng)絡(luò)(Bi-LSTM)來構(gòu)建編碼、解碼器,構(gòu)建基于Seq2Seq-Attention的生成式自動摘...

【文章頁數(shù)】:84 頁

【學(xué)位級別】:碩士

【部分圖文】:

圖1-1論文研究思路Fig.1-1ResearchIdeasofPapers

圖1-1論文研究思路Fig.1-1ResearchIdeasofPapers

圖1-1論文研究思路Fig.1-1ResearchIdeasofPapers研究方法本文從以下幾種方法進(jìn)行多種角度進(jìn)行評估模型的可行性與研究價值。


圖2-1爬取樣例數(shù)據(jù)

圖2-1爬取樣例數(shù)據(jù)

圖2-1爬取樣例數(shù)據(jù)Fig.2-1ClimbingSampleData,考慮到深度學(xué)習(xí)端到端模型所需訓(xùn)練集的規(guī)模,通過查閱各類文獻(xiàn)以自動摘要資料,選擇THUCTC數(shù)據(jù)集作為補(bǔ)充訓(xùn)練集。下面對THUC要介紹。


圖2-2數(shù)據(jù)預(yù)處理流程

圖2-2數(shù)據(jù)預(yù)處理流程

圖2-2數(shù)據(jù)預(yù)處理流程Fig.2-2Datapreprocessingflow據(jù)過程中,對于中文維基百科數(shù)據(jù)可通過網(wǎng)上開源的博客Selenium的爬蟲框架來爬取各大網(wǎng)站的新聞數(shù)據(jù),構(gòu)建針。


圖2-3預(yù)處理結(jié)果

圖2-3預(yù)處理結(jié)果

9圖2-3預(yù)處理結(jié)果Fig.2-3Pretreatmentresults



本文編號:3975040

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3975040.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶969fa***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com