天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

基于深度學習的短文本自動摘要方法研究

發(fā)布時間:2020-06-15 14:38
【摘要】:隨著新媒體平臺的不斷涌現(xiàn),人們?nèi)粘=佑|到的信息呈現(xiàn)爆炸式的增長,從而給人們帶來信息過載的困擾,并且隨著生活節(jié)奏的加快,人們無暇梳理接收到的所有信息。通過閱讀摘要,人們能夠提高理解原文的效率,有效減少瀏覽信息的時間和精力。隨著深度學習的崛起,越來越多的研究者利用深度學習的方法生成文檔的摘要,并逐步應用于實際系統(tǒng)中。因此,本文在深度學習基礎上研究短文本的語義表示以及基于序列到序列架構(gòu)的自動摘要方法,并將短文本的語義表示應用于自動摘要任務中。目前無監(jiān)督的文本表示方法主要包括向量空間模型和doc2vec等。這類方法在語料庫規(guī)模較大時能夠取得很好的效果,卻忽略了文本中的詞序信息。針對這個問題,本文提出無監(jiān)督模型RevONet,考慮詞序特征,利用卷積神經(jīng)網(wǎng)絡學習文檔的語義表示,并在文本分類任務中,與詞頻、詞頻逆文檔頻率、LDA、LSI、doc2vec等進行對比。實驗結(jié)果表明,RevONet模型能夠達到78.7%的準確率,優(yōu)于向量空間模型和doc2vec等,驗證了RevONet模型在語義表示上的有效性,并應用于自動摘要任務中,衡量源文本與目標摘要之間的語義相似性。根據(jù)文本摘要的特點,本文在序列到序列架構(gòu)的基礎上提出最大化文檔相似度模型DocSNet。DocSNet模型利用RevONet模型提取的源文本語義表示,計算與目標摘要之間的相似性,通過最大化源文本與目標摘要之間的語義相似性優(yōu)化模型,進一步生成摘要。對于序列到序列架構(gòu),DocSNet模型使用雙向LSTM作為編碼器,單向LSTM為解碼器構(gòu)建模型。不僅如此,DocSNet模型引入注意力機制,進一步提高生成摘要的質(zhì)量。通過在哈爾濱工業(yè)大學發(fā)布的大規(guī)模中文短文本摘要數(shù)據(jù)集上的實驗,DocSNet模型的ROUGE-1和ROUGE-L指標分別可以達到33.6%和30.4%驗證了DocSNet模型的有效性。
【學位授予單位】:北京郵電大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP391.1;TP183
【圖文】:

概率分布,主題,語料庫,圖結(jié)構(gòu)


并從這個主題中以一定的概率選擇某個詞語這樣一個過程得到的。其中,逡逑每個文檔可以表示為每個主題所構(gòu)成的概率分布,每一個主題可以表示為各個詞逡逑語所構(gòu)成的概率分布。用概率圖模型表示如圖3-1所示。逡逑(>!邋0N丨逡逑a邐0邐z邐w邋i\j逡逑M逡逑圖3-1邋LDA主題|廡偷耐冀峁瑰義隙雜謨锪峽庵械拿懇桓鑫牡擔蹋模聊P偷木嚀逕曬討饕扇劍哄義希ǎ保

本文編號:2714559

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2714559.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1f56b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com