天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于深度學(xué)習(xí)的文本關(guān)鍵詞生成方法

發(fā)布時間:2021-09-24 11:41
  關(guān)鍵詞描述了文檔的主題信息,可幫助讀者快速獲得文章核心內(nèi)容,被廣泛應(yīng)用于信息檢索、文獻(xiàn)管理、文本壓縮等領(lǐng)域。相較于傳統(tǒng)的關(guān)鍵詞抽取方法,基于深度學(xué)習(xí)的關(guān)鍵詞生成方法不僅可以生成原文中未出現(xiàn)過的關(guān)鍵詞,而且可以學(xué)習(xí)到關(guān)鍵詞在文檔中的潛在語義信息。故本研究主要聚焦于深度學(xué)習(xí)在關(guān)鍵詞生成上的應(yīng)用,并根據(jù)實際效果提出多個改進(jìn)算法。具體工作包括以下三個方面:(1)探究基于序列到序列(Seq2Seq)的關(guān)鍵詞生成算法。在Seq2Seq框架中融入注意力機(jī)制和復(fù)制機(jī)制,實現(xiàn)了關(guān)鍵詞生成模型CopyRNN。通過對比經(jīng)典的六種抽取式算法和CopyRNN在五個數(shù)據(jù)集上的測試結(jié)果,證明了生成式算法相較于抽取式算法來講,性能有較大的提升。(2)發(fā)現(xiàn)并分析驗證CopyRNN會生成重疊短語的不足,并針對此不足提出了基于并行深度學(xué)習(xí)網(wǎng)絡(luò)的關(guān)鍵詞生成算法(ParaNet)。該算法結(jié)構(gòu)較為復(fù)雜,包含并行的編碼器和并行的解碼器。并行的兩個編碼器分別獨(dú)立地將文本序列及其對應(yīng)的句法標(biāo)簽編碼到網(wǎng)絡(luò)中。并行的解碼器采用多任務(wù)的框架,使得模型聯(lián)合地學(xué)習(xí)了單詞解碼任務(wù)和句法標(biāo)簽解碼任務(wù)。實驗結(jié)果證明了ParaNet相較于CopyRNN... 

【文章來源】:中國民航大學(xué)天津市

【文章頁數(shù)】:52 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的文本關(guān)鍵詞生成方法


本文的研究內(nèi)容在緩解CopyRNN生成重疊短語的不足后,繼續(xù)深入研究并發(fā)現(xiàn)了CopyRNN存在

框架圖,框架圖,全局,短語


中國民航大學(xué)碩士學(xué)位論文16例達(dá)到了42.73%。并且,若分別統(tǒng)計不同長度的關(guān)鍵詞生成重疊短語的比例,可發(fā)現(xiàn):隨著關(guān)鍵詞長度的增加,生成重疊短語的關(guān)鍵詞比例會越來越大,當(dāng)長度為1時,生成重疊短語的關(guān)鍵詞比例為34.61%,但當(dāng)長度大于4時,生成重疊短語的比例高達(dá)84.43%。另外,一個統(tǒng)計過程中發(fā)現(xiàn)的規(guī)律是:長的關(guān)鍵詞易生成子短語,短的關(guān)鍵詞易生成父短語。雖然重疊問題限制了現(xiàn)有方法的表現(xiàn),它也給了我們有機(jī)會幫助更好地生成關(guān)鍵短語因為重疊的短語通常非常接近正確的關(guān)鍵短語。3.2并行網(wǎng)絡(luò)在通常情況下,大多數(shù)關(guān)鍵短語都是名詞短語。先驗知識是名詞短語是由至少一個名詞和附屬詞,例如形容詞,介詞組成。而在前文舉出的例子中,CopyRNN生成的關(guān)鍵詞“Internetheld”中包含了一個動詞“held”,“Distributed”只有一個形容詞。CopyRNN關(guān)鍵詞生成算法生成了大量不符合句法規(guī)則的關(guān)鍵詞。因此,句法信息對于改進(jìn)關(guān)鍵詞的生成性能是非常有用的。有學(xué)者研究證明了單純的Seq2Seq網(wǎng)絡(luò)只能隱性地學(xué)習(xí)到源文本中的句法信息,而無法捕獲到很多深層的句法結(jié)構(gòu)細(xì)節(jié)。為了克服這個缺點(diǎn),本章提出了一個深度集成的并行Seq2Seq模型,這個模型可以直接融合原文的句法信息,從而達(dá)到約束生成短語的句法結(jié)構(gòu)。本章提出的并行網(wǎng)絡(luò)是在基本的Seq2Seq框架上發(fā)展而來的,它包含一個并行的編碼器和一個并行的解碼器,結(jié)構(gòu)如圖3-1所示。并行的編碼器負(fù)責(zé)將文本及其句法信息編碼到網(wǎng)絡(luò)中,并行的解碼器負(fù)責(zé)解碼單詞和對應(yīng)的句法標(biāo)簽,來達(dá)到直接約束生成短語的句法結(jié)構(gòu)。圖3-1并行網(wǎng)絡(luò)全局框架圖

影響曲線,影響曲線,數(shù)據(jù)集,短語


中國民航大學(xué)碩士學(xué)位論文24圖3-2λ在不同數(shù)據(jù)集上的影響曲線3.7本章小結(jié)本章詳細(xì)分析驗證了CopyRNN會生成重疊短語的不足,并針對此不足提出了基于并行深度學(xué)習(xí)網(wǎng)絡(luò)的關(guān)鍵詞生成算法(ParaNet)。該算法結(jié)構(gòu)較為復(fù)雜,包含并行的編碼器和并行的解碼器。并行的編碼器分別獨(dú)立地將文本序列及其對應(yīng)的句法標(biāo)簽(詞性標(biāo)簽,短語標(biāo)簽)編碼到網(wǎng)絡(luò)中。并行的解碼器采用多任務(wù)的框架,使得模型聯(lián)合地學(xué)習(xí)了單詞解碼任務(wù)和句法標(biāo)簽解碼任務(wù)。另外,ParaNet的注意力機(jī)制中融合了覆蓋機(jī)制,以防止生成重復(fù)的短語。同樣在五個數(shù)據(jù)集上的實驗結(jié)果證明了ParaNet相較于CopyRNN來說,不僅可以大幅度提升性能,同時也緩解了生成重疊短語的問題。另外,跨領(lǐng)域的測試證明了ParaNet可以學(xué)習(xí)到語義和句法的公共特征,具有非常好的泛化能力。

【參考文獻(xiàn)】:
期刊論文
[1]基于15年文獻(xiàn)計量學(xué)的信息檢索相關(guān)性研究[J]. 于興尚.  圖書館研究與工作. 2018(11)
[2]基于Word2Vec和TextRank的時政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域.  情報探索. 2018(06)
[3]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學(xué)報. 2017(09)

碩士論文
[1]面向問答的問句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016



本文編號:3407693

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3407693.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8340d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com