基于深度學(xué)習(xí)的文本關(guān)鍵詞生成方法
發(fā)布時間:2021-09-24 11:41
關(guān)鍵詞描述了文檔的主題信息,可幫助讀者快速獲得文章核心內(nèi)容,被廣泛應(yīng)用于信息檢索、文獻(xiàn)管理、文本壓縮等領(lǐng)域。相較于傳統(tǒng)的關(guān)鍵詞抽取方法,基于深度學(xué)習(xí)的關(guān)鍵詞生成方法不僅可以生成原文中未出現(xiàn)過的關(guān)鍵詞,而且可以學(xué)習(xí)到關(guān)鍵詞在文檔中的潛在語義信息。故本研究主要聚焦于深度學(xué)習(xí)在關(guān)鍵詞生成上的應(yīng)用,并根據(jù)實際效果提出多個改進(jìn)算法。具體工作包括以下三個方面:(1)探究基于序列到序列(Seq2Seq)的關(guān)鍵詞生成算法。在Seq2Seq框架中融入注意力機(jī)制和復(fù)制機(jī)制,實現(xiàn)了關(guān)鍵詞生成模型CopyRNN。通過對比經(jīng)典的六種抽取式算法和CopyRNN在五個數(shù)據(jù)集上的測試結(jié)果,證明了生成式算法相較于抽取式算法來講,性能有較大的提升。(2)發(fā)現(xiàn)并分析驗證CopyRNN會生成重疊短語的不足,并針對此不足提出了基于并行深度學(xué)習(xí)網(wǎng)絡(luò)的關(guān)鍵詞生成算法(ParaNet)。該算法結(jié)構(gòu)較為復(fù)雜,包含并行的編碼器和并行的解碼器。并行的兩個編碼器分別獨(dú)立地將文本序列及其對應(yīng)的句法標(biāo)簽編碼到網(wǎng)絡(luò)中。并行的解碼器采用多任務(wù)的框架,使得模型聯(lián)合地學(xué)習(xí)了單詞解碼任務(wù)和句法標(biāo)簽解碼任務(wù)。實驗結(jié)果證明了ParaNet相較于CopyRNN...
【文章來源】:中國民航大學(xué)天津市
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文的研究內(nèi)容在緩解CopyRNN生成重疊短語的不足后,繼續(xù)深入研究并發(fā)現(xiàn)了CopyRNN存在
中國民航大學(xué)碩士學(xué)位論文16例達(dá)到了42.73%。并且,若分別統(tǒng)計不同長度的關(guān)鍵詞生成重疊短語的比例,可發(fā)現(xiàn):隨著關(guān)鍵詞長度的增加,生成重疊短語的關(guān)鍵詞比例會越來越大,當(dāng)長度為1時,生成重疊短語的關(guān)鍵詞比例為34.61%,但當(dāng)長度大于4時,生成重疊短語的比例高達(dá)84.43%。另外,一個統(tǒng)計過程中發(fā)現(xiàn)的規(guī)律是:長的關(guān)鍵詞易生成子短語,短的關(guān)鍵詞易生成父短語。雖然重疊問題限制了現(xiàn)有方法的表現(xiàn),它也給了我們有機(jī)會幫助更好地生成關(guān)鍵短語因為重疊的短語通常非常接近正確的關(guān)鍵短語。3.2并行網(wǎng)絡(luò)在通常情況下,大多數(shù)關(guān)鍵短語都是名詞短語。先驗知識是名詞短語是由至少一個名詞和附屬詞,例如形容詞,介詞組成。而在前文舉出的例子中,CopyRNN生成的關(guān)鍵詞“Internetheld”中包含了一個動詞“held”,“Distributed”只有一個形容詞。CopyRNN關(guān)鍵詞生成算法生成了大量不符合句法規(guī)則的關(guān)鍵詞。因此,句法信息對于改進(jìn)關(guān)鍵詞的生成性能是非常有用的。有學(xué)者研究證明了單純的Seq2Seq網(wǎng)絡(luò)只能隱性地學(xué)習(xí)到源文本中的句法信息,而無法捕獲到很多深層的句法結(jié)構(gòu)細(xì)節(jié)。為了克服這個缺點(diǎn),本章提出了一個深度集成的并行Seq2Seq模型,這個模型可以直接融合原文的句法信息,從而達(dá)到約束生成短語的句法結(jié)構(gòu)。本章提出的并行網(wǎng)絡(luò)是在基本的Seq2Seq框架上發(fā)展而來的,它包含一個并行的編碼器和一個并行的解碼器,結(jié)構(gòu)如圖3-1所示。并行的編碼器負(fù)責(zé)將文本及其句法信息編碼到網(wǎng)絡(luò)中,并行的解碼器負(fù)責(zé)解碼單詞和對應(yīng)的句法標(biāo)簽,來達(dá)到直接約束生成短語的句法結(jié)構(gòu)。圖3-1并行網(wǎng)絡(luò)全局框架圖
中國民航大學(xué)碩士學(xué)位論文24圖3-2λ在不同數(shù)據(jù)集上的影響曲線3.7本章小結(jié)本章詳細(xì)分析驗證了CopyRNN會生成重疊短語的不足,并針對此不足提出了基于并行深度學(xué)習(xí)網(wǎng)絡(luò)的關(guān)鍵詞生成算法(ParaNet)。該算法結(jié)構(gòu)較為復(fù)雜,包含并行的編碼器和并行的解碼器。并行的編碼器分別獨(dú)立地將文本序列及其對應(yīng)的句法標(biāo)簽(詞性標(biāo)簽,短語標(biāo)簽)編碼到網(wǎng)絡(luò)中。并行的解碼器采用多任務(wù)的框架,使得模型聯(lián)合地學(xué)習(xí)了單詞解碼任務(wù)和句法標(biāo)簽解碼任務(wù)。另外,ParaNet的注意力機(jī)制中融合了覆蓋機(jī)制,以防止生成重復(fù)的短語。同樣在五個數(shù)據(jù)集上的實驗結(jié)果證明了ParaNet相較于CopyRNN來說,不僅可以大幅度提升性能,同時也緩解了生成重疊短語的問題。另外,跨領(lǐng)域的測試證明了ParaNet可以學(xué)習(xí)到語義和句法的公共特征,具有非常好的泛化能力。
【參考文獻(xiàn)】:
期刊論文
[1]基于15年文獻(xiàn)計量學(xué)的信息檢索相關(guān)性研究[J]. 于興尚. 圖書館研究與工作. 2018(11)
[2]基于Word2Vec和TextRank的時政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域. 情報探索. 2018(06)
[3]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報. 2017(09)
碩士論文
[1]面向問答的問句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016
本文編號:3407693
【文章來源】:中國民航大學(xué)天津市
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
本文的研究內(nèi)容在緩解CopyRNN生成重疊短語的不足后,繼續(xù)深入研究并發(fā)現(xiàn)了CopyRNN存在
中國民航大學(xué)碩士學(xué)位論文16例達(dá)到了42.73%。并且,若分別統(tǒng)計不同長度的關(guān)鍵詞生成重疊短語的比例,可發(fā)現(xiàn):隨著關(guān)鍵詞長度的增加,生成重疊短語的關(guān)鍵詞比例會越來越大,當(dāng)長度為1時,生成重疊短語的關(guān)鍵詞比例為34.61%,但當(dāng)長度大于4時,生成重疊短語的比例高達(dá)84.43%。另外,一個統(tǒng)計過程中發(fā)現(xiàn)的規(guī)律是:長的關(guān)鍵詞易生成子短語,短的關(guān)鍵詞易生成父短語。雖然重疊問題限制了現(xiàn)有方法的表現(xiàn),它也給了我們有機(jī)會幫助更好地生成關(guān)鍵短語因為重疊的短語通常非常接近正確的關(guān)鍵短語。3.2并行網(wǎng)絡(luò)在通常情況下,大多數(shù)關(guān)鍵短語都是名詞短語。先驗知識是名詞短語是由至少一個名詞和附屬詞,例如形容詞,介詞組成。而在前文舉出的例子中,CopyRNN生成的關(guān)鍵詞“Internetheld”中包含了一個動詞“held”,“Distributed”只有一個形容詞。CopyRNN關(guān)鍵詞生成算法生成了大量不符合句法規(guī)則的關(guān)鍵詞。因此,句法信息對于改進(jìn)關(guān)鍵詞的生成性能是非常有用的。有學(xué)者研究證明了單純的Seq2Seq網(wǎng)絡(luò)只能隱性地學(xué)習(xí)到源文本中的句法信息,而無法捕獲到很多深層的句法結(jié)構(gòu)細(xì)節(jié)。為了克服這個缺點(diǎn),本章提出了一個深度集成的并行Seq2Seq模型,這個模型可以直接融合原文的句法信息,從而達(dá)到約束生成短語的句法結(jié)構(gòu)。本章提出的并行網(wǎng)絡(luò)是在基本的Seq2Seq框架上發(fā)展而來的,它包含一個并行的編碼器和一個并行的解碼器,結(jié)構(gòu)如圖3-1所示。并行的編碼器負(fù)責(zé)將文本及其句法信息編碼到網(wǎng)絡(luò)中,并行的解碼器負(fù)責(zé)解碼單詞和對應(yīng)的句法標(biāo)簽,來達(dá)到直接約束生成短語的句法結(jié)構(gòu)。圖3-1并行網(wǎng)絡(luò)全局框架圖
中國民航大學(xué)碩士學(xué)位論文24圖3-2λ在不同數(shù)據(jù)集上的影響曲線3.7本章小結(jié)本章詳細(xì)分析驗證了CopyRNN會生成重疊短語的不足,并針對此不足提出了基于并行深度學(xué)習(xí)網(wǎng)絡(luò)的關(guān)鍵詞生成算法(ParaNet)。該算法結(jié)構(gòu)較為復(fù)雜,包含并行的編碼器和并行的解碼器。并行的編碼器分別獨(dú)立地將文本序列及其對應(yīng)的句法標(biāo)簽(詞性標(biāo)簽,短語標(biāo)簽)編碼到網(wǎng)絡(luò)中。并行的解碼器采用多任務(wù)的框架,使得模型聯(lián)合地學(xué)習(xí)了單詞解碼任務(wù)和句法標(biāo)簽解碼任務(wù)。另外,ParaNet的注意力機(jī)制中融合了覆蓋機(jī)制,以防止生成重復(fù)的短語。同樣在五個數(shù)據(jù)集上的實驗結(jié)果證明了ParaNet相較于CopyRNN來說,不僅可以大幅度提升性能,同時也緩解了生成重疊短語的問題。另外,跨領(lǐng)域的測試證明了ParaNet可以學(xué)習(xí)到語義和句法的公共特征,具有非常好的泛化能力。
【參考文獻(xiàn)】:
期刊論文
[1]基于15年文獻(xiàn)計量學(xué)的信息檢索相關(guān)性研究[J]. 于興尚. 圖書館研究與工作. 2018(11)
[2]基于Word2Vec和TextRank的時政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域. 情報探索. 2018(06)
[3]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學(xué)報. 2017(09)
碩士論文
[1]面向問答的問句關(guān)鍵詞提取技術(shù)研究[D]. 王煦祥.哈爾濱工業(yè)大學(xué) 2016
本文編號:3407693
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3407693.html
最近更新
教材專著