基于注意力機(jī)制的文本生成式摘要方法研究
發(fā)布時(shí)間:2021-05-08 16:46
伴隨互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)和文件呈爆炸式的增長(zhǎng),信息超載問(wèn)題愈益嚴(yán)重。因此,如何從海量的數(shù)據(jù)中快速、準(zhǔn)確獲取有用信息變得重要。文本自動(dòng)摘要技術(shù)是一種從文本文檔、文章或博客等較大的文本集合中產(chǎn)生簡(jiǎn)潔而重要的信息的方法,已成為國(guó)內(nèi)外的研究熱點(diǎn)。的研究集中在抽取式摘要,從原文中抽取句子表示摘要,但不夠精煉,表示效果差強(qiáng)人意。而生成式摘要是通過(guò)理解文本內(nèi)容,從而生成新句子,與抽取式摘要相比,有著更為靈活的詞匯組合和表達(dá)方式。基于此,本文將分析文本底層編碼特征、文本詞向量表示、注意力模型機(jī)制、等,從底層到模型結(jié)構(gòu)全方位來(lái)展開(kāi)對(duì)生成式摘要問(wèn)題的研究。主要完成了以下工作:(1)采用了一種基于知識(shí)遷移融合多特征的文檔詞向量表示方法。詞向量作為文本特征表示的基礎(chǔ)工作,其表達(dá)的準(zhǔn)確率直接影響各個(gè)上層模型結(jié)果的性能。用詞嵌入技術(shù)訓(xùn)練詞向量時(shí),越多的文本數(shù)據(jù)訓(xùn)練出的詞向量質(zhì)量越高,所以本文用維基百科外部數(shù)據(jù)集,采用知識(shí)遷移的方法在任務(wù)訓(xùn)練集上進(jìn)行增量訓(xùn)練,從而訓(xùn)練改善詞向量質(zhì)量。同時(shí),在文本分類和摘要研究中,文本詞的一些其它特征如詞頻逆文檔頻率等也被廣泛使用,并取得不錯(cuò)的效果。為進(jìn)一步提高...
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文研究?jī)?nèi)容和組織結(jié)構(gòu)
1.3.1 本文的研究?jī)?nèi)容
1.3.2 本文的組織結(jié)構(gòu)
第二章 文本摘要相關(guān)基本理論
2.1 預(yù)處理
2.2 TFIDF
2.3 詞嵌入
2.3.1 word2vec連續(xù)詞袋模型
2.3.2 word2vec的 Skip-gram模型
2.4 知識(shí)遷移技術(shù)
2.5 文本摘要評(píng)價(jià)方法
2.5.1 ROUGE-N:N-gram共現(xiàn)統(tǒng)計(jì)
2.5.2 ROUGE-L:最長(zhǎng)的共同子序列
2.5.3 句子級(jí)別LCS
2.6 本章小結(jié)
第三章 基于知識(shí)遷移融合多種特征的文檔詞向量表示方法
3.1 基于知識(shí)遷移融合多種特征的文檔詞向量表示方法
3.1.1 模型思想
3.1.2 外部數(shù)據(jù)集詞向量
3.1.3 知識(shí)遷移
3.1.4 其它特征
3.1.5 多種特征融合
3.2 知識(shí)遷移融合多種特征的文檔詞向量應(yīng)用實(shí)例
3.3 實(shí)驗(yàn)
3.3.1 數(shù)據(jù)集介紹
3.3.2 編程環(huán)境
3.3.3 實(shí)驗(yàn)參數(shù)
3.3.4 評(píng)價(jià)指標(biāo)
3.3.5 實(shí)驗(yàn)對(duì)比與分析
3.4 本章小結(jié)
第四章 基于注意力機(jī)制的指針覆蓋文本摘要
4.1 序列到序列的神經(jīng)網(wǎng)絡(luò)框架
4.1.1 端到端序列轉(zhuǎn)換模型
4.1.2 注意力機(jī)制
4.2 基于注意力機(jī)制的指針覆蓋文本摘要模型
4.2.1 融合傳統(tǒng)特征的底層詞表示
4.2.2 層次注意力文檔結(jié)構(gòu)
4.2.3 引入混合指針生成器網(wǎng)絡(luò)
4.2.4 覆蓋機(jī)制
4.3 實(shí)驗(yàn)
4.3.1 數(shù)據(jù)集
4.3.2 編程環(huán)境
4.3.3 參數(shù)設(shè)置
4.3.4 結(jié)果與分析
4.4 本章小結(jié)
第五章 自動(dòng)文本摘要原型系統(tǒng)
5.1 原型系統(tǒng)設(shè)計(jì)
5.2 系統(tǒng)實(shí)現(xiàn)
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 工作展望
致謝
參考文獻(xiàn)
附錄 A攻讀碩士期間發(fā)表論文及軟件著作權(quán)
發(fā)表論文
申請(qǐng)軟件著作權(quán)
附錄 B攻讀碩士期間參與項(xiàng)目
縱向項(xiàng)目
橫向項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]第41次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》發(fā)布[J]. 中國(guó)廣播. 2018(03)
[2]深度學(xué)習(xí)研究與進(jìn)展[J]. 孫志遠(yuǎn),魯成祥,史忠植,馬剛. 計(jì)算機(jī)科學(xué). 2016(02)
[3]深度學(xué)習(xí)研究進(jìn)展[J]. 郭麗麗,丁世飛. 計(jì)算機(jī)科學(xué). 2015(05)
[4]一種改進(jìn)的TFIDF網(wǎng)頁(yè)關(guān)鍵詞提取方法[J]. 李靜月,李培峰,朱巧明. 計(jì)算機(jī)應(yīng)用與軟件. 2011(05)
[5]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計(jì)算機(jī)應(yīng)用. 2009(S1)
[6]一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J]. 徐文海,溫有奎. 情報(bào)理論與實(shí)踐. 2008(02)
本文編號(hào):3175666
【文章來(lái)源】:昆明理工大學(xué)云南省
【文章頁(yè)數(shù)】:71 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.3 論文研究?jī)?nèi)容和組織結(jié)構(gòu)
1.3.1 本文的研究?jī)?nèi)容
1.3.2 本文的組織結(jié)構(gòu)
第二章 文本摘要相關(guān)基本理論
2.1 預(yù)處理
2.2 TFIDF
2.3 詞嵌入
2.3.1 word2vec連續(xù)詞袋模型
2.3.2 word2vec的 Skip-gram模型
2.4 知識(shí)遷移技術(shù)
2.5 文本摘要評(píng)價(jià)方法
2.5.1 ROUGE-N:N-gram共現(xiàn)統(tǒng)計(jì)
2.5.2 ROUGE-L:最長(zhǎng)的共同子序列
2.5.3 句子級(jí)別LCS
2.6 本章小結(jié)
第三章 基于知識(shí)遷移融合多種特征的文檔詞向量表示方法
3.1 基于知識(shí)遷移融合多種特征的文檔詞向量表示方法
3.1.1 模型思想
3.1.2 外部數(shù)據(jù)集詞向量
3.1.3 知識(shí)遷移
3.1.4 其它特征
3.1.5 多種特征融合
3.2 知識(shí)遷移融合多種特征的文檔詞向量應(yīng)用實(shí)例
3.3 實(shí)驗(yàn)
3.3.1 數(shù)據(jù)集介紹
3.3.2 編程環(huán)境
3.3.3 實(shí)驗(yàn)參數(shù)
3.3.4 評(píng)價(jià)指標(biāo)
3.3.5 實(shí)驗(yàn)對(duì)比與分析
3.4 本章小結(jié)
第四章 基于注意力機(jī)制的指針覆蓋文本摘要
4.1 序列到序列的神經(jīng)網(wǎng)絡(luò)框架
4.1.1 端到端序列轉(zhuǎn)換模型
4.1.2 注意力機(jī)制
4.2 基于注意力機(jī)制的指針覆蓋文本摘要模型
4.2.1 融合傳統(tǒng)特征的底層詞表示
4.2.2 層次注意力文檔結(jié)構(gòu)
4.2.3 引入混合指針生成器網(wǎng)絡(luò)
4.2.4 覆蓋機(jī)制
4.3 實(shí)驗(yàn)
4.3.1 數(shù)據(jù)集
4.3.2 編程環(huán)境
4.3.3 參數(shù)設(shè)置
4.3.4 結(jié)果與分析
4.4 本章小結(jié)
第五章 自動(dòng)文本摘要原型系統(tǒng)
5.1 原型系統(tǒng)設(shè)計(jì)
5.2 系統(tǒng)實(shí)現(xiàn)
5.3 本章小結(jié)
第六章 總結(jié)與展望
6.1 論文總結(jié)
6.2 工作展望
致謝
參考文獻(xiàn)
附錄 A攻讀碩士期間發(fā)表論文及軟件著作權(quán)
發(fā)表論文
申請(qǐng)軟件著作權(quán)
附錄 B攻讀碩士期間參與項(xiàng)目
縱向項(xiàng)目
橫向項(xiàng)目
【參考文獻(xiàn)】:
期刊論文
[1]第41次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》發(fā)布[J]. 中國(guó)廣播. 2018(03)
[2]深度學(xué)習(xí)研究與進(jìn)展[J]. 孫志遠(yuǎn),魯成祥,史忠植,馬剛. 計(jì)算機(jī)科學(xué). 2016(02)
[3]深度學(xué)習(xí)研究進(jìn)展[J]. 郭麗麗,丁世飛. 計(jì)算機(jī)科學(xué). 2015(05)
[4]一種改進(jìn)的TFIDF網(wǎng)頁(yè)關(guān)鍵詞提取方法[J]. 李靜月,李培峰,朱巧明. 計(jì)算機(jī)應(yīng)用與軟件. 2011(05)
[5]TFIDF算法研究綜述[J]. 施聰鶯,徐朝軍,楊曉江. 計(jì)算機(jī)應(yīng)用. 2009(S1)
[6]一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J]. 徐文海,溫有奎. 情報(bào)理論與實(shí)踐. 2008(02)
本文編號(hào):3175666
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3175666.html
最近更新
教材專著