基于深度學(xué)習(xí)的多語(yǔ)種自動(dòng)摘要系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2020-05-23 19:43
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,國(guó)際間的交流日益頻繁,人們?cè)谏钪忻刻於急淮罅康男畔鼑?如何高效地挑選出自己最需要的信息變得愈發(fā)重要。自動(dòng)摘要是解決信息爆炸問(wèn)題的關(guān)鍵技術(shù),跨語(yǔ)言自動(dòng)摘要技術(shù)可以讓人們快速瀏覽多國(guó)文獻(xiàn),幫助人們迅速了解世界上不同國(guó)家和地區(qū)的信息,具有重要的研究?jī)r(jià)值和應(yīng)用價(jià)值。本文實(shí)現(xiàn)的多語(yǔ)種自動(dòng)摘要系統(tǒng)主要有單語(yǔ)種自動(dòng)摘要和跨語(yǔ)言自動(dòng)摘要兩個(gè)功能,可以處理中、英、朝三種語(yǔ)言的科技文獻(xiàn)短文本;赗NNLM模型,本學(xué)位論文提出預(yù)訓(xùn)練詞向量的單語(yǔ)種自動(dòng)摘要方法,對(duì)某種語(yǔ)言的文本生成相同語(yǔ)種的摘要;基于Seq2Seq模型,本學(xué)位論文提出一種不需要機(jī)器翻譯的跨語(yǔ)言自動(dòng)摘要方法,可以對(duì)某種語(yǔ)言的文本直接生成另一種語(yǔ)言的摘要。首先,整理科技文獻(xiàn)的摘要和標(biāo)題,構(gòu)建中、朝、英三種語(yǔ)言的平行語(yǔ)料庫(kù)。使用不同的循環(huán)體結(jié)構(gòu)和不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),觀察模型在測(cè)試集上的表現(xiàn)。同時(shí)以加入Attention機(jī)制的Seq2Seq模型為基礎(chǔ),分別使用Word2Vec和RNNLM對(duì)詞向量進(jìn)行預(yù)訓(xùn)練,觀察模型在測(cè)試集上的表現(xiàn)。其次,利用中、朝、英平行語(yǔ)料庫(kù),使用基于Seq2Seq模型的訓(xùn)練方案,實(shí)現(xiàn)無(wú)需借助機(jī)器翻譯技術(shù)的跨語(yǔ)言生成式自動(dòng)摘要,模型可以對(duì)一種語(yǔ)言的文本直接生成另一種語(yǔ)言的摘要。最后,設(shè)計(jì)并實(shí)現(xiàn)基于Django框架的多語(yǔ)種生成式自動(dòng)摘要系統(tǒng),介紹系統(tǒng)的總體設(shè)計(jì)和各個(gè)功能模塊,展示系統(tǒng)的單語(yǔ)種自動(dòng)摘要功能和跨語(yǔ)言自動(dòng)摘要功能。實(shí)驗(yàn)結(jié)果表明,在單語(yǔ)種自動(dòng)摘要任務(wù)中,本學(xué)位論文提出的基于RNNLM的詞向量預(yù)訓(xùn)練方案與基于Word2Vec的詞向量預(yù)訓(xùn)練方案相比,效果更好,在測(cè)試集上的ROUGE-1、ROUGE-2和ROUGE-L指標(biāo)上分別為32.57%,9.17%,25.70%。在跨語(yǔ)言自動(dòng)摘要任務(wù)中,本學(xué)位論文提出的跨語(yǔ)言自動(dòng)摘要方法在測(cè)試集上的實(shí)驗(yàn)結(jié)果良好,在六個(gè)跨語(yǔ)言自動(dòng)摘要實(shí)驗(yàn)中,ROUGE-1指標(biāo)平均為23.30%,ROUGE-2指標(biāo)平均為4.93%,ROUGE-L指標(biāo)平均為19.47%。本學(xué)位論文開發(fā)的多語(yǔ)種自動(dòng)摘要系統(tǒng),能滿足東北亞地區(qū)科技工作者的實(shí)際需求,提高人們閱讀文獻(xiàn)的效率。
【圖文】:
Fig.邋3-2邋Experimental邋results邋of邋different邋epoch逡逑圖3-2中,由于Seq2Seq模型在輸出端的每一步實(shí)際上是一個(gè)多分類任務(wù),逡逑可以用準(zhǔn)確率來(lái)衡量模型訓(xùn)練結(jié)果的好壞。橫軸表示模型在訓(xùn)練集上次數(shù)epoch,縱軸表示準(zhǔn)確率和loss。按照從下往上的順序,最下面有三逡逑的曲線先上升后下降,表示的是模型訓(xùn)練過(guò)程中在驗(yàn)證集上的準(zhǔn)確率。逡逑有正方形的曲線一直在上升,表示的是模型在訓(xùn)練集上的準(zhǔn)確率。再往逡逑圓形的曲線一直在下降,表示的是模型在訓(xùn)練集上的loss(損失函數(shù))。最逡逑有“X”的曲線先下降后上升,表示的是模型在驗(yàn)證集上的loss。逡逑epoch的值太大,模型容易過(guò)擬合,epoch值太小,模型會(huì)處于欠擬合從圖3-2中可以看出,epoch=15時(shí),模型在驗(yàn)證集上的準(zhǔn)確率最高,,los。此時(shí),模型達(dá)到了最佳狀態(tài)。因此本文的實(shí)驗(yàn)中epoch的值設(shè)為15。逡逑在生成式自動(dòng)摘要任務(wù)中,注意力機(jī)制使用的是2.3.2節(jié)中介紹的逡逑anau等人提出的Attention邋Mechanism。本文實(shí)驗(yàn)一、二、二和四中的詞逡逑維度設(shè)置為100,LSTM和GRU隱層大小設(shè)置為100,訓(xùn)練過(guò)程中逡逑_size的值設(shè)為64,在訓(xùn)練集上迭代的次數(shù)epoch設(shè)為15。其中有關(guān)單逡逑自動(dòng)摘要的實(shí)驗(yàn)(實(shí)驗(yàn)一、二和三)都是在中文語(yǔ)料上進(jìn)行訓(xùn)練的,跨語(yǔ)言逡逑
4.4.1后臺(tái)管理模塊測(cè)試逡逑多語(yǔ)種自動(dòng)摘要系統(tǒng)的后臺(tái)管理模塊首頁(yè)如圖4-5所示,該頁(yè)面負(fù)責(zé)顯示逡逑后臺(tái)數(shù)據(jù)庫(kù)中的數(shù)據(jù),為用戶提供添加數(shù)據(jù),修改數(shù)據(jù),刪除數(shù)據(jù)和訓(xùn)練模逡逑型的功能。逡逑
【學(xué)位授予單位】:延邊大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP18
本文編號(hào):2677857
【圖文】:
Fig.邋3-2邋Experimental邋results邋of邋different邋epoch逡逑圖3-2中,由于Seq2Seq模型在輸出端的每一步實(shí)際上是一個(gè)多分類任務(wù),逡逑可以用準(zhǔn)確率來(lái)衡量模型訓(xùn)練結(jié)果的好壞。橫軸表示模型在訓(xùn)練集上次數(shù)epoch,縱軸表示準(zhǔn)確率和loss。按照從下往上的順序,最下面有三逡逑的曲線先上升后下降,表示的是模型訓(xùn)練過(guò)程中在驗(yàn)證集上的準(zhǔn)確率。逡逑有正方形的曲線一直在上升,表示的是模型在訓(xùn)練集上的準(zhǔn)確率。再往逡逑圓形的曲線一直在下降,表示的是模型在訓(xùn)練集上的loss(損失函數(shù))。最逡逑有“X”的曲線先下降后上升,表示的是模型在驗(yàn)證集上的loss。逡逑epoch的值太大,模型容易過(guò)擬合,epoch值太小,模型會(huì)處于欠擬合從圖3-2中可以看出,epoch=15時(shí),模型在驗(yàn)證集上的準(zhǔn)確率最高,,los。此時(shí),模型達(dá)到了最佳狀態(tài)。因此本文的實(shí)驗(yàn)中epoch的值設(shè)為15。逡逑在生成式自動(dòng)摘要任務(wù)中,注意力機(jī)制使用的是2.3.2節(jié)中介紹的逡逑anau等人提出的Attention邋Mechanism。本文實(shí)驗(yàn)一、二、二和四中的詞逡逑維度設(shè)置為100,LSTM和GRU隱層大小設(shè)置為100,訓(xùn)練過(guò)程中逡逑_size的值設(shè)為64,在訓(xùn)練集上迭代的次數(shù)epoch設(shè)為15。其中有關(guān)單逡逑自動(dòng)摘要的實(shí)驗(yàn)(實(shí)驗(yàn)一、二和三)都是在中文語(yǔ)料上進(jìn)行訓(xùn)練的,跨語(yǔ)言逡逑
4.4.1后臺(tái)管理模塊測(cè)試逡逑多語(yǔ)種自動(dòng)摘要系統(tǒng)的后臺(tái)管理模塊首頁(yè)如圖4-5所示,該頁(yè)面負(fù)責(zé)顯示逡逑后臺(tái)數(shù)據(jù)庫(kù)中的數(shù)據(jù),為用戶提供添加數(shù)據(jù),修改數(shù)據(jù),刪除數(shù)據(jù)和訓(xùn)練模逡逑型的功能。逡逑
【學(xué)位授予單位】:延邊大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP391.1;TP18
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 王連喜;;自動(dòng)摘要研究中的若干問(wèn)題[J];圖書情報(bào)工作;2014年20期
2 羅永蓮;趙昌垣;;突發(fā)事件新聞標(biāo)題與正文提取方法[J];計(jì)算機(jī)應(yīng)用;2014年10期
3 蔣效宇;;基于關(guān)鍵詞抽取的自動(dòng)文摘算法[J];計(jì)算機(jī)工程;2012年03期
4 吳曉鋒;宗成慶;;一種基于LDA的CRF自動(dòng)文摘方法[J];中文信息學(xué)報(bào);2009年06期
相關(guān)碩士學(xué)位論文 前1條
1 曹洋;基于TextRank算法的單文檔自動(dòng)文摘研究[D];南京大學(xué);2016年
本文編號(hào):2677857
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2677857.html
最近更新
教材專著