基于深度學(xué)習(xí)的短文自動摘要生成算法研究
發(fā)布時間:2020-10-16 04:11
隨著移動設(shè)備的快速發(fā)展,信息的傳播途徑逐漸增多,時效性越來越強(qiáng)。面對這些海量信息,如何對其進(jìn)行快速、全面的掌握顯得非常重要;自動摘要技術(shù)就是一個很好的解決方案。使用自動摘要技術(shù),可通過簡短的文字描述就能夠覆蓋絕大多數(shù)信息。在社會迅速發(fā)展的今天,快速掌握主要信息能夠幫助人們提供提高信息獲取速度,提高工作效率,從而創(chuàng)造更多的社會價值。本論文的主要工作分為以下三個部分:(1)采用seq2seq+attention(sequence to sequence with attention)生成摘要。seq2seq+attention采用編碼和解碼方式,首先對文本內(nèi)容進(jìn)行學(xué)習(xí),增添attention注意力向量作為中間語義向量加入解碼部分的參數(shù),共同決定解碼模塊中某時刻的生成詞。該模型主要由以下兩部分構(gòu)成:編碼語言模型對輸入序列進(jìn)行編碼,解碼語言模型進(jìn)行解碼;在解碼的每一個時刻動態(tài)生成中間語義向量C,t時刻生成詞語由t-1時刻的輸出詞結(jié)合當(dāng)前時刻t產(chǎn)生的中間語義向量C共同決定該時刻詞的生成。(2)seq2seq+attention模型的優(yōu)化。對該模型進(jìn)行改進(jìn),聯(lián)合注意力向量使用修正概率和覆蓋機(jī)制,解決了大部分在摘要生成中出現(xiàn)的重復(fù)問題和未登陸詞OOV(out of vocabulary)現(xiàn)象。(3)實(shí)驗部分采用ROUGE自動評測和人工評測兩種方式進(jìn)行生成摘要評測,實(shí)驗結(jié)果顯示,本文提出的生成式摘要算法在ROUGE-1、ROUGE-2值和人工評測方式上均相對高于傳統(tǒng)的抽取式摘要評測值。實(shí)驗結(jié)果表明,基于seq2seq+attention改進(jìn)的生成式在文檔摘要的完整性、連貫性均有很大程度的提升。
【學(xué)位單位】:西安科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP391.1;TP18
【部分圖文】:
西安科技大學(xué)工程碩士學(xué)位論文1.3 課題研究目標(biāo)及內(nèi)容本文研究的目標(biāo)是:針對互聯(lián)網(wǎng)新聞社交平臺的新聞,應(yīng)用自動摘要生成技術(shù)自新聞生成摘要。該摘要不僅能夠覆蓋主題,而且在一定字?jǐn)?shù)范圍內(nèi),可以讓用戶快讀并掌握,從而為用戶節(jié)省大量閱讀時間,F(xiàn)有的抽取式摘要主要是對原文中的句子進(jìn)行重要性打分,然后對所有句子進(jìn)行要性權(quán)值排序,權(quán)值得分 TOPK(K 為摘要句子個數(shù))句子作為原文本摘要。該方法存在的問題是根據(jù) TOPK 獲得句子在邏輯上有一定問題,前后語義關(guān)聯(lián)強(qiáng),最終的摘要結(jié)果不能準(zhǔn)確反映樣本主題。針對現(xiàn)有的抽取式摘要的問題,本文提出了一種基于深度學(xué)習(xí)理論基礎(chǔ)的生成式動摘要方法。首先,使用 CNN 文本分類方式對原文本進(jìn)行分類,得到該新聞的類別;其次對類別的新聞基于 Seq2seq+attention 方式訓(xùn)練生成模型,并對未登陸詞 OOV(out ofvocabulary),生成詞語重復(fù)等問題作出算法改進(jìn)。本文主要研究內(nèi)容如圖 1.1:
engineering)。過去面對一個人工智能問題,一般的處理方式是分治為預(yù)處理、特征提取與選擇、分類器設(shè)計等若干步驟。以圖像識別為例,分治法的動機(jī)是將圖像識別的母問題分解為簡單、可控且清晰的若干小的子問題。但這種方法盡管可在子問題上得到最優(yōu)解,但其并不意味著就能得到目標(biāo)問題的總正確解。應(yīng)對這種過去方法的缺陷,深度學(xué)習(xí)使用另一種范式(paradigm),即“端到端”學(xué)習(xí)方式,將整個流程完全交給深度學(xué)習(xí)模型直接學(xué)習(xí)從原始輸入到期望輸出的映射。相比分治策略,“端到端”的學(xué)習(xí)方式具有協(xié)同增效的優(yōu)勢,獲得目標(biāo)問題的總正確解的幾率更大。如圖 2.1 所示,對深度模型而言模型的訓(xùn)練過程可以簡單抽象為從原始數(shù)據(jù)向最終目標(biāo)的直接“擬合”,其輸入數(shù)據(jù)是無需任何人工處理干預(yù)的原始樣本,中間則是堆疊的眾多操作層,將之整體看作一個復(fù)雜的函數(shù)fCNN,最終損失函數(shù)由數(shù)據(jù)損失(data loss)和模型參數(shù)的正則化損失(regularization loss)共同組成,其訓(xùn)練過程是在最終損失驅(qū)動下對模型進(jìn)行參數(shù)更新并將誤差反向傳播至網(wǎng)絡(luò)各層。在訓(xùn)練過程中,中間的這些部件將原始數(shù)據(jù)映射為特征(即特征學(xué)習(xí)),然后再輸出為樣本標(biāo)記(即目標(biāo)任務(wù),如分類)。下面我們就來看看組成fCNN的各個基本組成部件。
卷積的定義是:某一時的刻輸出是之前很多次輸入乘以各自的衰減系數(shù)之后的疊加而形成的某一點(diǎn)的輸出,然后再把不同時刻的輸出點(diǎn)放在一起,形成一個函數(shù),這就是卷積。在數(shù)字信號中,卷積就是信號 A 與信號 B 在不同時間的內(nèi)積,時間長度就是卷積結(jié)果的自變量,但是在 CNN 中卷積的作用是突出特征,將更明顯的特征提取出來。卷積層(Convolution Neural Network layers)通過卷積核與輸入圖像矩陣、文本矩陣進(jìn)行卷機(jī)操作,一般為離散卷積操作。當(dāng)步長為 1 時,卷積核按照步長從左到右,從上到下依次進(jìn)行操作?梢钥闯鼍矸e是一種局部特征提取簡化過程,通過一定大小的卷積核作用于局部以獲取局部信息。卷積網(wǎng)絡(luò)中通過網(wǎng)絡(luò)訓(xùn)練學(xué)出的卷積核參數(shù),除了可以實(shí)現(xiàn)類似的橫向、縱向邊緣濾波器,還可以實(shí)現(xiàn)任意角度的邊緣濾波器。在更多復(fù)雜條件的多個不同類型濾波器(卷積核)的組合都可以包含在一個足夠復(fù)雜的深層卷積神經(jīng)網(wǎng)絡(luò)中。通過這些復(fù)雜條件的多個不同類型濾波器(卷積核)的組合的操作的進(jìn)行,基本而一般的模式會逐漸被統(tǒng)合為具有復(fù)雜涵義之集合,成為一個“概念”來表示,并用這個概念來作為標(biāo)準(zhǔn)來處理后續(xù)的待處理樣本輸出結(jié)果。頗有“盲人摸象”后,將各自結(jié)果集集成之意。
【參考文獻(xiàn)】
本文編號:2842740
【學(xué)位單位】:西安科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP391.1;TP18
【部分圖文】:
西安科技大學(xué)工程碩士學(xué)位論文1.3 課題研究目標(biāo)及內(nèi)容本文研究的目標(biāo)是:針對互聯(lián)網(wǎng)新聞社交平臺的新聞,應(yīng)用自動摘要生成技術(shù)自新聞生成摘要。該摘要不僅能夠覆蓋主題,而且在一定字?jǐn)?shù)范圍內(nèi),可以讓用戶快讀并掌握,從而為用戶節(jié)省大量閱讀時間,F(xiàn)有的抽取式摘要主要是對原文中的句子進(jìn)行重要性打分,然后對所有句子進(jìn)行要性權(quán)值排序,權(quán)值得分 TOPK(K 為摘要句子個數(shù))句子作為原文本摘要。該方法存在的問題是根據(jù) TOPK 獲得句子在邏輯上有一定問題,前后語義關(guān)聯(lián)強(qiáng),最終的摘要結(jié)果不能準(zhǔn)確反映樣本主題。針對現(xiàn)有的抽取式摘要的問題,本文提出了一種基于深度學(xué)習(xí)理論基礎(chǔ)的生成式動摘要方法。首先,使用 CNN 文本分類方式對原文本進(jìn)行分類,得到該新聞的類別;其次對類別的新聞基于 Seq2seq+attention 方式訓(xùn)練生成模型,并對未登陸詞 OOV(out ofvocabulary),生成詞語重復(fù)等問題作出算法改進(jìn)。本文主要研究內(nèi)容如圖 1.1:
engineering)。過去面對一個人工智能問題,一般的處理方式是分治為預(yù)處理、特征提取與選擇、分類器設(shè)計等若干步驟。以圖像識別為例,分治法的動機(jī)是將圖像識別的母問題分解為簡單、可控且清晰的若干小的子問題。但這種方法盡管可在子問題上得到最優(yōu)解,但其并不意味著就能得到目標(biāo)問題的總正確解。應(yīng)對這種過去方法的缺陷,深度學(xué)習(xí)使用另一種范式(paradigm),即“端到端”學(xué)習(xí)方式,將整個流程完全交給深度學(xué)習(xí)模型直接學(xué)習(xí)從原始輸入到期望輸出的映射。相比分治策略,“端到端”的學(xué)習(xí)方式具有協(xié)同增效的優(yōu)勢,獲得目標(biāo)問題的總正確解的幾率更大。如圖 2.1 所示,對深度模型而言模型的訓(xùn)練過程可以簡單抽象為從原始數(shù)據(jù)向最終目標(biāo)的直接“擬合”,其輸入數(shù)據(jù)是無需任何人工處理干預(yù)的原始樣本,中間則是堆疊的眾多操作層,將之整體看作一個復(fù)雜的函數(shù)fCNN,最終損失函數(shù)由數(shù)據(jù)損失(data loss)和模型參數(shù)的正則化損失(regularization loss)共同組成,其訓(xùn)練過程是在最終損失驅(qū)動下對模型進(jìn)行參數(shù)更新并將誤差反向傳播至網(wǎng)絡(luò)各層。在訓(xùn)練過程中,中間的這些部件將原始數(shù)據(jù)映射為特征(即特征學(xué)習(xí)),然后再輸出為樣本標(biāo)記(即目標(biāo)任務(wù),如分類)。下面我們就來看看組成fCNN的各個基本組成部件。
卷積的定義是:某一時的刻輸出是之前很多次輸入乘以各自的衰減系數(shù)之后的疊加而形成的某一點(diǎn)的輸出,然后再把不同時刻的輸出點(diǎn)放在一起,形成一個函數(shù),這就是卷積。在數(shù)字信號中,卷積就是信號 A 與信號 B 在不同時間的內(nèi)積,時間長度就是卷積結(jié)果的自變量,但是在 CNN 中卷積的作用是突出特征,將更明顯的特征提取出來。卷積層(Convolution Neural Network layers)通過卷積核與輸入圖像矩陣、文本矩陣進(jìn)行卷機(jī)操作,一般為離散卷積操作。當(dāng)步長為 1 時,卷積核按照步長從左到右,從上到下依次進(jìn)行操作?梢钥闯鼍矸e是一種局部特征提取簡化過程,通過一定大小的卷積核作用于局部以獲取局部信息。卷積網(wǎng)絡(luò)中通過網(wǎng)絡(luò)訓(xùn)練學(xué)出的卷積核參數(shù),除了可以實(shí)現(xiàn)類似的橫向、縱向邊緣濾波器,還可以實(shí)現(xiàn)任意角度的邊緣濾波器。在更多復(fù)雜條件的多個不同類型濾波器(卷積核)的組合都可以包含在一個足夠復(fù)雜的深層卷積神經(jīng)網(wǎng)絡(luò)中。通過這些復(fù)雜條件的多個不同類型濾波器(卷積核)的組合的操作的進(jìn)行,基本而一般的模式會逐漸被統(tǒng)合為具有復(fù)雜涵義之集合,成為一個“概念”來表示,并用這個概念來作為標(biāo)準(zhǔn)來處理后續(xù)的待處理樣本輸出結(jié)果。頗有“盲人摸象”后,將各自結(jié)果集集成之意。
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 胡俠;林曄;王燦;林立;;自動文本摘要技術(shù)綜述[J];情報雜志;2010年08期
2 王建波;王開鑄;;自動文摘系統(tǒng)—句子級信息處理研究[J];情報科學(xué);1991年06期
3 李小濱,徐越;自動文摘系統(tǒng)EAAS[J];軟件學(xué)報;1991年04期
4 耿煥同;蔡慶生;趙鵬;于琨;;一種基于詞共現(xiàn)圖的文檔自動摘要研究[J];情報學(xué)報;2005年06期
5 譚種;陳躍新;;自動摘要方法綜述[J];情報學(xué)報;2008年01期
相關(guān)碩士學(xué)位論文 前2條
1 官宸宇;面向事件的社交媒體文本自動摘要研究[D];武漢大學(xué);2017年
2 陳曉萍;基于主題的短文本自動摘要抽取研究與應(yīng)用[D];電子科技大學(xué);2017年
本文編號:2842740
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2842740.html
最近更新
教材專著