基于語義重構(gòu)的文本摘要算法
本文關(guān)鍵詞:基于語義重構(gòu)的文本摘要算法,由筆耕文化傳播整理發(fā)布。
【摘要】:互聯(lián)網(wǎng)技術(shù)的快速發(fā)展產(chǎn)生了數(shù)據(jù)爆炸和信息過載的問題,同時(shí)現(xiàn)代生活節(jié)奏的加快催生了用戶快速閱讀的需求,使得文本自動(dòng)摘要技術(shù)成為了當(dāng)今科學(xué)界的研究熱點(diǎn)。相比其他自然語言處理任務(wù),自動(dòng)摘要技術(shù)的挑戰(zhàn)在于摘要的評(píng)價(jià)指標(biāo)無法精準(zhǔn)量化,極具主觀性,而且自動(dòng)摘要往往深受冗余信息的困擾。目前主流的自動(dòng)摘要算法是通過預(yù)先定義某個(gè)指標(biāo),對(duì)所有句子進(jìn)行打分,然后對(duì)句子排序并抽取top-k作為生成摘要。然而這些抽取排序模型一方面對(duì)句子獨(dú)立打分,孤立了句子之間的聯(lián)系,忽略了文章的結(jié)構(gòu)信息;一方面選取的評(píng)分指標(biāo)通常是詞素級(jí)別或者統(tǒng)計(jì)特征,缺乏語義信息。針對(duì)這些缺點(diǎn),我們?cè)O(shè)想一個(gè)高質(zhì)量的摘要能夠很好地還原原文的語義,進(jìn)而提出了語義重構(gòu)模型:通過尋找能夠以最小損失重構(gòu)原文語義的句子集作為最后的生成摘要。本文的工作主要包括兩個(gè)方面:(1)針對(duì)詞袋模型的高維稀疏、缺乏語義信息的現(xiàn)象,設(shè)計(jì)了兩種簡(jiǎn)單有效的語義向量化方式表示文本,分別是基于神經(jīng)語言模型的詞嵌入加權(quán)方法和基于多層自編碼網(wǎng)絡(luò)的深度降維方法。并通過句子分類實(shí)驗(yàn)證明了這兩種向量化方式都能得到緊湊且具有語義的文本表示。(2)分別設(shè)計(jì)了基于二次規(guī)劃的線性重構(gòu)策略和更為平滑靈活的非線性重構(gòu)策略,以得到能最佳還原原文的句子并作為結(jié)果摘要。另外通過冗余消減手段在改進(jìn)了重構(gòu)策略并提高了摘要質(zhì)量。最后在DUC標(biāo)準(zhǔn)數(shù)據(jù)集上的摘要實(shí)驗(yàn)對(duì)比,證明了本文的語義重構(gòu)模型的合理性和有效性。
【關(guān)鍵詞】:自動(dòng)摘要 語義重構(gòu) 詞嵌入 語義表示
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1
【目錄】:
- 摘要6-7
- Abstract7-10
- 第一章 緒論10-16
- 1.1 自動(dòng)摘要的研究背景10-11
- 1.2 自動(dòng)摘要的分類11-12
- 1.3 自動(dòng)摘要的挑戰(zhàn)12-14
- 1.4 本文工作和組織結(jié)構(gòu)14-16
- 第二章 文本摘要的相關(guān)研究16-26
- 2.1 句子排序抽取法16-20
- 2.1.1 基于統(tǒng)計(jì)信皇16-18
- 2.1.2 句子聚類和圖模型18-19
- 2.1.3 機(jī)器學(xué)習(xí)19-20
- 2.2 基于語言學(xué)方法20-22
- 2.2.1 詞匯鏈20-21
- 2.2.2 LSA21
- 2.2.3 互參信息和修辭結(jié)構(gòu)21-22
- 2.3 特殊文體或領(lǐng)域的摘要方法22-26
- 2.3.1 醫(yī)學(xué)摘要22-23
- 2.3.2 期刊摘要23
- 2.3.3 郵件摘要23-24
- 2.3.4 網(wǎng)頁摘要24-26
- 第三章 文本的語義表示26-37
- 3.1 引言26-27
- 3.2 詞嵌入加權(quán)27-30
- 3.3 深度降維30-34
- 3.4 實(shí)驗(yàn)對(duì)比34-36
- 3.5 本章小結(jié)36-37
- 第四章 原文語義重構(gòu)策略37-59
- 4.1 線性重構(gòu)策略37-43
- 4.1.1 目標(biāo)函數(shù)38-42
- 4.1.2 優(yōu)化方法42-43
- 4.2 非線性重構(gòu)策略43-50
- 4.2.1 模型結(jié)構(gòu)及訓(xùn)練44-49
- 4.2.2 摘要提取49-50
- 4.3 冗余消減50-52
- 4.4 實(shí)驗(yàn)對(duì)比52-58
- 4.4.1 數(shù)據(jù)集和評(píng)測(cè)工具52-54
- 4.4.2 對(duì)比實(shí)驗(yàn)介紹54
- 4.4.3 實(shí)驗(yàn)結(jié)果及分析54-58
- 4.5 本章小結(jié)58-59
- 第五章 總結(jié)與展望59-61
- 5.1 工作總結(jié)59-60
- 5.2 未來展望60-61
- 參考文獻(xiàn)61-66
- 致謝66-67
- 附錄67-68
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 馬漢華;邵志清;過弋;;基于認(rèn)知心理學(xué)模型的自動(dòng)文本摘要生成技術(shù)[J];華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年06期
2 孫春葵,李蕾,楊曉蘭,鐘義信;基于知識(shí)的文本摘要系統(tǒng)研究與實(shí)現(xiàn)[J];計(jì)算機(jī)研究與發(fā)展;2000年07期
3 程倩倩;田大鋼;;基于基本要素方法的中文自動(dòng)文本摘要模型[J];現(xiàn)代圖書情報(bào)技術(shù);2010年02期
4 胡俠;林曄;王燦;林立;;自動(dòng)文本摘要技術(shù)綜述[J];情報(bào)雜志;2010年08期
5 劉冬平;李振坤;熊建斌;;基于統(tǒng)計(jì)的音樂摘要研究[J];現(xiàn)代計(jì)算機(jī)(專業(yè)版);2010年02期
6 王知津;基于句子選擇的自動(dòng)文本摘要方法及其評(píng)價(jià)[J];現(xiàn)代圖書情報(bào)技術(shù);1998年01期
7 鄒劍章;周經(jīng)野;陳益強(qiáng);胡明清;;基于事件框架的移動(dòng)摘要方法研究[J];微計(jì)算機(jī)信息;2010年12期
8 廖濤;劉宗田;王利;;多主題文本摘要抽取的研究與實(shí)現(xiàn)[J];計(jì)算機(jī)工程;2011年06期
9 龍瓏;鄧偉;;綠網(wǎng)摘要提取系統(tǒng)算法研究[J];微型機(jī)與應(yīng)用;2013年12期
10 張龍凱;王厚峰;;文本摘要問題中的句子抽取方法研究[J];中文信息學(xué)報(bào);2012年02期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前3條
1 王慧芳;張勇;邢春曉;張文珂;楊吉江;;文本摘要算法集成與實(shí)現(xiàn)[A];第二十五屆中國(guó)數(shù)據(jù)庫(kù)學(xué)術(shù)會(huì)議論文集(二)[C];2008年
2 伊力亞爾·加爾木哈買提;尼亞子別克·阿不都加勒力;;哈薩克文自動(dòng)文本摘要方法淺談[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國(guó)少數(shù)民族青年自然語言信息處理、第二屆全國(guó)多語言知識(shí)庫(kù)建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年
3 張龍凱;王厚峰;;文本摘要中的句子抽取方法研究[A];中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 謝松山;非領(lǐng)域知識(shí)依賴的文本摘要方法的研究[D];西南大學(xué);2015年
2 王斌;面向微博的觀點(diǎn)摘要關(guān)鍵技術(shù)研究[D];山西大學(xué);2015年
3 Ahmad Najibullah;印尼文文本摘要的句子提取和還原[D];南昌大學(xué);2015年
4 王曉陽;一種基于概念格的中文文本摘要方法研究[D];北京理工大學(xué);2015年
5 吳振東;基于圖模型聚類的文本摘要方法研究[D];浙江工商大學(xué);2015年
6 許盛伍;在線熱點(diǎn)新聞推薦系統(tǒng)研究和實(shí)現(xiàn)[D];南京航空航天大學(xué);2015年
7 孫秀勝;基于概念對(duì)象模型的文本摘要技術(shù)研究[D];山東財(cái)經(jīng)大學(xué);2016年
8 張弛;基于語義重構(gòu)的文本摘要算法[D];南京大學(xué);2016年
9 叢艷;自動(dòng)文本摘要方法的研究及應(yīng)用[D];華北電力大學(xué)(北京);2004年
10 閆英杰;偏重摘要技術(shù)及其應(yīng)用研究[D];大連理工大學(xué);2007年
本文關(guān)鍵詞:基于語義重構(gòu)的文本摘要算法,,由筆耕文化傳播整理發(fā)布。
本文編號(hào):320637
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/320637.html