基于TextRank算法的單文檔自動(dòng)文摘研究

發(fā)布時(shí)間：2017-05-07 15:19

本文關(guān)鍵詞：基于TextRank算法的單文檔自動(dòng)文摘研究，由筆耕文化傳播整理發(fā)布。

【摘要】：信息時(shí)代的來臨引發(fā)了文獻(xiàn)的指數(shù)級(jí)增長(zhǎng),信息用戶迅速由信息貧乏過渡到信息過載,傳統(tǒng)手工文摘速度已經(jīng)遠(yuǎn)遠(yuǎn)落后于用戶的需要。起于1958年的自動(dòng)文摘研究一直是信息自動(dòng)處理領(lǐng)域的熱點(diǎn)。其中,基于圖的自動(dòng)文摘主要利用文本中的詞匯或者語義信息構(gòu)建拓?fù)浣Y(jié)構(gòu)圖,TextRank是其代表性的算法之一。借鑒了PageRank的算法思想,TextRank算法將文檔劃分為由若干文本單元(詞項(xiàng)或者句子)構(gòu)成的節(jié)點(diǎn),文本單元間的相似度構(gòu)成節(jié)點(diǎn)間的邊,形成圖模型,利用PageRank算法對(duì)圖模型進(jìn)行迭代直至收斂,然后對(duì)所有節(jié)點(diǎn)進(jìn)行排序,輸出關(guān)鍵詞或文摘句。TextRank算法作為一種無監(jiān)督方法,無需訓(xùn)練語料,可以運(yùn)用在多種不同的領(lǐng)域。本文對(duì)TextRank算法自動(dòng)文摘過程中的句子相似度、句子權(quán)重計(jì)算等部分進(jìn)行了改進(jìn),提出了一種面向英文語料的單文檔自動(dòng)文摘方法。本文的研究工作包括以下幾個(gè)方面：(1)研究問題。對(duì)基于TextRank算法自動(dòng)文摘的主要步驟進(jìn)行了梳理與分析,發(fā)現(xiàn)預(yù)處理以及迭代計(jì)算部分已經(jīng)較為成熟,改進(jìn)空間有限,而句子相似度以及句子權(quán)重計(jì)算則尚有較大的提升空間。(2)句子相似度。本文比較了基于編輯距離、WordNet語義詞典、BM25以及經(jīng)典TextRank的相似度算法；分析發(fā)現(xiàn)基于BM25相似度計(jì)算方法的自動(dòng)文摘效果最優(yōu),同時(shí)也發(fā)現(xiàn)BM25計(jì)算公式中的IDF(si)部分,當(dāng)n(si)大于N/2時(shí),IDF(si)取負(fù)值,從而得到一個(gè)取負(fù)值的權(quán)重。對(duì)此,本文提出了兩種BM25的改進(jìn)思路,其一是采用經(jīng)典TF-IDF計(jì)算公式中的IDF計(jì)算部分替換BM25原有的IDF(si)計(jì)算公式,并對(duì)經(jīng)典IDF計(jì)算公式的分母采用拉普拉斯加1平滑；另一則是對(duì)BM25原有的IDF(5i)計(jì)算公式,當(dāng)n(si)小于等于N/2時(shí),公式不變,IDF(Si)取正值,當(dāng)n(si)大于N/2時(shí),用α·avglDF替換原來的公式。其中,a是調(diào)節(jié)參數(shù)(0≤α≤), avgIDF是所有詞項(xiàng)的平均IDF值。(3)句子權(quán)重。經(jīng)典TextRank方法考慮了句子的全局信息,但是忽視了句子本身的特征。對(duì)此,提出了將句子位置、線索詞與經(jīng)典TextRank加以整合的句子權(quán)重計(jì)算方案。(4)文摘實(shí)驗(yàn)。語料庫(kù)為DUC2002,具體的工作包括：語料的預(yù)處理(分句、分詞、詞性標(biāo)注、詞項(xiàng)過濾)；句子相似性計(jì)算；句子權(quán)重計(jì)算；文摘生成。(5)文摘評(píng)價(jià)。評(píng)價(jià)方法采用ROUGE,主要考查了面對(duì)不同文摘抽取任務(wù)時(shí)的表現(xiàn)(100個(gè)單詞、壓縮10%、壓縮20%)。實(shí)驗(yàn)表明,在ROUGE的各項(xiàng)指標(biāo)上,本文提出的句子相似度計(jì)算方法與句子權(quán)重計(jì)算方法均比經(jīng)典TextRank方法有所提高。同時(shí),本文給出了在面對(duì)不同文摘抽取任務(wù)時(shí)BM25改進(jìn)方法的α取值策略。實(shí)驗(yàn)表明,本文改進(jìn)的基于TextRank算法的單文檔自動(dòng)文摘方法具有一定的創(chuàng)新性與適用性。
【關(guān)鍵詞】：自動(dòng)文摘 TextRank BM25 單文檔自動(dòng)文摘
【學(xué)位授予單位】：南京大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2016
【分類號(hào)】：TP391.1;G250.7
【目錄】：

摘要5-7
Abstract7-14
第一章緒論14-17
1.1 研究背景14
1.2 研究目的與意義14-15
1.3 創(chuàng)新點(diǎn)15
1.4 論文結(jié)構(gòu)安排15-17
第二章研究綜述17-37
2.1 自動(dòng)文摘17-30
2.1.1 自動(dòng)文摘的定義及其分類17-19
2.1.2 自動(dòng)文摘方法19-28
2.1.3 自動(dòng)文摘評(píng)價(jià)28-30
2.2 TextRank算法30-37
2.2.1 基于TextRank的關(guān)鍵詞抽取31-32
2.2.2 基于TextRank的文摘句抽取32-37
第三章研究設(shè)計(jì)37-46
3.1 句子相似度計(jì)算37-43
3.1.1 基于信息量的相似度計(jì)算方法38
3.1.2 基于編輯距離的相似度計(jì)算方法38-39
3.1.3 基于語義詞典的相似度計(jì)算方法39
3.1.4 基于BM25的相似度計(jì)算方法39-41
3.1.5 基于BM25的改進(jìn)相似度計(jì)算方法41-43
3.2 句子權(quán)重計(jì)算43-46
3.2.1 基于TextRank的句子權(quán)重43-44
3.2.2 基于位置的句子權(quán)重44
3.2.3 基于線索詞的句子權(quán)重44-46
第四章實(shí)驗(yàn)與分析46-63
4.1 實(shí)驗(yàn)語料庫(kù)46
4.2 實(shí)驗(yàn)環(huán)境46-47
4.3 語料庫(kù)預(yù)處理47-50
4.3.1 內(nèi)容提取47-48
4.3.2 文本分割48-50
4.4 實(shí)驗(yàn)指標(biāo)50
4.5 句子相似性分析50-61
4.5.1 固定長(zhǎng)度文摘(100個(gè)詞項(xiàng))51-54
4.5.2 可變長(zhǎng)度文摘(壓縮10%)54-57
4.5.3 可變長(zhǎng)度文摘(壓縮20%)57-61
4.6 句子權(quán)重分析61-63
4.6.1 固定長(zhǎng)度文摘(100個(gè)詞項(xiàng))61
4.6.2 可變長(zhǎng)度文摘(壓縮10%)61-62
4.6.3 可變長(zhǎng)度文摘(壓縮20%)62-63
第五章結(jié)語63-65
5.1 研究結(jié)論63-64
5.2 進(jìn)一步研究工作64-65
參考文獻(xiàn)65-73
附錄73-79
附錄1：DUC 2002原文AP880912-0095示例73-74
附錄2：本文提出的文摘方法產(chǎn)生AP880912-0095的文摘74-75
附錄3：DUC 2002原文LA122190-0149示例75-78
附錄4：本文提出的文摘方法產(chǎn)生LA122190-0149的文摘78-79
致謝79-80

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 金博,史彥軍,滕弘飛,艾景波;自動(dòng)文摘技術(shù)及應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2004年12期

2 陸和健;李祝啟;;網(wǎng)絡(luò)信息自動(dòng)文摘研究[J];情報(bào)科學(xué);2008年10期

3 林莉;;自動(dòng)文摘的生成方法與評(píng)價(jià)研究[J];圖書館學(xué)刊;2009年05期

4 王建波,王開鑄;自然語言篇章理解及基于理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1992年02期

5 王開鑄,李俊杰,李秀坤,吳巖,張軍;自動(dòng)文摘系統(tǒng)的歷史和現(xiàn)狀[J];電腦學(xué)習(xí);1995年04期

6 王開鑄,吳巖,劉挺,張軍;自動(dòng)文摘設(shè)計(jì)模型[J];電腦學(xué)習(xí);1995年05期

7 王開鑄,吳巖,劉挺;基于理解的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];電腦學(xué)習(xí);1996年02期

8 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期

9 胡舜耕,鐘義信,魏超成;基于多Agent技術(shù)的自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2000年09期

10 宋今,趙東巖;基于語料庫(kù)與層次詞典的自動(dòng)文摘研究(英文)[J];軟件學(xué)報(bào);2000年03期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)方法[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展（2007-2009）[C];2009年

2 劉茂福;金可佳;姬東鴻;張曉龍;;統(tǒng)計(jì)與規(guī)則相結(jié)合的指代消解在事件自動(dòng)文摘中的應(yīng)用[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展（2007-2009）[C];2009年

3 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現(xiàn)特征的中文自動(dòng)文摘研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年

4 劉海濤;老松楊;吳玲達(dá);;基于段落自適應(yīng)聚類的自動(dòng)文摘系統(tǒng)研究[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議（HHME2005）論文集[C];2005年

5 李成城;;基于修辭結(jié)構(gòu)理論的自動(dòng)文摘研究[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

6 呂靜;昝紅英;;基于語義統(tǒng)計(jì)的中文自動(dòng)文摘研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年

7 王紅玲;黃超超;張明慧;周國(guó)棟;;面向冗余度控制的中文多文檔自動(dòng)文摘[A];中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展（2009-2011）[C];2011年

8 盧冶;林鴻飛;趙晶;;中文自動(dòng)文摘系統(tǒng)的綜合評(píng)價(jià)模式[A];全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議（JSCL-2005）論文集[C];2005年

9 邵偉;何婷婷;胡珀;肖華松;;一種面向查詢的多文檔文摘句選擇策略[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

10 王小磊;張瑾;許洪波;;基于交互增強(qiáng)原理的多文檔自動(dòng)文摘算法[A];第四屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條

1 教育部語言文字應(yīng)用研究所副所長(zhǎng) 靳光瑾　中國(guó)社會(huì)科學(xué)院語言文字應(yīng)用系研究生易江燕;話題發(fā)現(xiàn)技術(shù)：決策參考的“探測(cè)器”[N];中國(guó)社會(huì)科學(xué)報(bào);2014年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 趙林;面向查詢的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2008年

2 李鵬;面向主題的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2013年

3 胡珀;融合上下文信息的自動(dòng)文摘研究[D];武漢大學(xué);2013年

4 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁(yè)自動(dòng)文摘方法研究[D];華南理工大學(xué);2010年

5 韋福如;基于圖模型多文檔自動(dòng)文摘研究[D];武漢大學(xué);2009年

6 徐永東;多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年

7 張琳;基于引用聚類的多文檔自動(dòng)文摘技術(shù)研究[D];大連海事大學(xué);2013年

8 陳勁光;基于云模型的中文面向查詢多文檔自動(dòng)文摘研究[D];華中師范大學(xué);2011年

9 劉德喜;基于基本要素的多文檔自動(dòng)文摘研究[D];武漢大學(xué);2007年

10 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 陳奕辰;基于句子權(quán)重和篇章結(jié)構(gòu)的自動(dòng)文摘算法的研究與實(shí)現(xiàn)[D];湖南師范大學(xué);2015年

2 蘇彬;基于Word2Vec的自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年

3 孫佩佩;面向事件的自動(dòng)文摘研究[D];安徽理工大學(xué);2016年

4 曹洋;基于TextRank算法的單文檔自動(dòng)文摘研究[D];南京大學(xué);2016年

5 朱荷香;中文自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[D];南京師范大學(xué);2008年

6 石子言;用戶驅(qū)動(dòng)的特定領(lǐng)域自動(dòng)文摘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];東北師范大學(xué);2009年

7 孟慶富;生物醫(yī)學(xué)多文檔自動(dòng)文摘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年

8 馬長(zhǎng)林;中文自動(dòng)文摘技術(shù)若干問題的研究[D];華中師范大學(xué);2002年

9 胡珀;基于自適應(yīng)聚類的中文自動(dòng)文摘研究[D];華中師范大學(xué);2005年

10 柴曉麗;自動(dòng)文摘技術(shù)的研究與應(yīng)用[D];長(zhǎng)春理工大學(xué);2007年

本文關(guān)鍵詞：基于TextRank算法的單文檔自動(dòng)文摘研究，由筆耕文化傳播整理發(fā)布。

，

本文編號(hào)：350123

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/tushudanganlunwen/350123.html

上一篇：我國(guó)省級(jí)公共圖書館微博服務(wù)現(xiàn)狀分析與發(fā)展策略研究
下一篇：興趣型虛擬社區(qū)知識(shí)共享績(jī)效評(píng)價(jià)研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于TextRank算法的單文檔自動(dòng)文摘研究