基于TextRank算法的單文檔自動(dòng)文摘研究
本文關(guān)鍵詞:基于TextRank算法的單文檔自動(dòng)文摘研究,由筆耕文化傳播整理發(fā)布。
【摘要】:信息時(shí)代的來臨引發(fā)了文獻(xiàn)的指數(shù)級(jí)增長(zhǎng),信息用戶迅速由信息貧乏過渡到信息過載,傳統(tǒng)手工文摘速度已經(jīng)遠(yuǎn)遠(yuǎn)落后于用戶的需要。起于1958年的自動(dòng)文摘研究一直是信息自動(dòng)處理領(lǐng)域的熱點(diǎn)。其中,基于圖的自動(dòng)文摘主要利用文本中的詞匯或者語義信息構(gòu)建拓?fù)浣Y(jié)構(gòu)圖,TextRank是其代表性的算法之一。借鑒了PageRank的算法思想,TextRank算法將文檔劃分為由若干文本單元(詞項(xiàng)或者句子)構(gòu)成的節(jié)點(diǎn),文本單元間的相似度構(gòu)成節(jié)點(diǎn)間的邊,形成圖模型,利用PageRank算法對(duì)圖模型進(jìn)行迭代直至收斂,然后對(duì)所有節(jié)點(diǎn)進(jìn)行排序,輸出關(guān)鍵詞或文摘句。TextRank算法作為一種無監(jiān)督方法,無需訓(xùn)練語料,可以運(yùn)用在多種不同的領(lǐng)域。本文對(duì)TextRank算法自動(dòng)文摘過程中的句子相似度、句子權(quán)重計(jì)算等部分進(jìn)行了改進(jìn),提出了一種面向英文語料的單文檔自動(dòng)文摘方法。本文的研究工作包括以下幾個(gè)方面:(1)研究問題。對(duì)基于TextRank算法自動(dòng)文摘的主要步驟進(jìn)行了梳理與分析,發(fā)現(xiàn)預(yù)處理以及迭代計(jì)算部分已經(jīng)較為成熟,改進(jìn)空間有限,而句子相似度以及句子權(quán)重計(jì)算則尚有較大的提升空間。(2)句子相似度。本文比較了基于編輯距離、WordNet語義詞典、BM25以及經(jīng)典TextRank的相似度算法;分析發(fā)現(xiàn)基于BM25相似度計(jì)算方法的自動(dòng)文摘效果最優(yōu),同時(shí)也發(fā)現(xiàn)BM25計(jì)算公式中的IDF(si)部分,當(dāng)n(si)大于N/2時(shí),IDF(si)取負(fù)值,從而得到一個(gè)取負(fù)值的權(quán)重。對(duì)此,本文提出了兩種BM25的改進(jìn)思路,其一是采用經(jīng)典TF-IDF計(jì)算公式中的IDF計(jì)算部分替換BM25原有的IDF(si)計(jì)算公式,并對(duì)經(jīng)典IDF計(jì)算公式的分母采用拉普拉斯加1平滑;另一則是對(duì)BM25原有的IDF(5i)計(jì)算公式,當(dāng)n(si)小于等于N/2時(shí),公式不變,IDF(Si)取正值,當(dāng)n(si)大于N/2時(shí),用α·avglDF替換原來的公式。其中,a是調(diào)節(jié)參數(shù)(0≤α≤), avgIDF是所有詞項(xiàng)的平均IDF值。(3)句子權(quán)重。經(jīng)典TextRank方法考慮了句子的全局信息,但是忽視了句子本身的特征。對(duì)此,提出了將句子位置、線索詞與經(jīng)典TextRank加以整合的句子權(quán)重計(jì)算方案。(4)文摘實(shí)驗(yàn)。語料庫(kù)為DUC2002,具體的工作包括:語料的預(yù)處理(分句、分詞、詞性標(biāo)注、詞項(xiàng)過濾);句子相似性計(jì)算;句子權(quán)重計(jì)算;文摘生成。(5)文摘評(píng)價(jià)。評(píng)價(jià)方法采用ROUGE,主要考查了面對(duì)不同文摘抽取任務(wù)時(shí)的表現(xiàn)(100個(gè)單詞、壓縮10%、壓縮20%)。實(shí)驗(yàn)表明,在ROUGE的各項(xiàng)指標(biāo)上,本文提出的句子相似度計(jì)算方法與句子權(quán)重計(jì)算方法均比經(jīng)典TextRank方法有所提高。同時(shí),本文給出了在面對(duì)不同文摘抽取任務(wù)時(shí)BM25改進(jìn)方法的α取值策略。實(shí)驗(yàn)表明,本文改進(jìn)的基于TextRank算法的單文檔自動(dòng)文摘方法具有一定的創(chuàng)新性與適用性。
【關(guān)鍵詞】:自動(dòng)文摘 TextRank BM25 單文檔自動(dòng)文摘
【學(xué)位授予單位】:南京大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP391.1;G250.7
【目錄】:
- 摘要5-7
- Abstract7-14
- 第一章 緒論14-17
- 1.1 研究背景14
- 1.2 研究目的與意義14-15
- 1.3 創(chuàng)新點(diǎn)15
- 1.4 論文結(jié)構(gòu)安排15-17
- 第二章 研究綜述17-37
- 2.1 自動(dòng)文摘17-30
- 2.1.1 自動(dòng)文摘的定義及其分類17-19
- 2.1.2 自動(dòng)文摘方法19-28
- 2.1.3 自動(dòng)文摘評(píng)價(jià)28-30
- 2.2 TextRank算法30-37
- 2.2.1 基于TextRank的關(guān)鍵詞抽取31-32
- 2.2.2 基于TextRank的文摘句抽取32-37
- 第三章 研究設(shè)計(jì)37-46
- 3.1 句子相似度計(jì)算37-43
- 3.1.1 基于信息量的相似度計(jì)算方法38
- 3.1.2 基于編輯距離的相似度計(jì)算方法38-39
- 3.1.3 基于語義詞典的相似度計(jì)算方法39
- 3.1.4 基于BM25的相似度計(jì)算方法39-41
- 3.1.5 基于BM25的改進(jìn)相似度計(jì)算方法41-43
- 3.2 句子權(quán)重計(jì)算43-46
- 3.2.1 基于TextRank的句子權(quán)重43-44
- 3.2.2 基于位置的句子權(quán)重44
- 3.2.3 基于線索詞的句子權(quán)重44-46
- 第四章 實(shí)驗(yàn)與分析46-63
- 4.1 實(shí)驗(yàn)語料庫(kù)46
- 4.2 實(shí)驗(yàn)環(huán)境46-47
- 4.3 語料庫(kù)預(yù)處理47-50
- 4.3.1 內(nèi)容提取47-48
- 4.3.2 文本分割48-50
- 4.4 實(shí)驗(yàn)指標(biāo)50
- 4.5 句子相似性分析50-61
- 4.5.1 固定長(zhǎng)度文摘(100個(gè)詞項(xiàng))51-54
- 4.5.2 可變長(zhǎng)度文摘(壓縮10%)54-57
- 4.5.3 可變長(zhǎng)度文摘(壓縮20%)57-61
- 4.6 句子權(quán)重分析61-63
- 4.6.1 固定長(zhǎng)度文摘(100個(gè)詞項(xiàng))61
- 4.6.2 可變長(zhǎng)度文摘(壓縮10%)61-62
- 4.6.3 可變長(zhǎng)度文摘(壓縮20%)62-63
- 第五章 結(jié)語63-65
- 5.1 研究結(jié)論63-64
- 5.2 進(jìn)一步研究工作64-65
- 參考文獻(xiàn)65-73
- 附錄73-79
- 附錄1:DUC 2002原文AP880912-0095示例73-74
- 附錄2:本文提出的文摘方法產(chǎn)生AP880912-0095的文摘74-75
- 附錄3:DUC 2002原文LA122190-0149示例75-78
- 附錄4:本文提出的文摘方法產(chǎn)生LA122190-0149的文摘78-79
- 致謝79-80
【相似文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條
1 金博,史彥軍,滕弘飛,艾景波;自動(dòng)文摘技術(shù)及應(yīng)用[J];計(jì)算機(jī)應(yīng)用研究;2004年12期
2 陸和健;李祝啟;;網(wǎng)絡(luò)信息自動(dòng)文摘研究[J];情報(bào)科學(xué);2008年10期
3 林莉;;自動(dòng)文摘的生成方法與評(píng)價(jià)研究[J];圖書館學(xué)刊;2009年05期
4 王建波,王開鑄;自然語言篇章理解及基于理解的自動(dòng)文摘研究[J];中文信息學(xué)報(bào);1992年02期
5 王開鑄,李俊杰,李秀坤,吳巖,張軍;自動(dòng)文摘系統(tǒng)的歷史和現(xiàn)狀[J];電腦學(xué)習(xí);1995年04期
6 王開鑄,吳巖,劉挺,張軍;自動(dòng)文摘設(shè)計(jì)模型[J];電腦學(xué)習(xí);1995年05期
7 王開鑄,吳巖,劉挺;基于理解的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J];電腦學(xué)習(xí);1996年02期
8 李蕾,鐘義信,郭祥昊;面向特定領(lǐng)域的理解型中文自動(dòng)文摘系統(tǒng)[J];計(jì)算機(jī)研究與發(fā)展;2000年04期
9 胡舜耕,鐘義信,魏超成;基于多Agent技術(shù)的自動(dòng)文摘研究[J];計(jì)算機(jī)工程與應(yīng)用;2000年09期
10 宋今,趙東巖;基于語料庫(kù)與層次詞典的自動(dòng)文摘研究(英文)[J];軟件學(xué)報(bào);2000年03期
中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條
1 桂卓民;何婷婷;陳勁光;李芳;;一種面向查詢的多文檔自動(dòng)文摘系統(tǒng)實(shí)現(xiàn)方法[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
2 劉茂福;金可佳;姬東鴻;張曉龍;;統(tǒng)計(jì)與規(guī)則相結(jié)合的指代消解在事件自動(dòng)文摘中的應(yīng)用[A];中國(guó)計(jì)算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德軍;張燦;;基于詞位置與同現(xiàn)特征的中文自動(dòng)文摘研究[A];第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集[C];2009年
4 劉海濤;老松楊;吳玲達(dá);;基于段落自適應(yīng)聚類的自動(dòng)文摘系統(tǒng)研究[A];第一屆建立和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2005)論文集[C];2005年
5 李成城;;基于修辭結(jié)構(gòu)理論的自動(dòng)文摘研究[A];民族語言文字信息技術(shù)研究——第十一屆全國(guó)民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年
6 呂靜;昝紅英;;基于語義統(tǒng)計(jì)的中文自動(dòng)文摘研究[A];第三屆學(xué)生計(jì)算語言學(xué)研討會(huì)論文集[C];2006年
7 王紅玲;黃超超;張明慧;周國(guó)棟;;面向冗余度控制的中文多文檔自動(dòng)文摘[A];中國(guó)計(jì)算語言學(xué)研究前沿進(jìn)展(2009-2011)[C];2011年
8 盧冶;林鴻飛;趙晶;;中文自動(dòng)文摘系統(tǒng)的綜合評(píng)價(jià)模式[A];全國(guó)第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年
9 邵偉;何婷婷;胡珀;肖華松;;一種面向查詢的多文檔文摘句選擇策略[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年
10 王小磊;張瑾;許洪波;;基于交互增強(qiáng)原理的多文檔自動(dòng)文摘算法[A];第四屆全國(guó)學(xué)生計(jì)算語言學(xué)研討會(huì)會(huì)議論文集[C];2008年
中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前1條
1 教育部語言文字應(yīng)用研究所副所長(zhǎng) 靳光瑾 中國(guó)社會(huì)科學(xué)院語言文字應(yīng)用系研究生 易江燕;話題發(fā)現(xiàn)技術(shù):決策參考的“探測(cè)器”[N];中國(guó)社會(huì)科學(xué)報(bào);2014年
中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 趙林;面向查詢的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2008年
2 李鵬;面向主題的多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];上海交通大學(xué);2013年
3 胡珀;融合上下文信息的自動(dòng)文摘研究[D];武漢大學(xué);2013年
4 蔣昌金;基于關(guān)鍵詞提取的中文網(wǎng)頁(yè)自動(dòng)文摘方法研究[D];華南理工大學(xué);2010年
5 韋福如;基于圖模型多文檔自動(dòng)文摘研究[D];武漢大學(xué);2009年
6 徐永東;多文檔自動(dòng)文摘關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2007年
7 張琳;基于引用聚類的多文檔自動(dòng)文摘技術(shù)研究[D];大連海事大學(xué);2013年
8 陳勁光;基于云模型的中文面向查詢多文檔自動(dòng)文摘研究[D];華中師范大學(xué);2011年
9 劉德喜;基于基本要素的多文檔自動(dòng)文摘研究[D];武漢大學(xué);2007年
10 鄭義;多媒體信息自動(dòng)摘要及其相關(guān)技術(shù)研究[D];復(fù)旦大學(xué);2003年
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條
1 陳奕辰;基于句子權(quán)重和篇章結(jié)構(gòu)的自動(dòng)文摘算法的研究與實(shí)現(xiàn)[D];湖南師范大學(xué);2015年
2 蘇彬;基于Word2Vec的自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];河北科技大學(xué);2015年
3 孫佩佩;面向事件的自動(dòng)文摘研究[D];安徽理工大學(xué);2016年
4 曹洋;基于TextRank算法的單文檔自動(dòng)文摘研究[D];南京大學(xué);2016年
5 朱荷香;中文自動(dòng)文摘系統(tǒng)的研究與實(shí)現(xiàn)[D];南京師范大學(xué);2008年
6 石子言;用戶驅(qū)動(dòng)的特定領(lǐng)域自動(dòng)文摘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];東北師范大學(xué);2009年
7 孟慶富;生物醫(yī)學(xué)多文檔自動(dòng)文摘系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2010年
8 馬長(zhǎng)林;中文自動(dòng)文摘技術(shù)若干問題的研究[D];華中師范大學(xué);2002年
9 胡珀;基于自適應(yīng)聚類的中文自動(dòng)文摘研究[D];華中師范大學(xué);2005年
10 柴曉麗;自動(dòng)文摘技術(shù)的研究與應(yīng)用[D];長(zhǎng)春理工大學(xué);2007年
本文關(guān)鍵詞:基于TextRank算法的單文檔自動(dòng)文摘研究,由筆耕文化傳播整理發(fā)布。
,本文編號(hào):350123
本文鏈接:http://www.sikaile.net/tushudanganlunwen/350123.html