天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 文藝論文 > 語言藝術論文 >

基于基本層次范疇改進TextRank算法的中文關鍵詞抽取

發(fā)布時間:2019-06-21 05:04
【摘要】:關鍵詞的自動抽取技術是文本分類、信息檢索、自動文摘等工作的基礎性技術,有著重要的應用價值。文章以基本層次范疇理論為基礎,提出了一種針對TextRank關鍵詞抽取算法的改進方案,并對其抽取效果進行了評估。全文共分為五個部分。第一部分為緒論,交代了選題背景及意義,對關鍵詞抽取的研究現狀進行了梳理,對基本層次范疇、語言網絡等研究所用理論做了簡單介紹,交代了文章的語料來源。第二部分介紹了利用基本層次范疇理論改進TextRank算法的合理性,并給出了算法的改進方案。改進算法的核心在于以基本層次范疇詞為基礎來構建層次化詞庫。詞庫中的每個詞對應了一個屬性集,屬性集包含了層級信息、語義關系,以及基礎權值。第三部分詳細介紹了詞庫的構建方法及過程。詞庫的構建主要包括選取基本層次范疇詞和確定詞語基礎權值兩方面的工作。第四部分對改進算法進行了評估。文章選用科技論文、網頁新聞、微博三類文本作為評估材料,分別利用改進前后的TextRank算法抽取關鍵詞。實驗結果表明,改進后的算法在準確率、召回率、F1值上要高于改進前的算法。第五部分為結語,對文章主要內容進行總結,并簡要討論了算法的后續(xù)改進方向。
[Abstract]:The automatic extraction technology of keywords is the basic technology of text classification, information retrieval, automatic abstracting and so on, which has important application value. Based on the basic hierarchical category theory, an improved scheme for TextRank keyword extraction algorithm is proposed in this paper, and its extraction effect is evaluated. The full text is divided into five parts. The first part is the introduction, which explains the background and significance of the selected topic, combs the research status of keyword extraction, briefly introduces the basic level category, language network and other research theories, and explains the corpus source of the article. In the second part, the rationality of using the basic hierarchical category theory to improve the TextRank algorithm is introduced, and the improvement scheme of the algorithm is given. The core of the improved algorithm is to construct hierarchical word library based on basic hierarchical category words. Each word in the thesaurus corresponds to an attribute set, which contains hierarchical information, semantic relations, and basic weights. The third part introduces the construction method and process of thesaurus in detail. The construction of thesaurus mainly includes the selection of basic category words and the determination of basic weight of words. The fourth part evaluates the improved algorithm. In this paper, three kinds of texts, such as scientific papers, web news and Weibo, are selected as evaluation materials, and the key words are extracted by TextRank algorithm before and after the improvement. The experimental results show that the accuracy, recall rate and F1 value of the improved algorithm are higher than those of the improved algorithm. The fifth part is the conclusion, summarizes the main content of the article, and briefly discusses the follow-up improvement direction of the algorithm.
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:H136

【參考文獻】

相關期刊論文 前10條

1 葉菁菁;李琳;鐘珞;;基于標簽的微博關鍵詞抽取排序方法[J];計算機應用;2016年02期

2 趙懌怡;劉海濤;;語言網絡研究的數學模型——從復雜網絡、社會網絡到語言網絡[J];中文信息學報;2015年06期

3 李曉超;趙書良;羅燕;陳敏;柳萌萌;;中文文本同頻詞統(tǒng)計規(guī)律及在關鍵詞提取中的應用[J];計算機應用研究;2016年04期

4 楊吉春;;國際漢語教學用基本層次范疇詞庫建設的理論與方法[J];語言文字應用;2014年04期

5 祁淑玲;;國際漢語教學用基本層次范疇詞匯認知的順序性——以人體類名詞為例[J];語言文字應用;2014年04期

6 徐瑞雪;;基于體驗觀的“足”部動詞范疇化和詞匯化[J];現代語文(語言研究版);2014年08期

7 詹志建;楊小平;;基于語言網絡和語義信息的文本相似度計算[J];計算機工程與應用;2014年05期

8 夏天;;詞語位置加權TextRank的關鍵詞抽取研究[J];現代圖書情報技術;2013年09期

9 蘇新春;宋貝貝;;用基本層次范疇透視現代漢語動詞類基本詞匯[J];江蘇大學學報(社會科學版);2013年01期

10 汪洋;帥建梅;;基于語義擴展模型的中文網頁關鍵詞抽取[J];計算機工程;2012年22期

相關博士學位論文 前2條

1 匡芳濤;英語專業(yè)詞匯教學研究[D];西南大學;2010年

2 梁麗;基本層次范疇及其在英語教學研究中的應用[D];華中科技大學;2006年

相關碩士學位論文 前10條

1 靳小琳;現代漢語性狀類基本層次范疇詞匯研究[D];中央民族大學;2015年

2 張雯;TextRank算法的改進及在政法全文檢索系統(tǒng)中的應用[D];廣西大學;2015年

3 李娜;原型論視角下的兒童漢語詞匯習得研究[D];河南大學;2014年

4 袁明;基于隱性主題模型和新詞發(fā)現的關鍵詞抽取研究[D];北京郵電大學;2014年

5 楊威;英語基本層次的動物名稱跨范疇現象研究[D];吉林大學;2013年

6 李倩;現代漢語肢體動作類基本層次范疇詞匯研究[D];中央民族大學;2013年

7 蔡甜;現代漢語人體類基本層次范疇詞匯研究[D];中央民族大學;2012年

8 肖根勝;改進TFIDF和譜分割的關鍵詞自動抽取方法研究[D];華中師范大學;2012年

9 宋飛;現代漢語基本層次范疇詞匯研究[D];中央民族大學;2011年

10 梁薇;基本層次范疇對英語同源賓語結構的詮釋[D];華中科技大學;2007年

,

本文編號:2503810

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/yuyanyishu/2503810.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶a0db9***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com