新聞文本關鍵詞提取算法研究與實現(xiàn)
發(fā)布時間:2021-06-25 13:26
新聞關鍵詞的提取可以快速幫助用戶定位新聞的中心思想,了解新聞的大致內(nèi)容,給用戶判定是否要仔細查看的依據(jù),從而提高用戶體驗。然而人工去標注關鍵詞雖然質(zhì)量可以保證,但是難以完成海量的新聞數(shù)據(jù)。本文通過對新聞文本特點進行分析,展開對新聞關鍵詞提取算法的研究,并實現(xiàn)了一款實用的新聞關鍵詞提取系統(tǒng)。實驗表明,針對新聞領域文本,本文的關鍵詞提取算法無論是性能還是準確度明顯優(yōu)于傳統(tǒng)的關鍵詞提取算法。本文著重研究了基于詞頻統(tǒng)計、基于詞圖模型與基于主題模型的關鍵詞提取算法,從這三個方面入手,分別對TF-IDF算法、TextRank算法與LDA主題模型算法進行探索改進。由于現(xiàn)有資源里沒有公開的關鍵詞數(shù)據(jù)集,本文通過爬蟲技術爬取網(wǎng)易新聞構(gòu)建關鍵詞測試集,并且對測試集的關鍵詞進行人工交叉標注。使用搜狗實驗室提供的新聞數(shù)據(jù)構(gòu)建語料庫。最后,實現(xiàn)了一個新聞關鍵詞提取系統(tǒng),將對新聞關鍵詞提取的改進應用到此系統(tǒng),系統(tǒng)具有簡潔大方,易操作,響應快的特點。為了提高新聞關鍵詞的提取準確率和運行效率,本文圍繞上述三個方面的關鍵詞提取算法做了幾點創(chuàng)新。針對傳統(tǒng)TF-IDF算法的逆文檔頻率將一些罕見詞的概率提高問題,引入齊普夫定...
【文章來源】:中南財經(jīng)政法大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【部分圖文】:
處理后數(shù)據(jù)截圖
Scrapy框架結(jié)構(gòu)圖
網(wǎng)頁源碼對網(wǎng)易新聞網(wǎng)的數(shù)據(jù)爬取完后,接下來對爬取的關鍵詞使用人工二次加工
【參考文獻】:
期刊論文
[1]基于卡方檢驗和SVM的用戶搜索畫像技術研究[J]. 李軍政,黃海,黃瑞陽,王康利. 電子設計工程. 2017(24)
[2]基于瀑布型混合技術的異常檢測算法[J]. 王茹雪,張麗翠,劉姝岐. 吉林大學學報(信息科學版). 2017(05)
[3]自動關鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學報. 2017(09)
[4]基于改進TextRank的關鍵詞抽取算法[J]. 張莉婧,李業(yè)麗,曾慶濤,雷嘉麗,楊鵬. 北京印刷學院學報. 2016(04)
[5]基于詞頻統(tǒng)計的文本關鍵詞提取方法[J]. 羅燕,趙書良,李曉超,韓玉輝,丁亞飛. 計算機應用. 2016(03)
[6]基于復雜網(wǎng)絡的文本關鍵詞提取算法研究[J]. 劉通. 計算機應用研究. 2016(02)
[7]基于word2vec的關鍵詞提取算法[J]. 李躍鵬,金翠,及俊川. 科研信息化技術與應用. 2015(04)
[8]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[9]關鍵詞自動提取方法的研究與改進[J]. 黃磊,伍雁鵬,朱群峰. 計算機科學. 2014(06)
[10]一種投票式并行RANSAC算法及其FPGA實現(xiàn)[J]. 江潔,凌思睿. 電子與信息學報. 2014(05)
碩士論文
[1]中文文本主題關鍵短語提取算法研究[D]. 楊玥.西安理工大學 2017
[2]對TF-IDF算法的改進及實驗研究[D]. 何曉靜.吉林大學 2017
[3]面向問答的問句關鍵詞提取技術研究[D]. 王煦祥.哈爾濱工業(yè)大學 2016
[4]面向新媒體的新聞縮寫關鍵技術研究[D]. 趙連偉.北京理工大學 2016
[5]基于云計算的多層次文本關鍵詞抽取研究與應用[D]. 王博.西南交通大學 2015
[6]基于改進的TFIDF關鍵詞自動提取算法研究[D]. 楊凱艷.湘潭大學 2015
[7]基于分詞技術的文本主題關鍵詞處理系統(tǒng)設計與實現(xiàn)[D]. 徐云飛.中國科學院大學(工程管理與信息技術學院) 2014
[8]專利文本聚類及關鍵短語抽取的研究[D]. 徐曉明.東北大學 2011
本文編號:3249287
【文章來源】:中南財經(jīng)政法大學湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:56 頁
【學位級別】:碩士
【部分圖文】:
處理后數(shù)據(jù)截圖
Scrapy框架結(jié)構(gòu)圖
網(wǎng)頁源碼對網(wǎng)易新聞網(wǎng)的數(shù)據(jù)爬取完后,接下來對爬取的關鍵詞使用人工二次加工
【參考文獻】:
期刊論文
[1]基于卡方檢驗和SVM的用戶搜索畫像技術研究[J]. 李軍政,黃海,黃瑞陽,王康利. 電子設計工程. 2017(24)
[2]基于瀑布型混合技術的異常檢測算法[J]. 王茹雪,張麗翠,劉姝岐. 吉林大學學報(信息科學版). 2017(05)
[3]自動關鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗. 軟件學報. 2017(09)
[4]基于改進TextRank的關鍵詞抽取算法[J]. 張莉婧,李業(yè)麗,曾慶濤,雷嘉麗,楊鵬. 北京印刷學院學報. 2016(04)
[5]基于詞頻統(tǒng)計的文本關鍵詞提取方法[J]. 羅燕,趙書良,李曉超,韓玉輝,丁亞飛. 計算機應用. 2016(03)
[6]基于復雜網(wǎng)絡的文本關鍵詞提取算法研究[J]. 劉通. 計算機應用研究. 2016(02)
[7]基于word2vec的關鍵詞提取算法[J]. 李躍鵬,金翠,及俊川. 科研信息化技術與應用. 2015(04)
[8]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[9]關鍵詞自動提取方法的研究與改進[J]. 黃磊,伍雁鵬,朱群峰. 計算機科學. 2014(06)
[10]一種投票式并行RANSAC算法及其FPGA實現(xiàn)[J]. 江潔,凌思睿. 電子與信息學報. 2014(05)
碩士論文
[1]中文文本主題關鍵短語提取算法研究[D]. 楊玥.西安理工大學 2017
[2]對TF-IDF算法的改進及實驗研究[D]. 何曉靜.吉林大學 2017
[3]面向問答的問句關鍵詞提取技術研究[D]. 王煦祥.哈爾濱工業(yè)大學 2016
[4]面向新媒體的新聞縮寫關鍵技術研究[D]. 趙連偉.北京理工大學 2016
[5]基于云計算的多層次文本關鍵詞抽取研究與應用[D]. 王博.西南交通大學 2015
[6]基于改進的TFIDF關鍵詞自動提取算法研究[D]. 楊凱艷.湘潭大學 2015
[7]基于分詞技術的文本主題關鍵詞處理系統(tǒng)設計與實現(xiàn)[D]. 徐云飛.中國科學院大學(工程管理與信息技術學院) 2014
[8]專利文本聚類及關鍵短語抽取的研究[D]. 徐曉明.東北大學 2011
本文編號:3249287
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3249287.html
最近更新
教材專著