天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究

發(fā)布時(shí)間:2021-01-03 07:14
  【目的】利用主題模型得到文本主題信息,將主題信息融入TextRank模型對(duì)其進(jìn)行改進(jìn),提升文本關(guān)鍵詞自動(dòng)抽取的準(zhǔn)確率和召回率!痉椒ā坷肔DA對(duì)文檔集進(jìn)行主題建模,得到候選關(guān)鍵詞的主題詞分布和文檔主題分布;結(jié)合候選關(guān)鍵詞主題分布特征計(jì)算節(jié)點(diǎn)權(quán)重,加權(quán)文檔–主題概率分布和主題–詞概率分布特征作為節(jié)點(diǎn)的隨機(jī)跳轉(zhuǎn)概率;構(gòu)建新的轉(zhuǎn)移矩陣進(jìn)行詞圖迭代,得到改進(jìn)后的TextRank模型!窘Y(jié)果】采集南方周末網(wǎng)站1 559篇新聞文章進(jìn)行實(shí)驗(yàn)。結(jié)果表明,本文模型的關(guān)鍵詞抽取效果明顯優(yōu)于原始TextRank和TF-IDF模型;當(dāng)抽取關(guān)鍵詞個(gè)數(shù)為3時(shí),本模型準(zhǔn)確率比原始TextRank模型的準(zhǔn)確率提升4.7%,比TF-IDF提升6.5%!揪窒蕖咳诤纤惴ǖ挠(jì)算復(fù)雜度增加!窘Y(jié)論】融合主題信息的TextRank算法能夠使關(guān)鍵詞自動(dòng)抽取效果更加顯著。 

【文章來(lái)源】:數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2019年08期 北大核心CSSCI

【文章頁(yè)數(shù)】:9 頁(yè)

【參考文獻(xiàn)】:
期刊論文
[1]自動(dòng)關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周?chē)?guó)棟,張麗.  軟件學(xué)報(bào). 2017(09)
[2]詞向量聚類加權(quán)TextRank的關(guān)鍵詞抽取[J]. 夏天.  數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn). 2017(02)
[3]基于圖和LDA主題模型的關(guān)鍵詞抽取算法[J]. 劉嘯劍,謝飛,吳信東.  情報(bào)學(xué)報(bào). 2016 (06)
[4]一種基于LDA模型的關(guān)鍵詞抽取方法[J]. 朱澤德,李淼,張健,曾偉輝,曾新華.  中南大學(xué)學(xué)報(bào)(自然科學(xué)版). 2015(06)
[5]融合LDA與TextRank的關(guān)鍵詞抽取研究[J]. 顧益軍,夏天.  現(xiàn)代圖書(shū)情報(bào)技術(shù). 2014(Z1)
[6]詞語(yǔ)位置加權(quán)TextRank的關(guān)鍵詞抽取研究[J]. 夏天.  現(xiàn)代圖書(shū)情報(bào)技術(shù). 2013(09)
[7]基于改進(jìn)TF-IDF的中文網(wǎng)頁(yè)關(guān)鍵詞抽取——以新聞網(wǎng)頁(yè)為例[J]. 錢(qián)愛(ài)兵,江嵐.  情報(bào)理論與實(shí)踐. 2008(06)

博士論文
[1]面向主題的關(guān)鍵詞抽取方法研究[D]. 丁卓冶.復(fù)旦大學(xué) 2013

碩士論文
[1]基于改進(jìn)的TFIDF關(guān)鍵詞自動(dòng)提取算法研究[D]. 楊凱艷.湘潭大學(xué) 2015



本文編號(hào):2954555

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2954555.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d75eb***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com