天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Word2Vec與TextRank的關(guān)鍵詞抽取研究

發(fā)布時間:2021-10-14 07:11
  自從第一次人工智能機器人打敗圍棋大師,計算機等高科技技術(shù)在每個領(lǐng)域都取得了非常好的成績和突破。網(wǎng)絡(luò)上的文本信息越來越多,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)由于處理難易程度的大不相同,對此類文本數(shù)據(jù)的應(yīng)用和研究也大不相同。對于這兩類數(shù)據(jù),關(guān)鍵詞抽取仍然是實現(xiàn)智能文本分析的一個重要途徑。傳統(tǒng)關(guān)鍵詞主要是由專家和作者本人標注,但是由于網(wǎng)上大量的文本,傳統(tǒng)的標注方式越來越不能滿足效率的要求,自動關(guān)鍵詞抽取和標注技術(shù)則成為近年來的一個重要研究熱點。同時,自動關(guān)鍵詞抽取技術(shù)也在許多其他領(lǐng)域蓬勃發(fā)展:例如:信息分類、信息檢索、自動文摘、個性化推薦等。本文主要基于計算機文獻,提出一種結(jié)合Word2Vec和TextRank相結(jié)合的關(guān)鍵詞抽取模型,用以提高自動關(guān)鍵詞抽取的查全率和查準率。本文最初展現(xiàn)了關(guān)鍵詞抽取技術(shù)的研究背景和現(xiàn)狀;其次介紹了關(guān)于中英文的分詞技術(shù)、文本表示方法以及Word2Vec和TextRank模型;然后基于計算機文獻,提出結(jié)合外部文檔信息(Word2Vec模型)和內(nèi)部文檔信息(TextRank模型)進行自動關(guān)鍵詞抽取;隨后本文通過對比傳統(tǒng)的詞頻方法-TF-IDF和詞圖方法-TextRank以及同... 

【文章來源】:華中師范大學湖北省 211工程院校 教育部直屬院校

【文章頁數(shù)】:64 頁

【學位級別】:碩士

【部分圖文】:

基于Word2Vec與TextRank的關(guān)鍵詞抽取研究


圖2.1英文文本分詞結(jié)果??

文本,中文


碩士學位論文??MASTER'STilESIS??粉/攪拌/是/涼皮/涼皮處理/處理/不可/不可缺少/缺少/的/一步/?!?”??(2)、精確模式:可以將句子切開,其結(jié)果十分精確,主要適合文本分析;在使用??精確模式之后,上述結(jié)果變?yōu)椤懊娣郏瘮埌瑁牵瘺銎ぬ幚恚豢扇鄙伲模徊剑??(3)、搜索引擎模式:可以把較長的詞語再一次切分,對精確模式的長詞這樣處理,??可以提高召回率,搜索引擎分詞一般就是使用這種模式。使用該模式,上述結(jié)果變??為“面粉/攪拌/是/涼皮/處理/文本處理/不可/缺少/不可缺少/的/一步/!?”??為了解決新詞問題,Jieba分詞可以自己設(shè)置自定義詞典。假設(shè)載入詞典內(nèi)容為??“神丹牌、蓮花牌、土雞蛋”,其分詞結(jié)果如圖2.2所示:由此可見,網(wǎng)絡(luò)上出現(xiàn)的??新詞可以通過提前設(shè)置自定義詞典的方式來提高分詞準確率。??有自定義詞^\^??圖2.2中文文本分詞結(jié)果??2.2文本表示方法??文字是人類文明傳承幾千年的智慧結(jié)晶,在人類認知史上發(fā)揮了巨大的作用。??在計算機的世界里,我們需要把文字轉(zhuǎn)換成計算機能理解的語言,例如空間向量、??二進制文本等,在計算機發(fā)展的許多年來,許多學者都提出了不同的文本表示模型,??接下來本文著重介紹文本的離散表示和分布表示兩大類。??2.2.1離散表示??離散表示主要是將每一個數(shù)據(jù)通過特定的方法,將其在一個維度中離散表示出??來,與連續(xù)相對。禹散表不方法主要有獨熱表不法(one-hot)、詞袋表不法(bagof??words)、N?元組表示法(N-gram)。??13??

基于Word2Vec與TextRank的關(guān)鍵詞抽取研究


圖2.3獨熱編碼表示法結(jié)果??

【參考文獻】:
期刊論文
[1]基于文檔主題結(jié)構(gòu)和詞圖迭代的關(guān)鍵詞抽取方法研究[J]. 孫明珠,馬靜,錢玲飛.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(08)
[2]基于改進TF-IDF-CHI算法的農(nóng)業(yè)科技文獻文本特征抽取[J]. 杜若鵬,鮮國建,寇遠濤.  數(shù)字圖書館論壇. 2019(08)
[3]基于復雜網(wǎng)絡(luò)詞節(jié)點移除的關(guān)鍵詞抽取方法[J]. 王安,顧益軍,李坤明,李文政.  數(shù)據(jù)分析與知識發(fā)現(xiàn). 2019(11)
[4]基于主題模型的短文本關(guān)鍵詞抽取及擴展[J]. 曾曦,陽紅,常明芳,馮驍騁,趙妍妍,秦兵.  山西大學學報(自然科學版). 2019(02)
[5]基于Word2Vec和TextRank的時政類新聞關(guān)鍵詞抽取方法研究[J]. 劉奇飛,沈煒域.  情報探索. 2018(06)
[6]結(jié)合改進的CHI統(tǒng)計方法的TF-IDF算法優(yōu)化[J]. 馬瑩,趙輝,李萬龍,龐海龍,崔巖.  計算機應(yīng)用研究. 2019(09)
[7]一種基于LDA和TextRank的文本關(guān)鍵短語抽取方案的設(shè)計與實現(xiàn)[J]. 郎冬冬,劉晨晨,馮旭鵬,劉利軍,黃青松.  計算機應(yīng)用與軟件. 2018(03)
[8]基于改進TF-IDF算法的關(guān)鍵詞抽取系統(tǒng)[J]. 胡亮,夏磊,李偉.  廈門理工學院學報. 2017(05)
[9]基于改進的TF-IDF文本特征詞提取算法研究[J]. 賈強,馮錫煒,王志峰,朱睿,秦航.  遼寧石油化工大學學報. 2017(04)
[10]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學報. 2017(09)

碩士論文
[1]基于主題模型的關(guān)鍵詞抽取算法研究[D]. 劉嘯劍.合肥工業(yè)大學 2016
[2]基于隱性主題模型和新詞發(fā)現(xiàn)的關(guān)鍵詞抽取研究[D]. 袁明.北京郵電大學 2014



本文編號:3435687

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3435687.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶85d2a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com