天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

改進TextRank與結合BiGRU的兩種關鍵詞提取方法研究

發(fā)布時間:2021-08-18 11:48
  關鍵詞可以高效地用于檢索、理解文本內容,使用戶快速獲取文本的主要思想,F有的關鍵詞提取技術提取的關鍵詞質量尚不理想,這不利于后續(xù)任務的進行。為了提升關鍵詞提取的準確性,本文主要從圖方法和神經網絡方法兩個方面,對關鍵詞提取方法進行了研究與改進。針對多數關鍵詞提取方法只使用了少量特征的問題,本文提出了一種改進TextRank的多特征關鍵詞提取方法。該方法在TextRank算法的基礎上,融合了多個特征。如果一個單詞在越多的句子中出現,我們認為這個單詞的重要性就越高,所以將計算目標單詞所出現的句子總數作為一個特征融入TextRank中,同時使用詞跨度、詞位置倒數和來修改TextRank的轉移概率,使用LDA主題信息修改重啟概率,得到了一個改進的TextRank關鍵詞提取算法。我們在SemEval2010、KDD及WWW三個數據集上進行了對比實驗,實驗結果表明,改進算法在準確率、召回率、F1-score上,比基線算法TF-TDF、TextRank、SingleRank及TopicRank有了明顯的提高。改進TextRank的多特征關鍵詞提取方法只是基于圖模型的方法,本文的另外一項研究是將圖模型和... 

【文章來源】:江西師范大學江西省

【文章頁數】:51 頁

【學位級別】:碩士

【部分圖文】:

改進TextRank與結合BiGRU的兩種關鍵詞提取方法研究


關鍵詞提取方法分類國內外學者提出的許多很有價值的方法中,基于統(tǒng)計信息的關鍵詞提取方法已經得

框架圖,框架,模型,目標詞


改進TextRank與結合BiGRU的兩種關鍵詞提取方法研究13別為輸入層、投影層和輸出層,模型框架見圖2-1和圖2-2所示。CBOW模型輸入的是目標詞w(t)的上下文的詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),輸出的是這個目標詞的詞向量w(t),是用上下文來預測目標詞的概率。而Skip-gram模型和CBOW的思路是相反的,即輸入是目標詞的詞向量w(t),輸出的是目標詞對應的上下文詞向量w(t-2)、w(t-1)、w(t+1)、w(t+2),是用目標詞來預測上下文的概率。(2)FastText。FastText①是facebook開源的一個可以高效的學習單詞表示和文本分類任務的工具。FastText的模型框架與Word2vec的CBOW模型框架非常相似,FastText的模型框架如圖2-3所示。FastText模型包括輸入層、隱藏層、輸出層共三層。它的核心思想是將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然后使用文檔向量做softmax多分類。其中輸入的是…表示的文本的n-gram向量,輸出的是label,隱藏層是對多個詞向量的疊加平均。圖2-3FastText模型框架①https://pypi.org/project/fasttext/0.7.2/

頂點,主題,關鍵詞


改進TextRank與結合BiGRU的兩種關鍵詞提取方法研究17(4)將改進的邊權重ijW迭代TextRank公式直至收斂,得到主題排名。(5)對每個主題,選擇首先出現在文檔中的候選詞作為關鍵詞。2.2.6Single-TPRSingle-TPR[60]是針對Liu等人在2010年提出的TopicalPageRank(TPR)[42]的改進,Liu等人使用LDA從維基百科中獲取單詞主題,并對每個主題設置一個PageRank,對每個文檔進行多次計算,再對每個主題值求和以提取關鍵詞。2015年Sterckx等人[60]提出對每個文檔d使用一個PageRank,使用一個權值()iTw來表示PageRank中每個單詞iw的全部主題重要性,()iTw計算為詞-主題概率pwit=y=1kp(wi|ty)與文檔-主題概率ptd=y=1kp(ty|d)之間的余弦相似度,如公式2-16所示。單個PageRank值變化為公式2-15的()iSw。通過使算法計算一次,而不依賴于主題t的數量k,這大大減少了計算時間。()()()()()(1)()jikjjiiijwInwjkwOutwwvWTwSwSwWTw(2-15)(|)(|)()||(|)||||(|)||iiipwtptdTwpwtptd(2-16)2.2.7RaKUn通過無監(jiān)督學習和元頂點聚合來提取基于排名的關鍵詞,由Skrlj等人[61]在2019年提出,是一種基于圖的關鍵詞提取方法。引入了元頂點的概念,來聚集相似的頂點。元頂點的構造如圖2-4所示,相同形狀的圖案表示相似的單詞,將相同形狀的節(jié)點合并成為一個元頂點。根據所考慮的節(jié)點計算的負載中心度得分,將從單字符提取擴展到雙字符和三字符關鍵詞。這個方法有效的減少了詞圖的大校圖2-4元頂點的構造

【參考文獻】:
期刊論文
[1]改進的關鍵詞提取算法研究[J]. 王濤,李明.  重慶師范大學學報(自然科學版). 2019(03)
[2]一種基于信息熵的關鍵詞提取算法[J]. 吳華,羅順,孫偉晉.  計算機與數字工程. 2019(03)
[3]多特征關鍵詞提取算法研究[J]. 王潔,王麗清.  計算機系統(tǒng)應用. 2018(07)
[4]特征驅動的關鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景.  軟件學報. 2018(07)
[5]基于詞共現的關鍵詞提取算法研究與改進[J]. 和志強,王麗鵬,張鵬云.  電子技術與軟件工程. 2018(01)
[6]基于多視角聚類模型的微博文本數據挖掘算法研究[J]. 陳蘭蘭,胡細玲.  科技通報. 2017(11)
[7]基于擴充詞匯鏈改進的關鍵詞提取算法[J]. 王小林,朱磊,邰偉鵬.  蘇州科技大學學報(自然科學版). 2017(02)
[8]詞向量聚類加權TextRank的關鍵詞抽取[J]. 夏天.  數據分析與知識發(fā)現. 2017(02)
[9]融合Word2vec與TextRank的關鍵詞抽取研究[J]. 寧建飛,劉降珍.  現代圖書情報技術. 2016(06)
[10]關鍵詞提取的K-means方法在設備分類中的運用[J]. 陳立,田端正.  計算機系統(tǒng)應用. 2015(12)

碩士論文
[1]基于圖與LDA的中文文本關鍵詞提取算法[D]. 郭慶.北京郵電大學 2019
[2]基于新聞文本的關鍵詞提取[D]. 陶潔.華中師范大學 2019
[3]面向電商領域的關鍵詞提取技術研究[D]. 樊繼康.哈爾濱工業(yè)大學 2018
[4]中文社交媒體話題關鍵詞抽取算法[D]. 何偉名.北京交通大學 2017
[5]搜索引擎中關鍵詞分類方法評估及推薦應用[D]. 鐘文波.華南理工大學 2015
[6]基于文本的關鍵詞提取方法研究與實現[D]. 楊林.安徽工業(yè)大學 2013



本文編號:3349832

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3349832.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶4205a***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com