天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 碩博論文 > 信息類碩士論文 >

基于多屬性融合的關(guān)鍵詞提取研究

發(fā)布時間:2021-06-05 07:18
  關(guān)鍵詞是文檔主題信息的精煉,借助關(guān)鍵詞可以快速地獲取文本主旨,其研究成果可廣泛用于文檔檢索、文本分類、文本主題挖掘等具體領(lǐng)域。傳統(tǒng)基于圖的關(guān)鍵詞提取方法主要研究的是對詞圖中的單詞進行準(zhǔn)確評分,對提取關(guān)鍵短語的研究工作不足,且利用的有效屬性較少。本文聚焦于用圖方法進行關(guān)鍵詞提取,總結(jié)了傳統(tǒng)圖模型的不足,提出多屬性融合的圖關(guān)鍵詞提取方法,論文工作包括:提出關(guān)鍵詞的相關(guān)屬性和其屬性值的計算方法,圍繞通用關(guān)鍵詞提取框架對現(xiàn)有方法進行綜述,重點介紹與本文方法相關(guān)的基于圖的關(guān)鍵詞提取方法。首先利用已有的算法取得詞圖中每個單詞的評分,然后據(jù)此融合短語的多種屬性對候選關(guān)鍵短語評分并排序進而提取關(guān)鍵詞。針對傳統(tǒng)圖方法中候選短語的評分結(jié)果易受單詞的評分與短語長度的影響,本章提出融和短語頻率屬性、位置屬性與長度屬性的評分方法,嘗試改變屬性值的計算方法與融合方法以找到最佳的短語評分方法。實驗結(jié)果表明,最優(yōu)的融合方法在三類數(shù)據(jù)集上的各項評分指標(biāo)都超越了其他對比的融合方法,能提高關(guān)鍵詞提取結(jié)果;赑ageRank算法,結(jié)合詞向量與詞顯式屬性來改進詞圖中的單詞評分算法。針對現(xiàn)有基于圖的關(guān)鍵詞提取方法忽略了詞在序列... 

【文章來源】:中國民航大學(xué)天津市

【文章頁數(shù)】:55 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于多屬性融合的關(guān)鍵詞提取研究


論文關(guān)鍵詞和新聞關(guān)鍵詞

單詞,方法,短語,關(guān)鍵詞


中國民航大學(xué)碩士學(xué)位論文26時,位置因素的作用有利有弊,如KDD數(shù)據(jù)集中,Single-TPR和WAR的短語評分方法在頻次為1時加入位置因素后關(guān)鍵詞提取結(jié)果沒有僅使用詞頻特征顯著;SIGIR數(shù)據(jù)集中,WAR和PositionRank的短語評分算法在頻次為3時因位置因素的加入提升了關(guān)鍵詞的提取結(jié)果。結(jié)合表3-3可知,方法11的適用場景是當(dāng)候選短語頻率不同時。(4)分析單詞評分的結(jié)果對最終提取關(guān)鍵詞的影響。基于上述從短語統(tǒng)計層次著手進行的研究,現(xiàn)從單詞的評分結(jié)果入手,本章認為直接使用短語內(nèi)含單詞的評分之和的短語評分算法可以間接地評判單詞評分的影響。在這種方式下用不同的單詞評分方法得到的關(guān)鍵詞提取結(jié)果會有差異,比較4種單詞評分方法對最終提取性能的影響得圖3-2。圖3-2所示為4種單詞評分算法在使用短語評分算法1、8、9、11時關(guān)鍵詞的提取結(jié)果。觀察圖可知,在三類數(shù)據(jù)集中,PositionRank在短語評分方法1及其他3種短語評分方法中提取結(jié)果的F值均最優(yōu)。因此可知,單詞的評分結(jié)果對短語的打分以及最終的提取結(jié)果有影響,準(zhǔn)確的單詞評分能提升提取關(guān)鍵詞的正確率。3.6本章總結(jié)關(guān)鍵短語作為科技文獻的主題,相對于關(guān)鍵詞更能體現(xiàn)作者的主體思想。本章針對傳統(tǒng)關(guān)鍵短語提取方法受短語長度影響的缺點,提出了一種新的基于圖的關(guān)鍵短語評分方法,雖然增加了提取文本關(guān)鍵詞的復(fù)雜度,但獲得了較高的準(zhǔn)確率,有一定的應(yīng)用價值。另外,通過實驗得出優(yōu)異的單詞評分算法能提升提取關(guān)鍵短語的準(zhǔn)確率,所以后續(xù)的研究將把重點放到單詞的評分算法上。圖3-24種單詞評分方法提取結(jié)果對比

向量


中國民航大學(xué)碩士學(xué)位論文33Skip-gram模型負采樣個數(shù)為3;TWE-1模型中主題數(shù)目為5;FastText詞向量來自谷歌公司使用默認參數(shù)在維基百科上預(yù)訓(xùn)練的詞向量集。本章對詞向量的細節(jié)不做過多探討,因此參數(shù)選擇默認值即可。接下來是與關(guān)鍵詞提相關(guān)的參數(shù)設(shè)置。構(gòu)建詞圖時滑動窗口大小c的范圍是1~10,c越大算法復(fù)雜率越高,所以本章將初始值設(shè)為2;PageRank算法的阻尼因子α設(shè)為通用值0.85;在計算實驗結(jié)果的F值時初始取top-k=4。我們會在具體的實驗中比較k的取值與詞向量模型對提取結(jié)果的影響。4.5.4實驗結(jié)果與分析為了降低實驗的復(fù)雜性,安排如下:第一次實驗在單詞評分算法中探討top-k中k和詞向量模型對于提取結(jié)果的影響;第二次實驗使用第一次實驗結(jié)果得出的最佳k值然后比較14種短語評分方式對于提取結(jié)果的影響。圖4-3是三種詞向量模型分別在不同k值和數(shù)據(jù)集上的詞向量提取結(jié)果。圖4-3(b)TWE-1詞向量的實驗結(jié)果圖4-3(a)FastText詞向量的實驗結(jié)果圖4-3(c)Skip-gram詞向量的實驗結(jié)果

【參考文獻】:
期刊論文
[1]特征驅(qū)動的關(guān)鍵詞提取算法綜述[J]. 常耀成,張宇翔,王紅,萬懷宇,肖春景.  軟件學(xué)報. 2018(07)
[2]共詞分析與LDA模型分析在文本主題挖掘中的比較研究[J]. 曲靖野,陳震,胡軼楠.  情報科學(xué). 2018(02)
[3]自動關(guān)鍵詞抽取研究綜述[J]. 趙京勝,朱巧明,周國棟,張麗.  軟件學(xué)報. 2017(09)



本文編號:3211711

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3211711.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9128d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com