天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于詞性標注和依存句法的詞向量模型改進研究

發(fā)布時間:2021-06-10 12:30
  近年來,深度學習借助基于神經網絡的詞向量在自然語言處理領域大放異彩,席卷自然語言處理各項基礎研究。詞向量的質量直接影響上層自然語言處理任務的效果。而詞向量模型則是訓練詞向量的核心,但目前諸多的詞向量模型仍存在很多不足之處。這些不足之處包括:(1)網絡結構問題。目前基于神經網絡的詞向量模型大多將上下文窗口中的詞語同等對待,不考慮詞語之間的依存關系;(2)信息丟失問題。固定的上下文窗口會對句子成分復雜的長句和復合句進行裁剪導致部分重要詞匯的丟失;(3)未充分利用詞性標注的詞法結構信息和依存句法的句法結構信息,F(xiàn)有基于詞性標注改進的研究大多僅使用詞性關聯(lián)修改詞語在上下文中的權重,基于依存句法改進的研究大多沒有考慮依存關系的差異;(4)二次采樣和負采樣技術過于簡單。詞頻高的詞語在進行二次采樣和負采樣時被同等對待,從而導致部分對預測目標詞有較大影響的高頻詞丟失。(5)詞性之間的相似度無法衡量。詞性之間存在語義鴻溝,就目前所知,沒有量化詞性之間相似度的算法和數(shù)據集。針對基于神經網絡的詞向量模型所面臨的多個問題,本文在現(xiàn)有工作的基礎上,結合詞性標注和依存句法分析,提出四種改進的詞向量模型:(1)基于... 

【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:106 頁

【學位級別】:碩士

【部分圖文】:

基于詞性標注和依存句法的詞向量模型改進研究


CBOW和Skip-gram模型結構圖

對詞,相似性,模型,文本分類


第五章 實驗與結果分析 5-3 可以看出,CBOW+P 模型和 CBOW+PW 模型在文本分類任務上著上下文窗口的逐漸增大呈現(xiàn)先增后減的趨勢,均在上下文窗口 5-OW+PW 模型在上下文窗口較小的情況下的表現(xiàn)優(yōu)于 CBOW+P 模型 模型的最優(yōu)值表現(xiàn)好于 CBOW+PW 模型。

對詞,模型,最優(yōu)值,相似性


OW+PW 模型在上下文窗口較小的情況下的表現(xiàn)優(yōu)于 CBOW+P 模型 模型的最優(yōu)值表現(xiàn)好于 CBOW+PW 模型。圖 5-1 上下文窗口大小對詞相似性任務的影響

【參考文獻】:
期刊論文
[1]基于詞性與詞序的相關因子訓練的word2vec改進模型[J]. 潘博,于重重,張青川,徐世璇,曹帥.  電子學報. 2018(08)
[2]基于中文維基百科鏈接結構與分類體系的語義相關度計算[J]. 汪祥,賈焰,周斌,丁兆云,梁政.  小型微型計算機系統(tǒng). 2011(11)
[3]北京大學現(xiàn)代漢語語料庫基本加工規(guī)范(續(xù))[J]. 俞士汶,段慧明,朱學鋒,孫斌.  中文信息學報. 2002(06)
[4]北京大學現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 俞士汶,段慧明,朱學鋒,孫斌.  中文信息學報. 2002(05)
[5]網上的基礎語言信息資源[J]. 俞士汶.  術語標準化與信息技術. 2001(04)



本文編號:3222374

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3222374.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶cf220***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com