天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于HDP的主題詞向量構(gòu)造——以柬語(yǔ)為例

發(fā)布時(shí)間:2021-11-09 03:51
  針對(duì)單一詞向量中存在的一詞多義和一義多詞的問題,以柬語(yǔ)為例提出了一種基于HDP主題模型的主題詞向量的構(gòu)造方法。在單一詞向量基礎(chǔ)上融入了主題信息,首先通過HDP主題模型得到單詞主題標(biāo)簽,然后將其視為偽單詞與單詞一起輸入Skip-Gram模型,同時(shí)訓(xùn)練出主題向量和詞向量,最后將文本主題信息的主題向量與單詞訓(xùn)練后得到的詞向量進(jìn)行級(jí)聯(lián),獲得文本中每個(gè)詞的主題詞向量。與未融入主題信息的詞向量模型相比,該方法在單詞相似度和文本分類方面均取得了更好的效果,獲取的主題詞向量具有更多的語(yǔ)義信息。 

【文章來源】:計(jì)算機(jī)工程與科學(xué). 2020,42(06)北大核心CSCD

【文章頁(yè)數(shù)】:9 頁(yè)

【部分圖文】:

基于HDP的主題詞向量構(gòu)造——以柬語(yǔ)為例


改進(jìn)的主題詞向量模型

柬埔寨,語(yǔ)料,上下文,向量


其中,oz為主題詞向量,通過連接歸一化后的詞向量和主題向量獲得。通過式(17)可知,本文將模型中得到的所有的主題的概率作為權(quán)重,進(jìn)行加權(quán)求和,得到最終的上下文詞向量。由式(17)得到上下文詞向量的目的是用于衡量?jī)蓚(gè)詞之間的相似性,于是,給定2組具有上下文的單詞(wi,ci)和(wj,cj),其上下文單詞相似度的計(jì)算采用AVGSimC公式,如式(18)所示:

數(shù)據(jù)集,單詞,主題詞,等級(jí)


其中,r表示等級(jí)個(gè)數(shù),即測(cè)試集中包含的詞語(yǔ)對(duì)的數(shù)量;g表示2組單詞之間的等級(jí)差數(shù);gi表示第i組單詞的等級(jí)差。在該實(shí)驗(yàn)任務(wù)中進(jìn)行的對(duì)比實(shí)驗(yàn)是將本文所得到的主題詞向量模型和Skip-Gram模型、LDA主題模型、HDP主題模型、LDA-Skip-Gram的主題詞向量模型在上下文單詞相似度任務(wù)上進(jìn)行結(jié)果對(duì)比。


本文編號(hào):3484566

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/waiyulunwen/zhichangyingyu/3484566.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶055ba***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com