基于時間翹曲距離的短文本語義相似度研究
【學(xué)位單位】:湖北工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位年份】:2020
【中圖分類】:TP391.1
【部分圖文】:
湖北工業(yè)大學(xué)碩士學(xué)位論文9分子,表示詞語在文檔中的頻數(shù),分母表示文檔中詞頻總和。IDF表示詞語在文檔中的權(quán)重占比,計算公式如(2.2)所示:||log:iijDidfjtd=(2.2)分子|D|表示文檔總數(shù),分母表示包含詞語的文檔數(shù)。對于一條文本,首先通過公式TFIDF=計算每個詞語的TF-IDF值,然后將文本表示成一條TF-IDF值序列。TF-IDF算法非常容易理解,計算也較為簡單,但是無法表達詞語的深層語義特征。⑶LDA主題模型LDA(LatentDirichletAllocation)采用統(tǒng)計學(xué)方法使用主題的概率分布表示文本,進一步將主題概率分布轉(zhuǎn)化為詞匯概率分布。模型結(jié)構(gòu)如圖2.1所示:圖2.1LDA模型圖首先針對文檔中的詞項生成詞項總數(shù)分布,然后根據(jù)概率生成文檔對應(yīng)的主題分布,進而生成主題對應(yīng)的詞項分布。⑷詞嵌入模型詞嵌入是將詞匯向量化表達的過程,一般將文本中的每個詞匯通過空間嵌入的方法以低維稠密的向量表示。Word2vec就是詞嵌入模型之一,在本文第3章3.2.1小節(jié)將做詳細(xì)介紹。
湖北工業(yè)大學(xué)碩士學(xué)位論文14圖2.2當(dāng)前語料的共現(xiàn)矩陣共現(xiàn)矩陣統(tǒng)計語料中每個詞語臨近的左右兩個詞共現(xiàn)的次數(shù),雖然在一定程度上緩解了One-Hot編碼方法生成的向量計算結(jié)果為零的問題,但是無法解決維度過高、數(shù)據(jù)表達稀疏的問題。為了解決通過共現(xiàn)矩陣方式獲取的離散詞向量存在的高維稀疏問題,研究者們提出一種降維的解決思路:奇異值分解,通過降維得到一個稠密連續(xù)的詞向量。奇異值分解是機器學(xué)習(xí)領(lǐng)域常用的一種降維方法,它可以將一個復(fù)雜的矩陣分解成幾個更小更簡單的子矩陣相乘來表示。奇異值分解的幾何含義為,對于任何一個矩陣,尋找一組兩兩正交的單位向量序列,使得矩陣作用在此向量序列上能夠得到一個新的向量序列,并且保持兩兩正交。奇異值分解的基本公式如(2.9)所示:TA=UV(2.9)其中∈,∈,∈,∈,的列向量即是的特征向量,一般將中的每個特征向量叫做的左奇異向量;的列向量即是的特征向量,一般將中的每個特征向量叫做的右奇異向量。雖然奇異值分解的方法能夠獲取稠密連續(xù)的特征詞向量,但是計算復(fù)雜度較大。隨著研究的深入,為了避免構(gòu)造共現(xiàn)矩陣造成的計算復(fù)雜度,Google推出了一款詞向量生成工具Word2vec,通過深度學(xué)習(xí)的方式對文本上下文環(huán)境中出現(xiàn)的詞進行預(yù)測,推動了詞向量生成方法的革新;谠~向量的研究現(xiàn)狀,可將詞向量劃分為靜態(tài)和動態(tài)兩種。靜態(tài)詞向量指的是一個詞語不管上下文如何變化都只有唯一的一個詞向量表示,這種詞向量一個比較大的缺陷是無法解決詞匯歧義問題,包括Word2vec、fastText、GloVe。動態(tài)詞向量指的是會根據(jù)上下文動態(tài)適應(yīng)性的調(diào)整詞向量,可以一定程度地解決詞語多義性,包括ELMo、BERT。
湖北工業(yè)大學(xué)碩士學(xué)位論文17(a)CBOW結(jié)構(gòu)圖(b)Skip-Gram結(jié)構(gòu)圖圖3.1Word2vec訓(xùn)練模型結(jié)構(gòu)圖通過文本語料訓(xùn)練模型的流程如圖3.2所示:圖3.2Word2vec詞向量訓(xùn)練流程圖
【參考文獻】
相關(guān)期刊論文 前2條
1 劉懷亮;杜坤;秦春秀;;基于知網(wǎng)語義相似度的中文文本分類研究[J];現(xiàn)代圖書情報技術(shù);2015年02期
2 李茹;王智強;李雙紅;梁吉業(yè);Collin Baker;;基于框架語義分析的漢語句子相似度計算[J];計算機研究與發(fā)展;2013年08期
相關(guān)碩士學(xué)位論文 前9條
1 郭炳元;基于語義樹的短文本相似度算法研究與應(yīng)用[D];湘潭大學(xué);2019年
2 馬付玉;中文短文本語義相似度計算方法研究[D];西安科技大學(xué);2019年
3 李珍;基于語義擴展的短文本分類研究[D];西安電子科技大學(xué);2019年
4 馬思丹;基于加權(quán)Word2vec的微博文本相似度計算方法研究[D];西安電子科技大學(xué);2019年
5 艾陽坤;基于詞向量多維度注意力的卷積神經(jīng)網(wǎng)絡(luò)短文本語義相似度檢測算法[D];華中科技大學(xué);2019年
6 倪高偉;無監(jiān)督和有監(jiān)督的短文本相似度研究及應(yīng)用[D];南京郵電大學(xué);2018年
7 趙謙;基于HowNet的短文本語義相似度計算方法研究[D];太原理工大學(xué);2017年
8 李魁;短文本語義相似度計算的研究[D];哈爾濱工程大學(xué);2016年
9 施凱倫;知識庫與語料庫相結(jié)合的語義相似度的研究與實現(xiàn)[D];北京交通大學(xué);2016年
本文編號:2874123
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/2874123.html