基于詞嵌入的漢—泰跨語言句子相似度計算方法研究
發(fā)布時間:2021-05-25 20:12
跨語言句子相似度計算在文本挖掘,網(wǎng)頁檢索,機器翻譯和問答系統(tǒng)中發(fā)揮著重要的作用,一直以來是自然語言處理領(lǐng)域中的一個重要的研究內(nèi)容。隨著中國一帶一路倡議的不斷推進,中國正在不斷加強與東南亞國家的交流與合作。泰國一直以來都是中國重要的國際交流合作國家,語言是中國與泰國之間實現(xiàn)文化、經(jīng)濟等交流的重要紐帶。然而,語言的差異也成為兩國交流的障礙。泰語作為一種資源稀缺的語言,語料不易獲取,同時泰語語言處理的相關(guān)研究較少。因此,漢-泰跨語言句子相似度研究面臨巨大挑戰(zhàn),為了解決漢-泰跨語言句子相似度計算問題開展了本文的工作。本文針對漢-泰跨語言句子相似度計算方法進行相關(guān)研究。主要從以下三個方面展開:(1)在泰語單語言的句子相似度計算方面,提出基于詞性和詞向量的泰語句子相似度計算方法。該方法首先借用詞性標注(POS)結(jié)果,通過考慮泰語句子中的詞性來計算兩個泰語句子的相似度,然后通過詞向量訓練工具將句子中的詞語轉(zhuǎn)換為向量,并計算兩個句子中非重疊詞的相似度。最后,結(jié)合詞性和詞向量來計算泰語句子的相似度。此方法不僅考慮詞性,還融入了語義。(2)提出基于不對等語料的漢-泰跨語言詞語的相似度計算方法。該方法首先對...
【文章來源】:昆明理工大學云南省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 句子相似度計算
1.2.2 跨語言詞嵌入
1.2.3 跨語言句子相似度計算
1.3 論文的研究內(nèi)容
1.4 論文構(gòu)成
1.5 本章小節(jié)
第二章 基于詞性標注和詞向量的泰語句子相似度計算
2.1 引言
2.2 相關(guān)原理
2.2.1 泰語分詞
2.2.2 詞嵌入方法
2.3 基于詞性的泰語句子相似度計算
2.4 基于詞向量的泰語相似度計算
2.5 基于詞性和詞向量的泰語句子相似度計算
2.6 實驗結(jié)果與分析
2.7 本章小結(jié)
第三章 基于不對等語料的漢-泰跨語言詞的相似度計算方法
3.1 引言
3.2 相關(guān)原理
3.2.1 奇異值分解SVD
3.2.2 基于映射的跨語言詞嵌入方法
3.3 基于語料不對等的跨語言詞的相似度計算
3.3.1 算法思想
3.3.2 歸一化詞向量
3.3.3 漢語詞向量的k-means聚類
3.3.4 雙語詞對的擴展和泛化
3.3.5 梯度下降優(yōu)化
3.3.6 漢-泰跨語言詞的相似度計算
3.4 實驗與分析
3.4.1 實驗數(shù)據(jù)
3.4.2 評價指標
3.4.3 實驗參數(shù)分析
3.4.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 基于句子嵌入的漢-泰跨語言句子相似度計算
4.1 引言
4.2 相關(guān)原理
4.2.1 句子嵌入模型
4.3 漢-泰跨語言句子相似度計算模型
4.3.1 歸一化句子向量
4.3.2 正交約束
4.3.3 相似度計算
4.4 實驗與分析
4.4.1 漢-泰平行語料的獲取
4.4.2 評價指標
4.4.3 實驗結(jié)果與分析
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻
附錄A 攻讀碩士學位期間發(fā)表論文
附錄B 攻讀碩士學位期間參與項目
【參考文獻】:
期刊論文
[1]融合上下文字符信息的泰語神經(jīng)網(wǎng)絡(luò)分詞方法[J]. 陶廣奉,線巖團,王紅斌,汪淑娟. 計算機工程與科學. 2018(05)
[2]基于WordNet的中泰文跨語言文本相似度計算[J]. 石杰,周蘭江,線巖團,余正濤. 中文信息學報. 2016(04)
[3]融合新聞要素的跨語言新聞文本相似度計算[J]. 侯中熙,王紅斌,線巖團. 價值工程. 2016(17)
[4]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計算機. 2016(02)
[5]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識別與人工智能. 2015(04)
[6]基于詞性及詞性依存的句子結(jié)構(gòu)相似度計算[J]. 藍雁玲,陳建超. 計算機工程. 2011(10)
[7]基于規(guī)則和統(tǒng)計的日語分詞和詞性標注的研究[J]. 姜尚仆,陳群秀. 中文信息學報. 2010(01)
[8]基于字典和統(tǒng)計的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計算機工程與應用. 2008(10)
[9]句子相似度計算新方法及在問答系統(tǒng)中的應用[J]. 周法國,楊炳儒. 計算機工程與應用. 2008(01)
[10]漢泰語音對比研究與語音偏誤標記分析[J]. 陳晨,李秋楊. 暨南大學華文學院學報. 2007(04)
碩士論文
[1]基于WordNet的中英文跨語言文本相似度研究[D]. 何文壘.上海交通大學 2011
本文編號:3205938
【文章來源】:昆明理工大學云南省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 課題研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 句子相似度計算
1.2.2 跨語言詞嵌入
1.2.3 跨語言句子相似度計算
1.3 論文的研究內(nèi)容
1.4 論文構(gòu)成
1.5 本章小節(jié)
第二章 基于詞性標注和詞向量的泰語句子相似度計算
2.1 引言
2.2 相關(guān)原理
2.2.1 泰語分詞
2.2.2 詞嵌入方法
2.3 基于詞性的泰語句子相似度計算
2.4 基于詞向量的泰語相似度計算
2.5 基于詞性和詞向量的泰語句子相似度計算
2.6 實驗結(jié)果與分析
2.7 本章小結(jié)
第三章 基于不對等語料的漢-泰跨語言詞的相似度計算方法
3.1 引言
3.2 相關(guān)原理
3.2.1 奇異值分解SVD
3.2.2 基于映射的跨語言詞嵌入方法
3.3 基于語料不對等的跨語言詞的相似度計算
3.3.1 算法思想
3.3.2 歸一化詞向量
3.3.3 漢語詞向量的k-means聚類
3.3.4 雙語詞對的擴展和泛化
3.3.5 梯度下降優(yōu)化
3.3.6 漢-泰跨語言詞的相似度計算
3.4 實驗與分析
3.4.1 實驗數(shù)據(jù)
3.4.2 評價指標
3.4.3 實驗參數(shù)分析
3.4.4 實驗結(jié)果與分析
3.5 本章小結(jié)
第四章 基于句子嵌入的漢-泰跨語言句子相似度計算
4.1 引言
4.2 相關(guān)原理
4.2.1 句子嵌入模型
4.3 漢-泰跨語言句子相似度計算模型
4.3.1 歸一化句子向量
4.3.2 正交約束
4.3.3 相似度計算
4.4 實驗與分析
4.4.1 漢-泰平行語料的獲取
4.4.2 評價指標
4.4.3 實驗結(jié)果與分析
4.5 本章小結(jié)
第五章 總結(jié)與展望
5.1 總結(jié)
5.2 展望
致謝
參考文獻
附錄A 攻讀碩士學位期間發(fā)表論文
附錄B 攻讀碩士學位期間參與項目
【參考文獻】:
期刊論文
[1]融合上下文字符信息的泰語神經(jīng)網(wǎng)絡(luò)分詞方法[J]. 陶廣奉,線巖團,王紅斌,汪淑娟. 計算機工程與科學. 2018(05)
[2]基于WordNet的中泰文跨語言文本相似度計算[J]. 石杰,周蘭江,線巖團,余正濤. 中文信息學報. 2016(04)
[3]融合新聞要素的跨語言新聞文本相似度計算[J]. 侯中熙,王紅斌,線巖團. 價值工程. 2016(17)
[4]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計算機. 2016(02)
[5]基于詞向量特征的循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型[J]. 張劍,屈丹,李真. 模式識別與人工智能. 2015(04)
[6]基于詞性及詞性依存的句子結(jié)構(gòu)相似度計算[J]. 藍雁玲,陳建超. 計算機工程. 2011(10)
[7]基于規(guī)則和統(tǒng)計的日語分詞和詞性標注的研究[J]. 姜尚仆,陳群秀. 中文信息學報. 2010(01)
[8]基于字典和統(tǒng)計的分詞方法[J]. 陳平,劉曉霞,李亞軍. 計算機工程與應用. 2008(10)
[9]句子相似度計算新方法及在問答系統(tǒng)中的應用[J]. 周法國,楊炳儒. 計算機工程與應用. 2008(01)
[10]漢泰語音對比研究與語音偏誤標記分析[J]. 陳晨,李秋楊. 暨南大學華文學院學報. 2007(04)
碩士論文
[1]基于WordNet的中英文跨語言文本相似度研究[D]. 何文壘.上海交通大學 2011
本文編號:3205938
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3205938.html
最近更新
教材專著