基于詞嵌入的本體對齊研究
發(fā)布時間:2022-07-14 10:59
計算機網(wǎng)絡的迅速發(fā)展導致數(shù)據(jù)產(chǎn)生爆炸式的增長,知識圖譜為這些網(wǎng)絡上異構、海量、動態(tài)數(shù)據(jù)的表示、組織、管理和利用提供了一種高效的方式,提高了網(wǎng)絡的智能化水平。本體是從客觀世界中抽象出來的概念模型,包含概念以及概念之間的關系,是對知識的抽象和對某個領域之中的概念及其之間關系的形式化表達。構建本體的目的是描述領域知識,領域中存在的并行本體開發(fā)現(xiàn)象提出了本體對齊的需求。本體對齊以本體作為輸入,以對齊結果作為輸出,確定不同本體中語義相關的實體之間的對應關系,是語義網(wǎng)互操作性的關鍵促成因素。隨著表示學習技術在自然語言處理領域的發(fā)展與成熟,專家學者開始嘗試將其應用于本體對齊問題。與原有的特征提取方法相比,表示學習技術存在一定優(yōu)勢,使用大量相關語料預訓練得到的詞嵌入能夠表示單詞內在的語義信息,識別字面表示不同而語義相同的單詞。但是由于詞嵌入的生成依靠單詞的上下文,這導致詞嵌入存在無法準確區(qū)分語義相似性與描述相關性。為了解決這一問題,本文結合本體對齊的具體任務,使用SCBOW模型和Knowledge distillation模型對詞嵌入進行改進,利用改進后的詞嵌入獲取實體嵌入,從而計算兩個實體的相似度,...
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題來源
1.2 課題背景
1.3 研究意義
1.4 國內外研究現(xiàn)狀
1.5 本文主要內容
1.6 本文結構安排
第2章 本體對齊相關技術與模型
2.1 問題描述
2.2 相似度計算技術
2.2.1 字符串相似度
2.2.2 向量相似度
2.3 詞嵌入技術
2.3.1 one-hot編碼
2.3.2 word2vec
2.4 詞嵌入改進技術
2.4.1 Siamese CBOW模型
2.4.2 知識蒸餾
2.4.3 降噪自動編碼器
2.5 知識圖譜嵌入技術
2.6 本章小結
第3章 數(shù)據(jù)處理與本體對齊模型
3.1 本體簡介
3.2 數(shù)據(jù)處理
3.2.1 UMLS本體數(shù)據(jù)獲取
3.2.2 精準醫(yī)學本體數(shù)據(jù)獲取
3.3 本體對齊模型
3.3.1 SCBOW+Knowledge distillation模型
3.3.2 實體匹配算法
3.3.3 本體對齊任務中的改進DAE
3.3.4 加入結構信息的本體對齊模型
3.4 本章小結
第4章 實驗設置與結果分析
4.1 數(shù)據(jù)集
4.2 模型參數(shù)設置
4.3 評價指標
4.4 實驗結果分析
4.5 本章小結
結論
參考文獻
致謝
本文編號:3661000
【文章頁數(shù)】:53 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題來源
1.2 課題背景
1.3 研究意義
1.4 國內外研究現(xiàn)狀
1.5 本文主要內容
1.6 本文結構安排
第2章 本體對齊相關技術與模型
2.1 問題描述
2.2 相似度計算技術
2.2.1 字符串相似度
2.2.2 向量相似度
2.3 詞嵌入技術
2.3.1 one-hot編碼
2.3.2 word2vec
2.4 詞嵌入改進技術
2.4.1 Siamese CBOW模型
2.4.2 知識蒸餾
2.4.3 降噪自動編碼器
2.5 知識圖譜嵌入技術
2.6 本章小結
第3章 數(shù)據(jù)處理與本體對齊模型
3.1 本體簡介
3.2 數(shù)據(jù)處理
3.2.1 UMLS本體數(shù)據(jù)獲取
3.2.2 精準醫(yī)學本體數(shù)據(jù)獲取
3.3 本體對齊模型
3.3.1 SCBOW+Knowledge distillation模型
3.3.2 實體匹配算法
3.3.3 本體對齊任務中的改進DAE
3.3.4 加入結構信息的本體對齊模型
3.4 本章小結
第4章 實驗設置與結果分析
4.1 數(shù)據(jù)集
4.2 模型參數(shù)設置
4.3 評價指標
4.4 實驗結果分析
4.5 本章小結
結論
參考文獻
致謝
本文編號:3661000
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3661000.html
最近更新
教材專著