基于自舉學(xué)習(xí)和多視角學(xué)習(xí)的跨語言實體對齊技術(shù)研究
發(fā)布時間:2021-01-25 00:11
多語言知識圖譜的構(gòu)建和應(yīng)用,推動了許多人工智能相關(guān)的跨語言任務(wù)的發(fā)展?缯Z言實體對齊任務(wù)是指在多語言場景下,找到不同語言中的匹配實體對的任務(wù)。通過跨語言的實體對齊,可以連接和融合不同語言的知識圖譜,形成新的知識,增加知識圖譜的信息密度,F(xiàn)有方法主要依賴于少量跨語言鏈接和三元組結(jié)構(gòu)編碼實體。隨著互聯(lián)網(wǎng)的發(fā)展、眾包技術(shù)的成熟,大量知識圖譜也為實體提供了豐富的實體描述,給文本信息的編碼提供了條件。針對結(jié)構(gòu)編碼優(yōu)化,文本編碼的引入,以及對齊數(shù)據(jù)稀少等問題,本文研究并提出了相應(yīng)的跨語言實體對齊模型。本文的主要貢獻如下:(1)提出了基于TransD模型的自舉式跨語言實體對齊模型。利用TransD模型增加實體和關(guān)系之間的交互,編碼知識圖譜中的實體和關(guān)系,通過三元組損失優(yōu)化實體的向量表示。對于訓(xùn)練數(shù)據(jù)中對齊實體對不足的問題,利用自舉法篩選訓(xùn)練中得到的新對齊實體對,擴充訓(xùn)練數(shù)據(jù)。在數(shù)據(jù)集DBP15K上證明了本文提出的模型在結(jié)構(gòu)編碼上的優(yōu)勢以及自舉式擴充訓(xùn)練數(shù)據(jù)的有效性,并從而提升了跨語言實體對齊效果。(2)提出了使用圖卷積網(wǎng)絡(luò)編碼知識圖譜多視角信息的跨語言實體對齊模型。根據(jù)知識圖譜三元組和實體描述文本,...
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
百度百科中“劉德華”詞條
浙江大學(xué)碩士學(xué)位論文第1章緒論3象。在信息抽娶知識融合階段都需要進行實體對齊。對于原生知識庫,即知識主要來源于相關(guān)專家學(xué)者或直接來源于廣大人群共同編輯維護的Wikipedia[2]、WordNet[3]、百度百科[4]等知識庫,會存在同一個實體具有多種名稱的情況,需要進行同源實體對齊,也稱為實體解析(EntityResolution),判斷多個指稱是否對應(yīng)同一且唯一的實體。對于融合知識庫,即依靠從原生知識庫抽取結(jié)構(gòu)化信息,融合多個數(shù)據(jù)源而建成的知識庫,如DBpedia[5]、Freebase[6]等來說,則需要判斷不同數(shù)據(jù)集中的實體是否指向同一個實體,通過實體對齊來合并數(shù)據(jù),去除重復(fù)。隨著知識圖譜的構(gòu)建以及相關(guān)應(yīng)用的驅(qū)動,單語言知識圖譜日趨成熟,其中的實體對齊問題取得了很大的進展,多語言知識圖譜(如DBpedia[5]、Yago[7]、BabelNet[8]、ConceptNet[9])也逐步建立了起來,跨語言實體對齊——多語言知識圖譜中不同語言間的實體對齊任務(wù)也逐漸成為熱點。如圖1-3即為中文百度百科的“劉德華”詞條和英文維基百科的“劉德華”頁面中,相關(guān)結(jié)構(gòu)化信息跨語言對齊的簡單示例。圖1-3百度百科與維基百科中“劉德華”實體屬性對齊實例
浙江大學(xué)碩士學(xué)位論文第2章實體對齊技術(shù)綜述151,其他維度均為0。這種表示方式結(jié)合稀疏存儲會非常簡潔,但是也存在明顯缺陷:詞表通常很大,詞向量維度會非常大;詞和詞之間是獨立的,無法根據(jù)詞向量判斷兩個詞的關(guān)系。另一類更為常用的詞向量表示方式稱為分布式表示(DistributedRepresentation),將單詞表示為低維實值向量,通常小于1000維,解決了高維稀疏的問題,且能夠讓語義相近的詞在空間中距離更接近。將詞分布式表示的過程也經(jīng)常被稱作詞嵌入(WordEmbedding)。一般自然語言處理任務(wù)關(guān)注單語言的詞向量表示,雙語言詞向量表示與單語言詞向量表示存在一定的不同之處。雙語言詞向量表示(此處也即跨語言表示)有三種主要方法。分別是:1、單語言各自訓(xùn)練后,學(xué)習(xí)語言之間的向量空間轉(zhuǎn)換;2、單語言各自訓(xùn)練后,共同轉(zhuǎn)換到一個統(tǒng)一的語義空間;3、聯(lián)合學(xué)習(xí),同時訓(xùn)練多語言的詞向量分布表示。接下來以具體工作說明各類方法。單語訓(xùn)練,跨語言轉(zhuǎn)換單語言分別訓(xùn)練后,學(xué)習(xí)跨語言空間轉(zhuǎn)換的方式,以Mikolov等人[54]的工作為代表。Mikolov等人首先從大量的單語言語料中用Word2Vec[62]學(xué)習(xí)到每種語言中的詞向量表示,再依賴小型雙語語料學(xué)習(xí)跨語言的詞向量的線性映射關(guān)系。Word2Vec包含兩種訓(xùn)練詞向量分布表示的模型,CBOW(ContinuousBag-of-WordsModel)和Skip-gram。CBOW模型的思想是根據(jù)一個詞語的上下文相關(guān)詞語來預(yù)測該詞,而Skip-gram模型則相反,給定特定單詞,希望能夠輸出它的上下文詞語。它們的模型結(jié)構(gòu)如圖2-1所示。圖2-1CBOW和Skip-gram模型結(jié)構(gòu)圖
【參考文獻】:
期刊論文
[1]知識表示學(xué)習(xí)研究進展[J]. 劉知遠,孫茂松,林衍凱,謝若冰. 計算機研究與發(fā)展. 2016(02)
[2]知識庫實體對齊技術(shù)綜述[J]. 莊嚴(yán),李國良,馮建華. 計算機研究與發(fā)展. 2016(01)
本文編號:2998180
【文章來源】:浙江大學(xué)浙江省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
百度百科中“劉德華”詞條
浙江大學(xué)碩士學(xué)位論文第1章緒論3象。在信息抽娶知識融合階段都需要進行實體對齊。對于原生知識庫,即知識主要來源于相關(guān)專家學(xué)者或直接來源于廣大人群共同編輯維護的Wikipedia[2]、WordNet[3]、百度百科[4]等知識庫,會存在同一個實體具有多種名稱的情況,需要進行同源實體對齊,也稱為實體解析(EntityResolution),判斷多個指稱是否對應(yīng)同一且唯一的實體。對于融合知識庫,即依靠從原生知識庫抽取結(jié)構(gòu)化信息,融合多個數(shù)據(jù)源而建成的知識庫,如DBpedia[5]、Freebase[6]等來說,則需要判斷不同數(shù)據(jù)集中的實體是否指向同一個實體,通過實體對齊來合并數(shù)據(jù),去除重復(fù)。隨著知識圖譜的構(gòu)建以及相關(guān)應(yīng)用的驅(qū)動,單語言知識圖譜日趨成熟,其中的實體對齊問題取得了很大的進展,多語言知識圖譜(如DBpedia[5]、Yago[7]、BabelNet[8]、ConceptNet[9])也逐步建立了起來,跨語言實體對齊——多語言知識圖譜中不同語言間的實體對齊任務(wù)也逐漸成為熱點。如圖1-3即為中文百度百科的“劉德華”詞條和英文維基百科的“劉德華”頁面中,相關(guān)結(jié)構(gòu)化信息跨語言對齊的簡單示例。圖1-3百度百科與維基百科中“劉德華”實體屬性對齊實例
浙江大學(xué)碩士學(xué)位論文第2章實體對齊技術(shù)綜述151,其他維度均為0。這種表示方式結(jié)合稀疏存儲會非常簡潔,但是也存在明顯缺陷:詞表通常很大,詞向量維度會非常大;詞和詞之間是獨立的,無法根據(jù)詞向量判斷兩個詞的關(guān)系。另一類更為常用的詞向量表示方式稱為分布式表示(DistributedRepresentation),將單詞表示為低維實值向量,通常小于1000維,解決了高維稀疏的問題,且能夠讓語義相近的詞在空間中距離更接近。將詞分布式表示的過程也經(jīng)常被稱作詞嵌入(WordEmbedding)。一般自然語言處理任務(wù)關(guān)注單語言的詞向量表示,雙語言詞向量表示與單語言詞向量表示存在一定的不同之處。雙語言詞向量表示(此處也即跨語言表示)有三種主要方法。分別是:1、單語言各自訓(xùn)練后,學(xué)習(xí)語言之間的向量空間轉(zhuǎn)換;2、單語言各自訓(xùn)練后,共同轉(zhuǎn)換到一個統(tǒng)一的語義空間;3、聯(lián)合學(xué)習(xí),同時訓(xùn)練多語言的詞向量分布表示。接下來以具體工作說明各類方法。單語訓(xùn)練,跨語言轉(zhuǎn)換單語言分別訓(xùn)練后,學(xué)習(xí)跨語言空間轉(zhuǎn)換的方式,以Mikolov等人[54]的工作為代表。Mikolov等人首先從大量的單語言語料中用Word2Vec[62]學(xué)習(xí)到每種語言中的詞向量表示,再依賴小型雙語語料學(xué)習(xí)跨語言的詞向量的線性映射關(guān)系。Word2Vec包含兩種訓(xùn)練詞向量分布表示的模型,CBOW(ContinuousBag-of-WordsModel)和Skip-gram。CBOW模型的思想是根據(jù)一個詞語的上下文相關(guān)詞語來預(yù)測該詞,而Skip-gram模型則相反,給定特定單詞,希望能夠輸出它的上下文詞語。它們的模型結(jié)構(gòu)如圖2-1所示。圖2-1CBOW和Skip-gram模型結(jié)構(gòu)圖
【參考文獻】:
期刊論文
[1]知識表示學(xué)習(xí)研究進展[J]. 劉知遠,孫茂松,林衍凱,謝若冰. 計算機研究與發(fā)展. 2016(02)
[2]知識庫實體對齊技術(shù)綜述[J]. 莊嚴(yán),李國良,馮建華. 計算機研究與發(fā)展. 2016(01)
本文編號:2998180
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2998180.html
最近更新
教材專著