基于多源信息的實(shí)體鏈接算法研究及應(yīng)用
發(fā)布時(shí)間:2021-03-07 15:29
實(shí)體鏈接(Entity Linking)是知識(shí)圖譜領(lǐng)域一項(xiàng)關(guān)鍵的基礎(chǔ)技術(shù),其任務(wù)是要將非結(jié)構(gòu)化文本中提及的實(shí)體和知識(shí)庫(kù)中存儲(chǔ)的實(shí)體進(jìn)行一一映射,以幫助計(jì)算機(jī)更精準(zhǔn)地理解輸入的自然語(yǔ)言。實(shí)體鏈接在知識(shí)庫(kù)擴(kuò)展、信息檢索、智能問(wèn)答、內(nèi)容推薦等場(chǎng)景下有著廣泛的應(yīng)用,是知識(shí)圖譜領(lǐng)域的熱點(diǎn)研究問(wèn)題之一。本文通過(guò)對(duì)國(guó)內(nèi)外基于圖結(jié)構(gòu)和實(shí)體嵌入的實(shí)體鏈接相關(guān)研究進(jìn)行調(diào)研,針對(duì)實(shí)體鏈接研究中生成的候選實(shí)體集噪聲過(guò)大,候選實(shí)體一致性衡量不精確,相似候選實(shí)體消歧能力不足等問(wèn)題,提出了兩種基于圖結(jié)構(gòu)的聯(lián)合實(shí)體鏈接算法。具體地,本文的主要工作包括:1、提出了基于LeaderRank的聯(lián)合實(shí)體鏈接算法—LRCEL,該算法主要包括實(shí)體識(shí)別模塊、候選實(shí)體集生成模塊、實(shí)體關(guān)聯(lián)圖構(gòu)造模塊、候選實(shí)體排序模塊這四個(gè)主要模塊。首先考慮輸入文本中潛在的語(yǔ)義信息和本地知識(shí)庫(kù)中蘊(yùn)含的語(yǔ)義信息,生成規(guī)模小而精確的候選實(shí)體集,隨后通過(guò)候選實(shí)體集構(gòu)造包含候選實(shí)體強(qiáng)弱語(yǔ)義關(guān)系的實(shí)體關(guān)聯(lián)圖,最后利用關(guān)聯(lián)圖中包含的多源信息結(jié)合LeaderRank進(jìn)行候選實(shí)體排序,選擇一組候選實(shí)體作為輸入中各實(shí)體提及的最終鏈接對(duì)象,完成各實(shí)體提及與知識(shí)庫(kù)實(shí)體的鏈接...
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
實(shí)體鏈
第三章基于圖的鏈接算法研究27們還需要建設(shè)同義別名詞典,同義別名詞典記錄了每個(gè)常用提及的別名。實(shí)體提及映射字典通常通過(guò)挖掘用戶日志,利用啟發(fā)式規(guī)則,利用知識(shí)庫(kù)信息等方式得到。同義別名詞典的構(gòu)建方法包括但不限于:1)借助外部數(shù)據(jù)構(gòu)建2)文本同義詞挖掘3)人工編撰。百度百科作為全球最大的中文百科網(wǎng)站,我們可以借助百度百科中實(shí)體頁(yè)面的Infobox信息來(lái)構(gòu)建同義別名詞典。在實(shí)體頁(yè)面的Infobox欄中我們可以找到實(shí)體的中文名稱,外文名稱,常用別名等信息,這些信息可以幫助我們初步快速構(gòu)建同義別名詞典。圖3-2給出在百度百科中關(guān)于“北京”這個(gè)實(shí)體的Infobox。圖3-2百度百科實(shí)體Infobox信息在得到上述兩個(gè)輔助詞典后,就可以基于這兩個(gè)詞典得到實(shí)體提及的候選實(shí)體集。首先通過(guò)同義詞別名詞典將提及映射為統(tǒng)一規(guī)范的形式,然后通過(guò)實(shí)體提及映射詞典獲取提及可能鏈接到的候選實(shí)體。例如輸入文本中存在實(shí)體提及“燕京”,首先通過(guò)同義別名詞典將提及“燕京”映射為提及“北京”,然后分別以“燕京”和“北京”為主鍵通過(guò)實(shí)體提及映射字典查詢得到提及“燕京”的候選實(shí)體<北京(中華人民共和國(guó)首都)>,<北京(朱剛演唱的歌曲)>,<北京(小行星)>等。本文依賴的部分同義別名詞典結(jié)構(gòu)如表3-2所示,實(shí)體提及映射詞典如表3-3所示。
第五章實(shí)傼與分析53圖結(jié)構(gòu)數(shù)據(jù)的不二之眩圖5-1DB-Engines最新發(fā)布的圖數(shù)據(jù)庫(kù)排名本文采用Neo4j數(shù)據(jù)庫(kù)作為本地知識(shí)庫(kù)的存儲(chǔ)工具。Neo4j作為存儲(chǔ)工具的好處有如下幾點(diǎn):1)Neo4j數(shù)據(jù)庫(kù)是為圖結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)而設(shè)計(jì),非常適合大規(guī)模存儲(chǔ)實(shí)體和實(shí)體關(guān)系這種圖結(jié)構(gòu)數(shù)據(jù)。2)Neo4j數(shù)據(jù)庫(kù)自帶可視化工具,用該數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)可讀性較強(qiáng)。3)Neo4j數(shù)據(jù)庫(kù)具有成熟數(shù)據(jù)庫(kù)的特性,在大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)上有極儈的查詢效率,是一個(gè)儈性能的圖引擎。在選定好知識(shí)庫(kù)的存儲(chǔ)工具之后,將三元組數(shù)據(jù)進(jìn)行清洗處理后,導(dǎo)入到Neo4j數(shù)據(jù)庫(kù)中,即可完成本文所使用的知識(shí)庫(kù)的構(gòu)建存儲(chǔ)。圖5-2為CN-Dbpedia通用知識(shí)庫(kù)在Neo4j中關(guān)于“復(fù)旦大學(xué)”實(shí)體的相關(guān)數(shù)據(jù)組織結(jié)構(gòu),圖5-3為本文自行構(gòu)建的金融知識(shí)庫(kù)在Neo4j中存儲(chǔ)的數(shù)據(jù)組織結(jié)構(gòu)。在Neo4j數(shù)據(jù)庫(kù)中,每個(gè)節(jié)點(diǎn)表示一個(gè)實(shí)體或者字符屬性,連接實(shí)體節(jié)點(diǎn)的邊表示實(shí)體間的關(guān)系。例如圖5-2中“中國(guó)平安”和“平安銀行”是實(shí)體,實(shí)體“王群”和實(shí)體“平安銀行”間存在著管理關(guān)系。
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量和條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別方法[J]. 馮艷紅,于紅,孫庚,趙禹錦. 計(jì)算機(jī)應(yīng)用. 2016(11)
[2]基于條件隨機(jī)場(chǎng)與時(shí)間詞庫(kù)的中文時(shí)間表達(dá)式識(shí)別[J]. 吳瓊,黃德根. 中文信息學(xué)報(bào). 2014(06)
[3]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
本文編號(hào):3069363
【文章來(lái)源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:79 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
實(shí)體鏈
第三章基于圖的鏈接算法研究27們還需要建設(shè)同義別名詞典,同義別名詞典記錄了每個(gè)常用提及的別名。實(shí)體提及映射字典通常通過(guò)挖掘用戶日志,利用啟發(fā)式規(guī)則,利用知識(shí)庫(kù)信息等方式得到。同義別名詞典的構(gòu)建方法包括但不限于:1)借助外部數(shù)據(jù)構(gòu)建2)文本同義詞挖掘3)人工編撰。百度百科作為全球最大的中文百科網(wǎng)站,我們可以借助百度百科中實(shí)體頁(yè)面的Infobox信息來(lái)構(gòu)建同義別名詞典。在實(shí)體頁(yè)面的Infobox欄中我們可以找到實(shí)體的中文名稱,外文名稱,常用別名等信息,這些信息可以幫助我們初步快速構(gòu)建同義別名詞典。圖3-2給出在百度百科中關(guān)于“北京”這個(gè)實(shí)體的Infobox。圖3-2百度百科實(shí)體Infobox信息在得到上述兩個(gè)輔助詞典后,就可以基于這兩個(gè)詞典得到實(shí)體提及的候選實(shí)體集。首先通過(guò)同義詞別名詞典將提及映射為統(tǒng)一規(guī)范的形式,然后通過(guò)實(shí)體提及映射詞典獲取提及可能鏈接到的候選實(shí)體。例如輸入文本中存在實(shí)體提及“燕京”,首先通過(guò)同義別名詞典將提及“燕京”映射為提及“北京”,然后分別以“燕京”和“北京”為主鍵通過(guò)實(shí)體提及映射字典查詢得到提及“燕京”的候選實(shí)體<北京(中華人民共和國(guó)首都)>,<北京(朱剛演唱的歌曲)>,<北京(小行星)>等。本文依賴的部分同義別名詞典結(jié)構(gòu)如表3-2所示,實(shí)體提及映射詞典如表3-3所示。
第五章實(shí)傼與分析53圖結(jié)構(gòu)數(shù)據(jù)的不二之眩圖5-1DB-Engines最新發(fā)布的圖數(shù)據(jù)庫(kù)排名本文采用Neo4j數(shù)據(jù)庫(kù)作為本地知識(shí)庫(kù)的存儲(chǔ)工具。Neo4j作為存儲(chǔ)工具的好處有如下幾點(diǎn):1)Neo4j數(shù)據(jù)庫(kù)是為圖結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)而設(shè)計(jì),非常適合大規(guī)模存儲(chǔ)實(shí)體和實(shí)體關(guān)系這種圖結(jié)構(gòu)數(shù)據(jù)。2)Neo4j數(shù)據(jù)庫(kù)自帶可視化工具,用該數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)可讀性較強(qiáng)。3)Neo4j數(shù)據(jù)庫(kù)具有成熟數(shù)據(jù)庫(kù)的特性,在大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)上有極儈的查詢效率,是一個(gè)儈性能的圖引擎。在選定好知識(shí)庫(kù)的存儲(chǔ)工具之后,將三元組數(shù)據(jù)進(jìn)行清洗處理后,導(dǎo)入到Neo4j數(shù)據(jù)庫(kù)中,即可完成本文所使用的知識(shí)庫(kù)的構(gòu)建存儲(chǔ)。圖5-2為CN-Dbpedia通用知識(shí)庫(kù)在Neo4j中關(guān)于“復(fù)旦大學(xué)”實(shí)體的相關(guān)數(shù)據(jù)組織結(jié)構(gòu),圖5-3為本文自行構(gòu)建的金融知識(shí)庫(kù)在Neo4j中存儲(chǔ)的數(shù)據(jù)組織結(jié)構(gòu)。在Neo4j數(shù)據(jù)庫(kù)中,每個(gè)節(jié)點(diǎn)表示一個(gè)實(shí)體或者字符屬性,連接實(shí)體節(jié)點(diǎn)的邊表示實(shí)體間的關(guān)系。例如圖5-2中“中國(guó)平安”和“平安銀行”是實(shí)體,實(shí)體“王群”和實(shí)體“平安銀行”間存在著管理關(guān)系。
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量和條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別方法[J]. 馮艷紅,于紅,孫庚,趙禹錦. 計(jì)算機(jī)應(yīng)用. 2016(11)
[2]基于條件隨機(jī)場(chǎng)與時(shí)間詞庫(kù)的中文時(shí)間表達(dá)式識(shí)別[J]. 吳瓊,黃德根. 中文信息學(xué)報(bào). 2014(06)
[3]基于層疊隱馬爾可夫模型的中文命名實(shí)體識(shí)別[J]. 俞鴻魁,張華平,劉群,呂學(xué)強(qiáng),施水才. 通信學(xué)報(bào). 2006(02)
本文編號(hào):3069363
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3069363.html
最近更新
教材專著