百科知識庫實體對齊算法研究
發(fā)布時間:2021-08-18 05:14
近年來,人類在生活中接觸和產(chǎn)生的數(shù)據(jù)量在飛速增長,且由于自媒體時代的到來和用戶的多樣性,網(wǎng)絡(luò)中的數(shù)據(jù)呈現(xiàn)出多樣化。在線網(wǎng)絡(luò)百科作為一個知識共享和知識普及的平臺,涵蓋了各種類型的知識數(shù)據(jù),具有數(shù)據(jù)規(guī)模大、表達(dá)方式多樣的特點。網(wǎng)絡(luò)百科的組成單元是百科實體,相同的實體可能有不同的稱謂方式,不同實體的名稱也可能相同,這樣的現(xiàn)象為百科知識庫中的知識數(shù)據(jù)進(jìn)行整合和復(fù)用造成了很大的阻礙。并且,國內(nèi)眾多大型百科網(wǎng)站由網(wǎng)民協(xié)作編輯形成,表達(dá)缺乏規(guī)范性,部分知識數(shù)據(jù)是重復(fù)甚至是錯誤的。若不進(jìn)行實體對齊,直接進(jìn)行知識融合,知識庫中將出現(xiàn)重疊甚至自相矛盾的實體,知識數(shù)據(jù)的數(shù)據(jù)質(zhì)量會嚴(yán)重下降。為了完成在線百科知識庫的實體對齊任務(wù),進(jìn)行知識融合,達(dá)到擴(kuò)充知識庫的目的,本文圍繞百科知識庫實體對齊算法進(jìn)行了研究,主要包括以下幾個方面:1.針對百度百科和維基百科中文版的實體差異較大的特點,提出基于主題模型的百科知識庫實體對齊算法。將主題模型應(yīng)用到實體對齊的任務(wù)中,利用潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)模型對百科實體的非結(jié)構(gòu)化描述文本進(jìn)行深度語義挖掘,在生成實體的特征向量時...
【文章來源】:河北大學(xué)河北省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
百度百科實體“蘋果”詞條名稱
河北大學(xué)碩士學(xué)位論文2.詞條概述詞條概述也被稱為是詞條的名片,它概括了詞條最本質(zhì)的內(nèi)容,以簡練的語言描述了詞條的特點,實體“蘋果”的詞條概述如圖 2-2 所示。維基百科中被稱為“摘要(Abstract)”。在本文中,詞條概述被歸為實體的非結(jié)構(gòu)化描述文本,作為實體的主要信息進(jìn)行實體對齊。
信息進(jìn)行實體對齊。圖 2-2 百度百科實體“蘋果”詞條概述3.基本信息欄基本信息欄采用結(jié)構(gòu)化的形式展現(xiàn)實體信息,是用于描述實體屬性和屬性值的,由“信息項:信息內(nèi)容”組成,實體“蘋果”的基本信息欄,如圖 2-3 所示。百科中,被稱為是“消息盒(InfoBox)”。該項內(nèi)容是百科知識庫中為數(shù)不多化描述信息,能很大程度地展現(xiàn)知識庫中實體信息是否完整,它的基本結(jié)構(gòu)是“稱:屬性內(nèi)容”,其表述非常簡單,卻能通過逐個的詞語表征整個實體,并清晰實體的特點。這一項內(nèi)容在本文的研究中并不涉及,但是在對比實驗中有所使用
【參考文獻(xiàn)】:
期刊論文
[1]基于RNN的中文二分結(jié)構(gòu)句法分析[J]. 谷波,王瑞波,李濟(jì)洪,李國臣. 中文信息學(xué)報. 2019(01)
[2]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(jī)(專業(yè)版). 2018(34)
[3]多層前向人工神經(jīng)網(wǎng)絡(luò)圖像分類算法[J]. 顧哲彬,曹飛龍. 計算機(jī)科學(xué). 2018(S2)
[4]異構(gòu)網(wǎng)絡(luò)中實體匹配算法綜述[J]. 李娜,金岡增,周曉旭,鄭建兵,高明. 華東師范大學(xué)學(xué)報(自然科學(xué)版). 2018(05)
[5]基于孿生卷積神經(jīng)網(wǎng)絡(luò)的人臉追蹤[J]. 吳漢釗. 計算機(jī)工程與應(yīng)用. 2018(14)
[6]基于改進(jìn)深度孿生網(wǎng)絡(luò)的分類器及其應(yīng)用[J]. 沈雁,王環(huán),戴瑜興. 計算機(jī)工程與應(yīng)用. 2018(10)
[7]數(shù)據(jù)質(zhì)量的歷史沿革和發(fā)展趨勢[J]. 蔡莉,梁宇,朱揚(yáng)勇,何婧. 計算機(jī)科學(xué). 2018(04)
[8]基于深度卷積-遞歸神經(jīng)網(wǎng)絡(luò)的手繪草圖識別方法[J]. 趙鵬,劉楊,劉慧婷,姚晟. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報. 2018(02)
[9]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏. 中文信息學(xué)報. 2017(05)
[10]基于隱私保護(hù)的大數(shù)據(jù)挖掘技術(shù)研究[J]. 蘇鵬沖,袁得崳,馬丁. 現(xiàn)代計算機(jī)(專業(yè)版). 2017(20)
碩士論文
[1]機(jī)器閱讀理解模型中的關(guān)鍵問題研究[D]. 李亞慧.哈爾濱工業(yè)大學(xué) 2018
[2]短文本流中主題模型及其應(yīng)用研究[D]. 趙玉琨.山東大學(xué) 2017
[3]面向關(guān)聯(lián)數(shù)據(jù)的實體對齊方法研究[D]. 李琳.北京化工大學(xué) 2017
[4]說話人識別情感合成問題的概率模型研究[D]. 陳昊.浙江大學(xué) 2016
[5]基于異構(gòu)中文百科數(shù)據(jù)的互聯(lián)語義知識庫構(gòu)建[D]. 牛星.上海交通大學(xué) 2013
[6]國內(nèi)維基類網(wǎng)絡(luò)百科研究[D]. 楊欣.武漢理工大學(xué) 2012
本文編號:3349265
【文章來源】:河北大學(xué)河北省
【文章頁數(shù)】:61 頁
【學(xué)位級別】:碩士
【部分圖文】:
百度百科實體“蘋果”詞條名稱
河北大學(xué)碩士學(xué)位論文2.詞條概述詞條概述也被稱為是詞條的名片,它概括了詞條最本質(zhì)的內(nèi)容,以簡練的語言描述了詞條的特點,實體“蘋果”的詞條概述如圖 2-2 所示。維基百科中被稱為“摘要(Abstract)”。在本文中,詞條概述被歸為實體的非結(jié)構(gòu)化描述文本,作為實體的主要信息進(jìn)行實體對齊。
信息進(jìn)行實體對齊。圖 2-2 百度百科實體“蘋果”詞條概述3.基本信息欄基本信息欄采用結(jié)構(gòu)化的形式展現(xiàn)實體信息,是用于描述實體屬性和屬性值的,由“信息項:信息內(nèi)容”組成,實體“蘋果”的基本信息欄,如圖 2-3 所示。百科中,被稱為是“消息盒(InfoBox)”。該項內(nèi)容是百科知識庫中為數(shù)不多化描述信息,能很大程度地展現(xiàn)知識庫中實體信息是否完整,它的基本結(jié)構(gòu)是“稱:屬性內(nèi)容”,其表述非常簡單,卻能通過逐個的詞語表征整個實體,并清晰實體的特點。這一項內(nèi)容在本文的研究中并不涉及,但是在對比實驗中有所使用
【參考文獻(xiàn)】:
期刊論文
[1]基于RNN的中文二分結(jié)構(gòu)句法分析[J]. 谷波,王瑞波,李濟(jì)洪,李國臣. 中文信息學(xué)報. 2019(01)
[2]中文分詞技術(shù)綜述[J]. 馮俐. 現(xiàn)代計算機(jī)(專業(yè)版). 2018(34)
[3]多層前向人工神經(jīng)網(wǎng)絡(luò)圖像分類算法[J]. 顧哲彬,曹飛龍. 計算機(jī)科學(xué). 2018(S2)
[4]異構(gòu)網(wǎng)絡(luò)中實體匹配算法綜述[J]. 李娜,金岡增,周曉旭,鄭建兵,高明. 華東師范大學(xué)學(xué)報(自然科學(xué)版). 2018(05)
[5]基于孿生卷積神經(jīng)網(wǎng)絡(luò)的人臉追蹤[J]. 吳漢釗. 計算機(jī)工程與應(yīng)用. 2018(14)
[6]基于改進(jìn)深度孿生網(wǎng)絡(luò)的分類器及其應(yīng)用[J]. 沈雁,王環(huán),戴瑜興. 計算機(jī)工程與應(yīng)用. 2018(10)
[7]數(shù)據(jù)質(zhì)量的歷史沿革和發(fā)展趨勢[J]. 蔡莉,梁宇,朱揚(yáng)勇,何婧. 計算機(jī)科學(xué). 2018(04)
[8]基于深度卷積-遞歸神經(jīng)網(wǎng)絡(luò)的手繪草圖識別方法[J]. 趙鵬,劉楊,劉慧婷,姚晟. 計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報. 2018(02)
[9]基于TF-IDF和余弦相似度的文本分類方法[J]. 武永亮,趙書良,李長鏡,魏娜娣,王子晏. 中文信息學(xué)報. 2017(05)
[10]基于隱私保護(hù)的大數(shù)據(jù)挖掘技術(shù)研究[J]. 蘇鵬沖,袁得崳,馬丁. 現(xiàn)代計算機(jī)(專業(yè)版). 2017(20)
碩士論文
[1]機(jī)器閱讀理解模型中的關(guān)鍵問題研究[D]. 李亞慧.哈爾濱工業(yè)大學(xué) 2018
[2]短文本流中主題模型及其應(yīng)用研究[D]. 趙玉琨.山東大學(xué) 2017
[3]面向關(guān)聯(lián)數(shù)據(jù)的實體對齊方法研究[D]. 李琳.北京化工大學(xué) 2017
[4]說話人識別情感合成問題的概率模型研究[D]. 陳昊.浙江大學(xué) 2016
[5]基于異構(gòu)中文百科數(shù)據(jù)的互聯(lián)語義知識庫構(gòu)建[D]. 牛星.上海交通大學(xué) 2013
[6]國內(nèi)維基類網(wǎng)絡(luò)百科研究[D]. 楊欣.武漢理工大學(xué) 2012
本文編號:3349265
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3349265.html
最近更新
教材專著