基于知識(shí)圖譜的實(shí)體標(biāo)簽可視化
發(fā)布時(shí)間:2020-12-19 12:30
針對(duì)實(shí)體理解中實(shí)體識(shí)別問題,傳統(tǒng)的實(shí)體標(biāo)簽方法致力于在不同實(shí)體中找到其獨(dú)特特征。為了便于理解知識(shí)圖譜(KG)中每個(gè)實(shí)體的區(qū)分性,提出了一種基于KG的實(shí)體標(biāo)簽方法來識(shí)別出獨(dú)特的實(shí)體特征,通過HAS模型衡量了特征的區(qū)分性。HAS模型是一種可擴(kuò)展的表示學(xué)習(xí)模型,用于生成多模式實(shí)體嵌入。最后,評(píng)估了真實(shí)KG生成的實(shí)體標(biāo)簽質(zhì)量,結(jié)果表明該方法有助于人們理解KG中的實(shí)體。
【文章來源】:指揮信息系統(tǒng)與技術(shù). 2020年03期
【文章頁數(shù)】:9 頁
【部分圖文】:
3種路徑查找策略徑
指揮信息系統(tǒng)與技術(shù)2020年6月指通過提取一個(gè)簡明的摘要來縮短冗長的實(shí)體描述,并在摘要中保留重要信息。雖然摘要能夠幫助用戶快速理解實(shí)體,但僅依靠摘要來理解實(shí)體仍很困難,區(qū)分實(shí)體的問題仍未解決。由于實(shí)體摘要只包含了實(shí)體本身的“局部”信息,缺少了體現(xiàn)實(shí)體相對(duì)于其他實(shí)體唯一性的“全局”信息,實(shí)體的區(qū)分性無法在摘要中表現(xiàn)出來。本文提出用一種抽象方法來描述KG中的實(shí)體,通過圖分析,從KG中提取出能夠體現(xiàn)實(shí)體獨(dú)特特征的結(jié)構(gòu)化標(biāo)簽。實(shí)體標(biāo)簽可視化示例如圖1所示,給出了用本文方法生成的2個(gè)實(shí)體標(biāo)簽可視化示例。圖1(a)中實(shí)體是定義在電影知識(shí)圖譜LinkedMDB(http://www.linkedmdb.org/)中的電影實(shí)體Léon;圖1(b)中實(shí)體是定義在DBpedia[4]中的一個(gè)樂隊(duì)實(shí)體BeastieBoys。每個(gè)實(shí)體有5個(gè)標(biāo)簽,每個(gè)標(biāo)簽從KG中提取,并用綠色標(biāo)注,其中,“≠80%”表明該實(shí)體在該特征上與其他80%的電影或樂隊(duì)不同;“>60%”或“<95%”表明該實(shí)體在該特征上與其他電影或樂隊(duì)相比,具有比60%更大或比95%更小的值。本文主要開展了以下工作:1)提出了KG中的實(shí)體標(biāo)簽可視化問題,并提供了解決方案;2)知識(shí)圖譜提出了一種具有可擴(kuò)展性多模式表示學(xué)習(xí)模型——HAS模型,能夠高效查找出KG中最具區(qū)分性的標(biāo)簽;3)對(duì)本文方法進(jìn)行了全面的試驗(yàn)研究。內(nèi)部試驗(yàn)和外部試驗(yàn)均表明,該方法能幫助人們理解實(shí)體的區(qū)分性。2相關(guān)工作近年來,實(shí)體標(biāo)簽化逐漸受到學(xué)術(shù)界的關(guān)注,但總體上還未得到充分研究。文獻(xiàn)[5]引入了實(shí)體標(biāo)簽方法來描述真實(shí)世界的實(shí)體,這些實(shí)體能夠以不同方式用重疊的信息來描述。文獻(xiàn)[6]引入了語料庫來
性值標(biāo)簽(Attributivevaluelabels),其中標(biāo)簽的值不是一個(gè)區(qū)間,而是具體值,如<人,性別,“女”>;RAL指關(guān)系屬性標(biāo)簽(Relationalattributivelabels),表明某類實(shí)體與其他具有具體屬性的實(shí)體間存在聯(lián)系,如標(biāo)簽<導(dǎo)演,拍攝,<電影,評(píng)分,[8.0,9.0]>>描述了拍高分電影的導(dǎo)演;REL(Relationalentitylabels)指某類實(shí)體與一個(gè)具體的實(shí)體有聯(lián)系,如iPhone、iPad和其他蘋果產(chǎn)品均為帶有標(biāo)簽<產(chǎn)品,生產(chǎn)商,蘋果公司>的實(shí)體。本文實(shí)體標(biāo)簽可視化流程如圖2所示。首先,給定一個(gè)知識(shí)圖譜作為輸入,所有可能的標(biāo)簽都會(huì)自動(dòng)枚舉到一個(gè)標(biāo)簽池中,但枚舉可能產(chǎn)生大量候選標(biāo)簽,通過候選過濾器將這些候選標(biāo)簽進(jìn)行初步的啟發(fā)式過濾,丟棄其不具備區(qū)分性的特征;然后,每個(gè)候選標(biāo)簽由獨(dú)特性評(píng)估器進(jìn)行徹底檢查,用HAS模型來衡量正例和負(fù)例間的差異性,只有具有區(qū)分性的標(biāo)簽留在標(biāo)簽集中,本文使用重排序來減少標(biāo)簽空間中的冗余;最后,將標(biāo)簽可視化輸出。本文將正例定義為符合該標(biāo)簽的實(shí)體;負(fù)例定義為不符合該標(biāo)簽的實(shí)體。3.2構(gòu)建候選標(biāo)簽池在無先驗(yàn)知識(shí)情況下,通過自動(dòng)化生成標(biāo)簽方式從KG中暴力枚舉出所有標(biāo)簽。通過枚舉所有屬性和屬性值的組合或關(guān)系和實(shí)體的組合可以直接生成候選AVL和REL標(biāo)簽,而候選AIL和RAL標(biāo)簽的生成較復(fù)雜。例如,給定一個(gè)三元組<ForrestGump,rating,8.3>,僅簡單生成候選標(biāo)簽<Film,rating,8.3>是毫無意義的,因?yàn)樵摌?biāo)簽過于特殊,幾乎無法表明其他電影的特征。在本文方法中,將屬性的連續(xù)值生成為包含該值的一個(gè)更廣泛的區(qū)間。<Film,rating,[8.0,9.0]>優(yōu)于<Film,rating,8.3>,這是因?yàn)榍罢吒艽?
【參考文獻(xiàn)】:
期刊論文
[1]一種基于密度分布函數(shù)聚類的屬性離散化方法[J]. 李興生,李德毅. 系統(tǒng)仿真學(xué)報(bào). 2003(06)
本文編號(hào):2925905
【文章來源】:指揮信息系統(tǒng)與技術(shù). 2020年03期
【文章頁數(shù)】:9 頁
【部分圖文】:
3種路徑查找策略徑
指揮信息系統(tǒng)與技術(shù)2020年6月指通過提取一個(gè)簡明的摘要來縮短冗長的實(shí)體描述,并在摘要中保留重要信息。雖然摘要能夠幫助用戶快速理解實(shí)體,但僅依靠摘要來理解實(shí)體仍很困難,區(qū)分實(shí)體的問題仍未解決。由于實(shí)體摘要只包含了實(shí)體本身的“局部”信息,缺少了體現(xiàn)實(shí)體相對(duì)于其他實(shí)體唯一性的“全局”信息,實(shí)體的區(qū)分性無法在摘要中表現(xiàn)出來。本文提出用一種抽象方法來描述KG中的實(shí)體,通過圖分析,從KG中提取出能夠體現(xiàn)實(shí)體獨(dú)特特征的結(jié)構(gòu)化標(biāo)簽。實(shí)體標(biāo)簽可視化示例如圖1所示,給出了用本文方法生成的2個(gè)實(shí)體標(biāo)簽可視化示例。圖1(a)中實(shí)體是定義在電影知識(shí)圖譜LinkedMDB(http://www.linkedmdb.org/)中的電影實(shí)體Léon;圖1(b)中實(shí)體是定義在DBpedia[4]中的一個(gè)樂隊(duì)實(shí)體BeastieBoys。每個(gè)實(shí)體有5個(gè)標(biāo)簽,每個(gè)標(biāo)簽從KG中提取,并用綠色標(biāo)注,其中,“≠80%”表明該實(shí)體在該特征上與其他80%的電影或樂隊(duì)不同;“>60%”或“<95%”表明該實(shí)體在該特征上與其他電影或樂隊(duì)相比,具有比60%更大或比95%更小的值。本文主要開展了以下工作:1)提出了KG中的實(shí)體標(biāo)簽可視化問題,并提供了解決方案;2)知識(shí)圖譜提出了一種具有可擴(kuò)展性多模式表示學(xué)習(xí)模型——HAS模型,能夠高效查找出KG中最具區(qū)分性的標(biāo)簽;3)對(duì)本文方法進(jìn)行了全面的試驗(yàn)研究。內(nèi)部試驗(yàn)和外部試驗(yàn)均表明,該方法能幫助人們理解實(shí)體的區(qū)分性。2相關(guān)工作近年來,實(shí)體標(biāo)簽化逐漸受到學(xué)術(shù)界的關(guān)注,但總體上還未得到充分研究。文獻(xiàn)[5]引入了實(shí)體標(biāo)簽方法來描述真實(shí)世界的實(shí)體,這些實(shí)體能夠以不同方式用重疊的信息來描述。文獻(xiàn)[6]引入了語料庫來
性值標(biāo)簽(Attributivevaluelabels),其中標(biāo)簽的值不是一個(gè)區(qū)間,而是具體值,如<人,性別,“女”>;RAL指關(guān)系屬性標(biāo)簽(Relationalattributivelabels),表明某類實(shí)體與其他具有具體屬性的實(shí)體間存在聯(lián)系,如標(biāo)簽<導(dǎo)演,拍攝,<電影,評(píng)分,[8.0,9.0]>>描述了拍高分電影的導(dǎo)演;REL(Relationalentitylabels)指某類實(shí)體與一個(gè)具體的實(shí)體有聯(lián)系,如iPhone、iPad和其他蘋果產(chǎn)品均為帶有標(biāo)簽<產(chǎn)品,生產(chǎn)商,蘋果公司>的實(shí)體。本文實(shí)體標(biāo)簽可視化流程如圖2所示。首先,給定一個(gè)知識(shí)圖譜作為輸入,所有可能的標(biāo)簽都會(huì)自動(dòng)枚舉到一個(gè)標(biāo)簽池中,但枚舉可能產(chǎn)生大量候選標(biāo)簽,通過候選過濾器將這些候選標(biāo)簽進(jìn)行初步的啟發(fā)式過濾,丟棄其不具備區(qū)分性的特征;然后,每個(gè)候選標(biāo)簽由獨(dú)特性評(píng)估器進(jìn)行徹底檢查,用HAS模型來衡量正例和負(fù)例間的差異性,只有具有區(qū)分性的標(biāo)簽留在標(biāo)簽集中,本文使用重排序來減少標(biāo)簽空間中的冗余;最后,將標(biāo)簽可視化輸出。本文將正例定義為符合該標(biāo)簽的實(shí)體;負(fù)例定義為不符合該標(biāo)簽的實(shí)體。3.2構(gòu)建候選標(biāo)簽池在無先驗(yàn)知識(shí)情況下,通過自動(dòng)化生成標(biāo)簽方式從KG中暴力枚舉出所有標(biāo)簽。通過枚舉所有屬性和屬性值的組合或關(guān)系和實(shí)體的組合可以直接生成候選AVL和REL標(biāo)簽,而候選AIL和RAL標(biāo)簽的生成較復(fù)雜。例如,給定一個(gè)三元組<ForrestGump,rating,8.3>,僅簡單生成候選標(biāo)簽<Film,rating,8.3>是毫無意義的,因?yàn)樵摌?biāo)簽過于特殊,幾乎無法表明其他電影的特征。在本文方法中,將屬性的連續(xù)值生成為包含該值的一個(gè)更廣泛的區(qū)間。<Film,rating,[8.0,9.0]>優(yōu)于<Film,rating,8.3>,這是因?yàn)榍罢吒艽?
【參考文獻(xiàn)】:
期刊論文
[1]一種基于密度分布函數(shù)聚類的屬性離散化方法[J]. 李興生,李德毅. 系統(tǒng)仿真學(xué)報(bào). 2003(06)
本文編號(hào):2925905
本文鏈接:http://www.sikaile.net/tushudanganlunwen/2925905.html
最近更新
教材專著