面向金融知識圖譜的實體和關(guān)系聯(lián)合抽取算法
發(fā)布時間:2021-06-20 08:37
在知識圖譜的構(gòu)建過程中,傳統(tǒng)方法先進行命名實體識別,再進行關(guān)系抽取,導(dǎo)致任務(wù)間關(guān)聯(lián)信息的丟失,而且忽略了實體間的重疊關(guān)系。為此,基于能識別重疊關(guān)系的Bi-LSTM+CRF模型,通過參數(shù)共享實現(xiàn)兩個任務(wù)聯(lián)合學(xué)習(xí),充分利用任務(wù)間聯(lián)系來優(yōu)化結(jié)果。公開數(shù)據(jù)集上的實驗結(jié)果表明:所提出模型在實體識別上取得了78. 4%的f1值,在非重疊關(guān)系和重疊關(guān)系的抽取上取得了50. 5%和45. 0%的f1值。為驗證該方法可后續(xù)用于金融知識圖譜構(gòu)建,提取了小型金融數(shù)據(jù)集來驗證其在金融數(shù)據(jù)上的泛化能力。
【文章來源】:重慶理工大學(xué)學(xué)報(自然科學(xué)). 2020,34(05)北大核心
【文章頁數(shù)】:11 頁
【部分圖文】:
LSTM結(jié)構(gòu)
在實體和關(guān)系聯(lián)合抽取的任務(wù)中,我們將句子映射到詞向量空間后輸入模型,使用雙向長短期記憶網(wǎng)絡(luò)捕捉句子中的語義信息,然后結(jié)合條件隨機場,對每個輸入句子得到預(yù)測的實體標(biāo)注序列,作為實體部分的輸出。我們將實體類型標(biāo)注結(jié)果變換后和長短期記憶網(wǎng)絡(luò)的輸入拼合在一起,作為關(guān)系分類器的輸入,分類器輸出的多維向量代表對每個標(biāo)注的實體對間可能存在的多種關(guān)系的預(yù)測,也就是關(guān)系部分的輸出。模型整體框架見圖1。2.1.2 實體識別模型
之后這一輸出被送入CRF層[19],其結(jié)構(gòu)示意如圖3所示。對于每一個輸入序列X=(x1,…,xn),當(dāng)前預(yù)測序列標(biāo)簽為y=(y1,…,yn),CRF對這個預(yù)測打分為
本文編號:3238859
【文章來源】:重慶理工大學(xué)學(xué)報(自然科學(xué)). 2020,34(05)北大核心
【文章頁數(shù)】:11 頁
【部分圖文】:
LSTM結(jié)構(gòu)
在實體和關(guān)系聯(lián)合抽取的任務(wù)中,我們將句子映射到詞向量空間后輸入模型,使用雙向長短期記憶網(wǎng)絡(luò)捕捉句子中的語義信息,然后結(jié)合條件隨機場,對每個輸入句子得到預(yù)測的實體標(biāo)注序列,作為實體部分的輸出。我們將實體類型標(biāo)注結(jié)果變換后和長短期記憶網(wǎng)絡(luò)的輸入拼合在一起,作為關(guān)系分類器的輸入,分類器輸出的多維向量代表對每個標(biāo)注的實體對間可能存在的多種關(guān)系的預(yù)測,也就是關(guān)系部分的輸出。模型整體框架見圖1。2.1.2 實體識別模型
之后這一輸出被送入CRF層[19],其結(jié)構(gòu)示意如圖3所示。對于每一個輸入序列X=(x1,…,xn),當(dāng)前預(yù)測序列標(biāo)簽為y=(y1,…,yn),CRF對這個預(yù)測打分為
本文編號:3238859
本文鏈接:http://www.sikaile.net/jingjilunwen/huobiyinxinglunwen/3238859.html
最近更新
教材專著