基于神經(jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合模型研究
發(fā)布時(shí)間:2021-02-06 12:02
隨著信息時(shí)代的到來(lái),網(wǎng)絡(luò)上的信息越來(lái)越呈現(xiàn)出指數(shù)形式爆發(fā)增長(zhǎng)的態(tài)勢(shì),在這其中,文本信息占據(jù)了相當(dāng)重要的組成部分,如何準(zhǔn)確高效的獲取知識(shí)成為亟待解決的問(wèn)題。實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合模型的主要目標(biāo)是同時(shí)從非結(jié)構(gòu)化的文本中抽取實(shí)體類別和它們之間的語(yǔ)義關(guān)系。作為自然語(yǔ)言處理技術(shù)的底層技術(shù),對(duì)于上層的應(yīng)用有著顯著的意義。本文圍繞著實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合模型進(jìn)行了深入的研究,主要工作內(nèi)容和階段成果如下:(1)復(fù)現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)的實(shí)體識(shí)別和關(guān)系抽取的聯(lián)合模型基線系統(tǒng),并對(duì)當(dāng)前模型可能存在的問(wèn)題進(jìn)行了討論。(2)提出了一種基于參數(shù)共享的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)-圖卷積神經(jīng)網(wǎng)絡(luò)的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。模型通過(guò)引入句法的圖卷積神經(jīng)網(wǎng)絡(luò),用于更好的抽取句子中的關(guān)系。在公開(kāi)數(shù)據(jù)集上,這個(gè)聯(lián)合模型取得了相較之前工作更好的性能。(3)提出了一種基于特殊標(biāo)注策略的融合自注意力機(jī)制的聯(lián)合模型,將信息抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),通過(guò)自注意力子層學(xué)習(xí)句子內(nèi)部的詞依賴關(guān)系,在公開(kāi)數(shù)據(jù)集上也取得了較好的表現(xiàn)。(4)初步搭建了基于實(shí)體識(shí)別關(guān)系抽取聯(lián)合模型的知識(shí)圖譜構(gòu)建系統(tǒng),實(shí)現(xiàn)了從非結(jié)構(gòu)化文本中抽取三元組的解決方案。
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-2加入窺孔機(jī)制的LSTM變體??24??
?S3??圖3-3抽取樣本中預(yù)測(cè)錯(cuò)誤樣本統(tǒng)計(jì)??由圖3-3可以發(fā)現(xiàn),相對(duì)來(lái)說(shuō)找到配的實(shí)體對(duì)是目前需要解決的問(wèn)題,在實(shí)??體對(duì)預(yù)測(cè)正確關(guān)系預(yù)測(cè)錯(cuò)誤的樣本較少,這和前面的實(shí)驗(yàn)結(jié)果是相一致的。???表3-4?實(shí)例分析???[Panama?City?Beach]?Elcontain?has?condos,?but?the?area?was?one?of?only??two?in?[Florida]?Elcontain?where?sales?rose?in?March?,?compared?with?a??year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??SPTi.ee??[Florida]?El?where?sales?rose?in?March?,?compai*ed?with?a?year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??BiLSTM+CNNs??[Florida]?E\?where?sales?rose?in?March?,?compared?with?a?year?earlier.??[Panama?City?Beach]?Elcontain?has?condos
圖4-1當(dāng)前標(biāo)注策略下的黃金標(biāo)注??現(xiàn)在己經(jīng)解決了訓(xùn)練數(shù)據(jù)標(biāo)注的問(wèn)題,下面將介紹如何從預(yù)測(cè)的標(biāo)簽得到最??終的結(jié)果。從圖4-1中可以看出,“Trump”和“United?States”在相同的關(guān)系類??別“0卩”中,“人?咖1加”和“316\他1?&111_1(^”在相同的關(guān)系類別“?”中。通?過(guò)連接相同關(guān)系類別的實(shí)體得到最終的結(jié)果!埃裕恚恚稹焙汀埃眨睿椋簦澹?States”可以??連接為一個(gè)關(guān)系為“Country-President”的三元組。因?yàn)椤埃裕颍酰恚稹痹陉P(guān)系角色??中的標(biāo)簽為“2”,而“UnitedStates”在關(guān)系角色中的標(biāo)簽為“1”,因此得到最終??白勺三元組{United?States,?Country-President,?Trump}?〇??如果一個(gè)句子中包含相同關(guān)系類別兩個(gè)或多個(gè)三元組,本文按照最近準(zhǔn)則將??每?jī)蓚(gè)實(shí)體轉(zhuǎn)成一個(gè)三元組!埃眨睿椋簦澹?States”最接近實(shí)體“Trump”,“AppleInc”??最接近“Jobs'?所以結(jié)果將是{United?States,Company-Founder,Trump}和{Apple??Inc,?Company?-?Founder,?Steven?Paul?Jobs}。??在本文中
【參考文獻(xiàn)】:
期刊論文
[1]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
博士論文
[1]短文本信息抽取若干技術(shù)研究[D]. 鄭立洲.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[2]漢語(yǔ)命名實(shí)體識(shí)別研究[D]. 江會(huì)星.北京郵電大學(xué) 2012
本文編號(hào):3020580
【文章來(lái)源】:北京郵電大學(xué)北京市 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:76 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖3-2加入窺孔機(jī)制的LSTM變體??24??
?S3??圖3-3抽取樣本中預(yù)測(cè)錯(cuò)誤樣本統(tǒng)計(jì)??由圖3-3可以發(fā)現(xiàn),相對(duì)來(lái)說(shuō)找到配的實(shí)體對(duì)是目前需要解決的問(wèn)題,在實(shí)??體對(duì)預(yù)測(cè)正確關(guān)系預(yù)測(cè)錯(cuò)誤的樣本較少,這和前面的實(shí)驗(yàn)結(jié)果是相一致的。???表3-4?實(shí)例分析???[Panama?City?Beach]?Elcontain?has?condos,?but?the?area?was?one?of?only??two?in?[Florida]?Elcontain?where?sales?rose?in?March?,?compared?with?a??year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??SPTi.ee??[Florida]?El?where?sales?rose?in?March?,?compai*ed?with?a?year?earlier.??[Panama?City?Beach]?E2?has?condos?,?but?the?area?was?one?of?only?two?in??BiLSTM+CNNs??[Florida]?E\?where?sales?rose?in?March?,?compared?with?a?year?earlier.??[Panama?City?Beach]?Elcontain?has?condos
圖4-1當(dāng)前標(biāo)注策略下的黃金標(biāo)注??現(xiàn)在己經(jīng)解決了訓(xùn)練數(shù)據(jù)標(biāo)注的問(wèn)題,下面將介紹如何從預(yù)測(cè)的標(biāo)簽得到最??終的結(jié)果。從圖4-1中可以看出,“Trump”和“United?States”在相同的關(guān)系類??別“0卩”中,“人?咖1加”和“316\他1?&111_1(^”在相同的關(guān)系類別“?”中。通?過(guò)連接相同關(guān)系類別的實(shí)體得到最終的結(jié)果!埃裕恚恚稹焙汀埃眨睿椋簦澹?States”可以??連接為一個(gè)關(guān)系為“Country-President”的三元組。因?yàn)椤埃裕颍酰恚稹痹陉P(guān)系角色??中的標(biāo)簽為“2”,而“UnitedStates”在關(guān)系角色中的標(biāo)簽為“1”,因此得到最終??白勺三元組{United?States,?Country-President,?Trump}?〇??如果一個(gè)句子中包含相同關(guān)系類別兩個(gè)或多個(gè)三元組,本文按照最近準(zhǔn)則將??每?jī)蓚(gè)實(shí)體轉(zhuǎn)成一個(gè)三元組!埃眨睿椋簦澹?States”最接近實(shí)體“Trump”,“AppleInc”??最接近“Jobs'?所以結(jié)果將是{United?States,Company-Founder,Trump}和{Apple??Inc,?Company?-?Founder,?Steven?Paul?Jobs}。??在本文中
【參考文獻(xiàn)】:
期刊論文
[1]知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 劉嶠,李楊,段宏,劉瑤,秦志光. 計(jì)算機(jī)研究與發(fā)展. 2016(03)
博士論文
[1]短文本信息抽取若干技術(shù)研究[D]. 鄭立洲.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[2]漢語(yǔ)命名實(shí)體識(shí)別研究[D]. 江會(huì)星.北京郵電大學(xué) 2012
本文編號(hào):3020580
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3020580.html
最近更新
教材專著