面向開放領域文本的實體關系抽取技術研究
發(fā)布時間:2021-08-04 13:41
面向開放領域文本的實體關系抽取是一項具有重要研究價值的自然語言處理任務,它的提出是為了從海量文本中高效準確地抽取有價值的實體關系信息。遠程監(jiān)督實體關系抽取方法利用遠程監(jiān)督假設來自動標注大量句子,在這些數(shù)據(jù)上構建模型,能夠有效地避免有監(jiān)督模型數(shù)據(jù)集規(guī)模過小、領域依賴性強的問題,因此更適用于開放領域文本。然而,由于標注數(shù)據(jù)中同時包含兩個實體的句子并不一定就表達了這兩個實體的關系,導致噪音句子的產(chǎn)生,給遠程監(jiān)督實體關系抽取模型帶來了挑戰(zhàn)。基于句子層面注意力機制的分段卷積神經(jīng)網(wǎng)絡(Piecewise Convolutional Neural Network With Sentence-level Attention,PCNN+ATT)模型是目前常用的遠程監(jiān)督關系抽取模型,它為句子分配權重以抑制噪音句子的干擾,但仍存在兩個不足。其一是采用PCNN模塊作為句子編碼器,所提取的特征僅包含局部的上下文信息,會導致語義信息的丟失;其二是忽略了詞語層面的注意力權重,會導致句子向量對句子語義的表達不夠準確。針對這兩個不足,本文提出了基于層次化注意力機制的雙向GRU(Hierarchical Attentio...
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
循環(huán)神經(jīng)網(wǎng)絡的基本結(jié)構
( ) ( ) 出,RNN 的輸出值 是受前面各個時刻的輸入值 、 值 包含了它們的信息,這正是 RNN 能夠具有長期記憶的失和梯度爆炸型的訓練最常用的優(yōu)化算法是隨時間反向傳播算法( )[33]-[34],首先在前向傳播后計算得到輸出值與實際值之間層級(輸入層 => 隱藏層 => 輸出層)梯度的縱向傳播和時的橫向傳播兩方面考慮,利用鏈式法則來計算誤差 關于參數(shù)優(yōu)化。
GRU網(wǎng)絡
【參考文獻】:
期刊論文
[1]實體關系抽取研究綜述[J]. 劉紹毓,李弼程,郭志剛,王波,陳剛. 信息工程大學學報. 2016(05)
[2]數(shù)據(jù)驅(qū)動的依存句法分析方法研究[J]. 李正華,李渝勤,劉挺,車萬翔. 智能計算機與應用. 2013(05)
本文編號:3321800
【文章來源】:華南理工大學廣東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:70 頁
【學位級別】:碩士
【部分圖文】:
循環(huán)神經(jīng)網(wǎng)絡的基本結(jié)構
( ) ( ) 出,RNN 的輸出值 是受前面各個時刻的輸入值 、 值 包含了它們的信息,這正是 RNN 能夠具有長期記憶的失和梯度爆炸型的訓練最常用的優(yōu)化算法是隨時間反向傳播算法( )[33]-[34],首先在前向傳播后計算得到輸出值與實際值之間層級(輸入層 => 隱藏層 => 輸出層)梯度的縱向傳播和時的橫向傳播兩方面考慮,利用鏈式法則來計算誤差 關于參數(shù)優(yōu)化。
GRU網(wǎng)絡
【參考文獻】:
期刊論文
[1]實體關系抽取研究綜述[J]. 劉紹毓,李弼程,郭志剛,王波,陳剛. 信息工程大學學報. 2016(05)
[2]數(shù)據(jù)驅(qū)動的依存句法分析方法研究[J]. 李正華,李渝勤,劉挺,車萬翔. 智能計算機與應用. 2013(05)
本文編號:3321800
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3321800.html
最近更新
教材專著