面向文本的空間信息抽取方法研究
發(fā)布時間:2021-06-17 17:25
文本中蘊含著大量空間信息,識別文本中的空間信息,對諸多自然語言處理任務有幫助,例如命名實體識別、自動問答、空間推理、自然語言理解等。ISO-Space是關于文本中空間信息的標注規(guī)范,包括空間元素和空間關系兩大類,其中空間元素是描述空間信息的基本單元,空間關系捕捉了空間元素的內在聯(lián)系。本文依據(jù)ISO-Space空間信息標注規(guī)范,將深度學習技術應用到空間信息抽取中,針對文本中的空間元素識別和空間關系抽取展開了研究,主要工作和貢獻如下:1.針對空間元素識別,本文將其建模為序列標注問題,提出基于BiLSTM-CNN的混合模型方法。方法在詞向量生成階段引入領域相關詞向量和字符特征,顯式地加入了空間相關詞匯的表達特點;在特征表示階段,融合BiLSTM的序列建模能力以及CNN的局部特征抽取能力,豐富句子的特征表示;最后采用條件隨機場進行標簽推理。在SpaceEval的空間元素識別評測任務中,該方法取得不錯的效果。2.由于空間標注數(shù)據(jù)相對缺乏,本文利用BERT預訓練語言模型,提出了基于BERT的空間元素識別方法。BERT預訓練語言模型通過大量的無監(jiān)督語料訓練得到,包含豐富的語義信息,同時,本文將語言模...
【文章來源】:南京大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
一l:B讓STM~CNN混合模型示意圖
條件隨機場上述推理方法沒有考慮上一個單詞的標簽情況,條件隨機場則??將相鄰單詞的標簽信息納入計算過程。假設我們的標簽個數(shù)是9,給定一個單??詞序列,,...,冰^經過特征表示層得到每個單詞的向量表示、,...,▽?,以及??標簽序列h?...,?,?,條件隨機場定義了一個全局分數(shù)C?e?R:??m?m-l??c{h,...,tm)?=?b[ti)?+?2v人?[々■]?+?I?r[4,4+1]?+e[tm]?(3-1)??k=l?k=\??=begin?+scores?+?transitions?+end?(3-2)??這里re?r9x9是標簽轉移矩陣,即如果上一個標簽是;c,下一個標簽是y??的概率,he?eR9用于補充起始單詞和結尾單詞取到對應標簽時的代價。轉移??矩陣r就是條件隨機場為什么能捕捉到相鄰單詞標簽的關鍵,圖(3-6X3-7)分??別說明了使用條件隨機場和直接選擇概率最大值的推理過程。圖(3-6)的推理??過程中,我們可以看到,條件隨機場選擇了一條PER-0-L0C的標簽序列,該??標簽序列的最終得分是31,而在圖(3-7)的推理過程中,每次都選擇的是概率??
?Is?York??圖3-5:簡單標簽推理示意圖??條件隨機場上述推理方法沒有考慮上一個單詞的標簽情況,條件隨機場則??將相鄰單詞的標簽信息納入計算過程。假設我們的標簽個數(shù)是9,給定一個單??詞序列,,...,冰^經過特征表示層得到每個單詞的向量表示、,...,▽?,以及??標簽序列h?...,?,?,條件隨機場定義了一個全局分數(shù)C?e?R:??m?m-l??c{h,...,tm)?=?b[ti)?+?2v人?[々■]?+?I?r[4,4+1]?+e[tm]?(3-1)??k=l?k=\??=begin?+scores?+?transitions?+end?(3-2)??這里re?r9x9是標簽轉移矩陣,即如果上一個標簽是;c,下一個標簽是y??的概率,he?eR9用于補充起始單詞和結尾單詞取到對應標簽時的代價。轉移??矩陣r就是條件隨機場為什么能捕捉到相鄰單詞標簽的關鍵
本文編號:3235609
【文章來源】:南京大學江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【部分圖文】:
一l:B讓STM~CNN混合模型示意圖
條件隨機場上述推理方法沒有考慮上一個單詞的標簽情況,條件隨機場則??將相鄰單詞的標簽信息納入計算過程。假設我們的標簽個數(shù)是9,給定一個單??詞序列,,...,冰^經過特征表示層得到每個單詞的向量表示、,...,▽?,以及??標簽序列h?...,?,?,條件隨機場定義了一個全局分數(shù)C?e?R:??m?m-l??c{h,...,tm)?=?b[ti)?+?2v人?[々■]?+?I?r[4,4+1]?+e[tm]?(3-1)??k=l?k=\??=begin?+scores?+?transitions?+end?(3-2)??這里re?r9x9是標簽轉移矩陣,即如果上一個標簽是;c,下一個標簽是y??的概率,he?eR9用于補充起始單詞和結尾單詞取到對應標簽時的代價。轉移??矩陣r就是條件隨機場為什么能捕捉到相鄰單詞標簽的關鍵,圖(3-6X3-7)分??別說明了使用條件隨機場和直接選擇概率最大值的推理過程。圖(3-6)的推理??過程中,我們可以看到,條件隨機場選擇了一條PER-0-L0C的標簽序列,該??標簽序列的最終得分是31,而在圖(3-7)的推理過程中,每次都選擇的是概率??
?Is?York??圖3-5:簡單標簽推理示意圖??條件隨機場上述推理方法沒有考慮上一個單詞的標簽情況,條件隨機場則??將相鄰單詞的標簽信息納入計算過程。假設我們的標簽個數(shù)是9,給定一個單??詞序列,,...,冰^經過特征表示層得到每個單詞的向量表示、,...,▽?,以及??標簽序列h?...,?,?,條件隨機場定義了一個全局分數(shù)C?e?R:??m?m-l??c{h,...,tm)?=?b[ti)?+?2v人?[々■]?+?I?r[4,4+1]?+e[tm]?(3-1)??k=l?k=\??=begin?+scores?+?transitions?+end?(3-2)??這里re?r9x9是標簽轉移矩陣,即如果上一個標簽是;c,下一個標簽是y??的概率,he?eR9用于補充起始單詞和結尾單詞取到對應標簽時的代價。轉移??矩陣r就是條件隨機場為什么能捕捉到相鄰單詞標簽的關鍵
本文編號:3235609
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3235609.html
最近更新
教材專著