基于百科類語料的語義關系獲取研究
發(fā)布時間:2021-01-07 20:07
信息抽取是自然語言處理中的一個重要分支,主要包括命名實體識別和語義關系獲取等任務,是自然語言處理相關工作的基礎。實現(xiàn)信息抽取的傳統(tǒng)方式主要分為兩種,分別是基于規(guī)則的方法和基于統(tǒng)計的方法。其中基于規(guī)則的方法一般需要豐富的語言學知識,具有一定的局限性,而基于統(tǒng)計的方法雖然可以拜托對語言學知識的依賴,但是需要大量的人工標注工作,實現(xiàn)難度較高。近年來,深度學習的方法被廣泛應用在自然語言處理的各個領域中,深度學習不需要很強的語言學知識和大量的人工標注特征就可以自學習樣本特征,在信息抽取領域取得的結果已經超過了很多傳統(tǒng)方法。本文經過對基于深度學習的信息抽取研究進行了深入的學習和研究后發(fā)現(xiàn),目前的信息抽取方法還存在以下兩點不足:(1)在命名實體識別過程中,一般只考慮每個字或詞的上下文信息,對句法信息的關注程度不高,通過研究句法信息來提升命名實體識別模型的性能的研究比較少。(2)在語義關系獲取的相關研究中,一般側重對句子整體的研究,很少關注到句子的局部特征,導致關系獲取的效果不理想。針對以上兩點不足,本文設計了基于句法分析和深度學習的命名實體識別模型和基于多層注意力機制和雙向LSTM網絡的語義關系獲取...
【文章來源】:江蘇科技大學江蘇省
【文章頁數】:74 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內外相關領域研究現(xiàn)狀
1.2.1 國內外命名實體識別研究現(xiàn)狀
1.2.2 國內外實體關系獲取研究現(xiàn)狀
1.3 本文的主要工作
1.4 本文的組織結構安排
第2章 關鍵技術概述
2.1 文本預處理
2.1.1 中文分詞技術
2.1.2 停用詞處理
2.2 詞向量
2.2.1 離散表示
2.2.2 分布式表示
2.2.3 Word2vec
2.3 循環(huán)神經網絡
2.3.1 長短時記憶神經網絡
2.3.2 雙向長短時記憶神經網絡
2.3.3 門控循環(huán)單元
2.4 注意力機制
2.4.1 編碼-解碼模型
2.4.2 注意力機制
2.5 條件隨機場
2.5.1 命名實體識別的標簽體系
2.5.2 條件隨機場
2.6 本章小結
第3章 基于百科類語料的實體識別方法研究
3.1 數據預處理
3.1.1 數據源的選擇
3.1.2 數據獲取方法
3.2 句法分析
3.3 基于句法分析與深度學習的實體識別模型
3.3.1 詞向量層
3.3.2 句法分析層
3.3.3 雙向GRU層
3.3.4 Softmax層
3.3.5 CRF層
3.4 實驗結果與分析
3.4.1 實驗數據
3.4.2 實驗指標評價
3.4.3 參數設置
3.4.4 對比實驗分析
3.5 本章小結
第4章 基于多層注意力機制的實體關系抽取方法研究
4.1 融合特征的字向量表示
4.1.1 字向量
4.1.2 位置向量
4.2 注意力機制
4.2.1 字級注意力機制
4.2.2 句級注意力機制
4.3 結果分類
4.4 基于多層注意力機制與雙向LSTM的關系獲取模型
4.5 結果與分析
4.5.1 實驗數據
4.5.2 實驗指標評價
4.5.3 參數設置
4.5.4 實驗結果分析
4.5.5 對比試驗分析
4.6 本章小結
第5章 總結與展望
參考文獻
攻讀學位期間發(fā)表的論文
致謝
中文詳細摘要
【參考文獻】:
期刊論文
[1]基于CRF與規(guī)則相結合的中文電子病歷命名實體識別研究[J]. 翟菊葉,陳春燕,張鈺,陳玉娥,劉玉文. 包頭醫(yī)學院學報. 2017(11)
[2]基于多通道卷積神經網的實體關系抽取[J]. 肜博輝,付琨,黃宇,王洋. 計算機應用研究. 2017(03)
[3]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計算機科學. 2015(02)
[4]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[5]基于樹核函數的實體語義關系抽取方法研究[J]. 莊成龍,錢龍華,周國棟. 中文信息學報. 2009(01)
[6]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
[7]實體關系自動抽取[J]. 車萬翔,劉挺,李生. 中文信息學報. 2005(02)
碩士論文
[1]基于深度學習的命名實體識別研究[D]. 霍振朗.華南理工大學 2018
[2]基于深度學習的中文微博人物關系圖譜的研究與實現(xiàn)[D]. 王超.武漢郵電科學研究院 2018
[3]面向《大詞林》的中文實體關系挖掘[D]. 劉燊.哈爾濱工業(yè)大學 2016
[4]基于深度學習的中文命名實體識別研究[D]. 王國昱.北京工業(yè)大學 2015
本文編號:2963162
【文章來源】:江蘇科技大學江蘇省
【文章頁數】:74 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內外相關領域研究現(xiàn)狀
1.2.1 國內外命名實體識別研究現(xiàn)狀
1.2.2 國內外實體關系獲取研究現(xiàn)狀
1.3 本文的主要工作
1.4 本文的組織結構安排
第2章 關鍵技術概述
2.1 文本預處理
2.1.1 中文分詞技術
2.1.2 停用詞處理
2.2 詞向量
2.2.1 離散表示
2.2.2 分布式表示
2.2.3 Word2vec
2.3 循環(huán)神經網絡
2.3.1 長短時記憶神經網絡
2.3.2 雙向長短時記憶神經網絡
2.3.3 門控循環(huán)單元
2.4 注意力機制
2.4.1 編碼-解碼模型
2.4.2 注意力機制
2.5 條件隨機場
2.5.1 命名實體識別的標簽體系
2.5.2 條件隨機場
2.6 本章小結
第3章 基于百科類語料的實體識別方法研究
3.1 數據預處理
3.1.1 數據源的選擇
3.1.2 數據獲取方法
3.2 句法分析
3.3 基于句法分析與深度學習的實體識別模型
3.3.1 詞向量層
3.3.2 句法分析層
3.3.3 雙向GRU層
3.3.4 Softmax層
3.3.5 CRF層
3.4 實驗結果與分析
3.4.1 實驗數據
3.4.2 實驗指標評價
3.4.3 參數設置
3.4.4 對比實驗分析
3.5 本章小結
第4章 基于多層注意力機制的實體關系抽取方法研究
4.1 融合特征的字向量表示
4.1.1 字向量
4.1.2 位置向量
4.2 注意力機制
4.2.1 字級注意力機制
4.2.2 句級注意力機制
4.3 結果分類
4.4 基于多層注意力機制與雙向LSTM的關系獲取模型
4.5 結果與分析
4.5.1 實驗數據
4.5.2 實驗指標評價
4.5.3 參數設置
4.5.4 實驗結果分析
4.5.5 對比試驗分析
4.6 本章小結
第5章 總結與展望
參考文獻
攻讀學位期間發(fā)表的論文
致謝
中文詳細摘要
【參考文獻】:
期刊論文
[1]基于CRF與規(guī)則相結合的中文電子病歷命名實體識別研究[J]. 翟菊葉,陳春燕,張鈺,陳玉娥,劉玉文. 包頭醫(yī)學院學報. 2017(11)
[2]基于多通道卷積神經網的實體關系抽取[J]. 肜博輝,付琨,黃宇,王洋. 計算機應用研究. 2017(03)
[3]信息抽取研究綜述[J]. 郭喜躍,何婷婷. 計算機科學. 2015(02)
[4]中文分詞與詞性標注研究[J]. 梁喜濤,顧磊. 計算機技術與發(fā)展. 2015(02)
[5]基于樹核函數的實體語義關系抽取方法研究[J]. 莊成龍,錢龍華,周國棟. 中文信息學報. 2009(01)
[6]基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 俞鴻魁,張華平,劉群,呂學強,施水才. 通信學報. 2006(02)
[7]實體關系自動抽取[J]. 車萬翔,劉挺,李生. 中文信息學報. 2005(02)
碩士論文
[1]基于深度學習的命名實體識別研究[D]. 霍振朗.華南理工大學 2018
[2]基于深度學習的中文微博人物關系圖譜的研究與實現(xiàn)[D]. 王超.武漢郵電科學研究院 2018
[3]面向《大詞林》的中文實體關系挖掘[D]. 劉燊.哈爾濱工業(yè)大學 2016
[4]基于深度學習的中文命名實體識別研究[D]. 王國昱.北京工業(yè)大學 2015
本文編號:2963162
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/2963162.html
最近更新
教材專著