基于深度學(xué)習(xí)的中文人物關(guān)系抽取研究
發(fā)布時(shí)間:2023-09-17 17:51
隨著科學(xué)技術(shù)的不斷革新,互聯(lián)網(wǎng)上的信息正以一種前所未有的速度增長,人類正式進(jìn)入“大數(shù)據(jù)”時(shí)代。當(dāng)前互聯(lián)網(wǎng)上的信息主要以文本的形式存在,面對海量的文本,人們通常無法快速獲取有價(jià)值的信息,而通過信息抽取技術(shù)可以解決這個(gè)問題。針對于文本數(shù)據(jù),信息抽取技術(shù)能夠?qū)⒎墙Y(jié)構(gòu)化信息轉(zhuǎn)化為結(jié)構(gòu)化信息,然后將其以統(tǒng)一的形式集成。關(guān)系抽取是信息抽取的核心任務(wù),通過關(guān)系抽取可以從文本中識(shí)別出實(shí)體并抽取實(shí)體之間的語義關(guān)系,從而用于搜索、問答、推理等上層應(yīng)用。近年來,人物關(guān)系抽取成為業(yè)界的研究熱點(diǎn)之一,該任務(wù)將實(shí)體類型限定為人物,從文本中識(shí)別出人物實(shí)體并建立人物之間的語義關(guān)系,進(jìn)而構(gòu)建人物關(guān)系網(wǎng)絡(luò),該網(wǎng)絡(luò)可用于人物關(guān)系展示、人際關(guān)系挖掘、社交網(wǎng)絡(luò)分析等應(yīng)用。目前已經(jīng)有一些學(xué)者進(jìn)行了中文人物關(guān)系抽取的相關(guān)研究,但仍然存在兩類不足。一是公開的中文人物關(guān)系抽取標(biāo)注數(shù)據(jù)集匱乏,難以獲得大量的中文標(biāo)注語料,目前常用的方法是通過遠(yuǎn)程監(jiān)督的方式來自動(dòng)構(gòu)建大量標(biāo)注數(shù)據(jù)集,雖然這種方法能解決標(biāo)注問題,但也會(huì)引入大量的噪聲數(shù)據(jù),降低人物關(guān)系抽取任務(wù)的性能。二是當(dāng)前中文人物關(guān)系抽取任務(wù)大多采用傳統(tǒng)機(jī)器學(xué)習(xí)的方法,導(dǎo)致模型過度依賴特征工...
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 研究概述
1.1 選題背景及意義
1.2 研究現(xiàn)狀及不足
1.3 本文研究內(nèi)容及主要貢獻(xiàn)
1.4 論文組織結(jié)構(gòu)
2 基礎(chǔ)知識(shí)及相關(guān)工作
2.1 基礎(chǔ)知識(shí)
2.1.1 中文分詞
2.1.2 詞向量
2.1.3 注意力機(jī)制
2.1.4 深度學(xué)習(xí)其他相關(guān)技術(shù)
2.2 關(guān)系抽取相關(guān)工作
2.3 遠(yuǎn)程監(jiān)督相關(guān)工作
2.4 去噪研究相關(guān)工作
2.5 本章小結(jié)
3 數(shù)據(jù)采集與預(yù)處理
3.1 中文語料獲取與預(yù)處理
3.1.1 數(shù)據(jù)來源介紹
3.1.2 中文語料獲取流程
3.1.3 中文語料預(yù)處理
3.2 遠(yuǎn)程監(jiān)督標(biāo)注流程
3.3 數(shù)據(jù)集分布情況
3.4 本章小結(jié)
4 基于深度學(xué)習(xí)的中文人物關(guān)系抽取
4.1 卷積神經(jīng)網(wǎng)絡(luò)模型
4.2 基于分段的卷積神經(jīng)網(wǎng)絡(luò)模型
4.3 基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)模型
4.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)
4.3.2 基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)模型
4.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
4.4.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
4.4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.5 本章小結(jié)
5 基于深度學(xué)習(xí)的中文人物關(guān)系抽取模型優(yōu)化
5.1 基于閱讀理解模型的去噪方法
5.1.1 閱讀理解模型介紹
5.1.2 BERT模型原理
5.1.3 基于BERT的閱讀理解模型
5.2 基于多分類器投票的優(yōu)化方法
5.2.1 集成學(xué)習(xí)概述
5.2.2 相關(guān)性分析
5.2.3 多分類器投票流程
5.2.4 多分類器投票優(yōu)化
5.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
5.3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
5.3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3847866
【文章頁數(shù)】:67 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 研究概述
1.1 選題背景及意義
1.2 研究現(xiàn)狀及不足
1.3 本文研究內(nèi)容及主要貢獻(xiàn)
1.4 論文組織結(jié)構(gòu)
2 基礎(chǔ)知識(shí)及相關(guān)工作
2.1 基礎(chǔ)知識(shí)
2.1.1 中文分詞
2.1.2 詞向量
2.1.3 注意力機(jī)制
2.1.4 深度學(xué)習(xí)其他相關(guān)技術(shù)
2.2 關(guān)系抽取相關(guān)工作
2.3 遠(yuǎn)程監(jiān)督相關(guān)工作
2.4 去噪研究相關(guān)工作
2.5 本章小結(jié)
3 數(shù)據(jù)采集與預(yù)處理
3.1 中文語料獲取與預(yù)處理
3.1.1 數(shù)據(jù)來源介紹
3.1.2 中文語料獲取流程
3.1.3 中文語料預(yù)處理
3.2 遠(yuǎn)程監(jiān)督標(biāo)注流程
3.3 數(shù)據(jù)集分布情況
3.4 本章小結(jié)
4 基于深度學(xué)習(xí)的中文人物關(guān)系抽取
4.1 卷積神經(jīng)網(wǎng)絡(luò)模型
4.2 基于分段的卷積神經(jīng)網(wǎng)絡(luò)模型
4.3 基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)模型
4.3.1 循環(huán)神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)
4.3.2 基于注意力機(jī)制的雙向長短期記憶網(wǎng)絡(luò)模型
4.4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.4.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
4.4.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
4.4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
4.5 本章小結(jié)
5 基于深度學(xué)習(xí)的中文人物關(guān)系抽取模型優(yōu)化
5.1 基于閱讀理解模型的去噪方法
5.1.1 閱讀理解模型介紹
5.1.2 BERT模型原理
5.1.3 基于BERT的閱讀理解模型
5.2 基于多分類器投票的優(yōu)化方法
5.2.1 集成學(xué)習(xí)概述
5.2.2 相關(guān)性分析
5.2.3 多分類器投票流程
5.2.4 多分類器投票優(yōu)化
5.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.3.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)
5.3.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
5.3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
5.4 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
本文編號(hào):3847866
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3847866.html
最近更新
教材專著