基于生物醫(yī)學(xué)詞典的實體表示及其應(yīng)用研究
發(fā)布時間:2022-09-29 13:51
隨著計算機(jī)技術(shù)和生物技術(shù)的高速發(fā)展,生物醫(yī)學(xué)文獻(xiàn)正以指數(shù)方式增長。面對這些海量數(shù)據(jù),研究人員迫切希望揭示蘊(yùn)含于其中的生物醫(yī)學(xué)知識,這一需求推動了生物醫(yī)學(xué)文本挖掘技術(shù)的產(chǎn)生與發(fā)展。命名實體識別和鏈接作為其中的一項重要研究,旨在從文本中識別出生物醫(yī)學(xué)實體并將它們映射為唯一的實體標(biāo)識符。實體識別和鏈接研究是關(guān)系抽取、信息檢索、知識庫自動填充等任務(wù)的首要步驟,具有重要的研究意義。生物醫(yī)學(xué)領(lǐng)域存在豐富的詞典資源,能夠作為數(shù)據(jù)驅(qū)動方法的補(bǔ)充,建模數(shù)據(jù)背后隱含的關(guān)聯(lián)邏輯。本文深入探索生物醫(yī)學(xué)詞典中的實體名信息、實體描述信息以及實體結(jié)構(gòu)信息的表示方法,重點研究基于實體知識表示的生物醫(yī)學(xué)實體識別和鏈接任務(wù),主要研究內(nèi)容如下:研究基于生物醫(yī)學(xué)詞典和語言模型相結(jié)合的實體識別。分別通過字符匹配和n元匹配算法抽取實體名的詞典特征,并映射為低維向量表示。同時,利用語言模型獲取上下文特征。探究上述特征表示的組合對實體識別性能的影響。實驗表明,詞典特征表示有助于生物醫(yī)學(xué)實體的識別,而語言模型的加入能夠進(jìn)一步提高識別的性能。研究基于實體描述文本的實體表示,用于生物醫(yī)學(xué)實體鏈接。抽取詞典中實體的描述文本,基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)...
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究內(nèi)容及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 實體識別研究現(xiàn)狀
1.2.2 實體鏈接研究現(xiàn)狀
1.3 生物醫(yī)學(xué)實體識別和鏈接語料庫
1.4 評測指標(biāo)
1.5 生物醫(yī)學(xué)詞典介紹
1.6 本文主要工作
1.7 本文組織結(jié)構(gòu)
2 關(guān)鍵技術(shù)概述
2.1 語言模型與詞向量
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.3 長短時記憶網(wǎng)絡(luò)
2.4 Transformer
2.5 注意力機(jī)制
2.6 自動編碼機(jī)
2.7 本章小結(jié)
3 基于語義信息的藥物疾病關(guān)系抽取
3.1 基于生物醫(yī)學(xué)詞典的實體識別系統(tǒng)
3.1.1 數(shù)據(jù)預(yù)處理
3.1.2 特征抽取
3.1.3 語言模型
3.1.4 實體識別
3.1.5 后處理
3.2 實驗與分析
3.2.1 實驗設(shè)置
3.2.2 生物醫(yī)學(xué)實體識別模型架構(gòu)實驗
3.2.3 特征表示在生物醫(yī)學(xué)實體識別模型的性能分析
3.2.4 與相關(guān)研究比較
3.3 本章小結(jié)
4 基于實體描述文本的生物醫(yī)學(xué)實體鏈接
4.1 基于實體描述文本的生物醫(yī)學(xué)實體鏈接系統(tǒng)
4.1.1 候選生成
4.1.2 候選排序
4.2 實驗與分析
4.2.1 文本編碼器對實體鏈接性能的影響
4.2.2 融合層對實體鏈接性能的影響
4.3 本章小結(jié)
5 基于實體結(jié)構(gòu)信息的生物醫(yī)學(xué)實體鏈接
5.1 基于實體結(jié)構(gòu)信息的生物醫(yī)學(xué)實體鏈接系統(tǒng)
5.1.1 實體結(jié)構(gòu)信息
5.1.2 基于自動編碼機(jī)的實體表示學(xué)習(xí)
5.1.3 實體消歧模型改進(jìn)
5.2 實驗與分析
5.2.1 文本編碼器對實體鏈接性能的影響
5.2.2 融合層對實體鏈接性能的影響
5.2.3 實體知識對實體鏈接性能的影響
5.2.4 與相關(guān)研究的對比
5.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號:3682712
【文章頁數(shù)】:71 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究內(nèi)容及意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 實體識別研究現(xiàn)狀
1.2.2 實體鏈接研究現(xiàn)狀
1.3 生物醫(yī)學(xué)實體識別和鏈接語料庫
1.4 評測指標(biāo)
1.5 生物醫(yī)學(xué)詞典介紹
1.6 本文主要工作
1.7 本文組織結(jié)構(gòu)
2 關(guān)鍵技術(shù)概述
2.1 語言模型與詞向量
2.2 卷積神經(jīng)網(wǎng)絡(luò)
2.3 長短時記憶網(wǎng)絡(luò)
2.4 Transformer
2.5 注意力機(jī)制
2.6 自動編碼機(jī)
2.7 本章小結(jié)
3 基于語義信息的藥物疾病關(guān)系抽取
3.1 基于生物醫(yī)學(xué)詞典的實體識別系統(tǒng)
3.1.1 數(shù)據(jù)預(yù)處理
3.1.2 特征抽取
3.1.3 語言模型
3.1.4 實體識別
3.1.5 后處理
3.2 實驗與分析
3.2.1 實驗設(shè)置
3.2.2 生物醫(yī)學(xué)實體識別模型架構(gòu)實驗
3.2.3 特征表示在生物醫(yī)學(xué)實體識別模型的性能分析
3.2.4 與相關(guān)研究比較
3.3 本章小結(jié)
4 基于實體描述文本的生物醫(yī)學(xué)實體鏈接
4.1 基于實體描述文本的生物醫(yī)學(xué)實體鏈接系統(tǒng)
4.1.1 候選生成
4.1.2 候選排序
4.2 實驗與分析
4.2.1 文本編碼器對實體鏈接性能的影響
4.2.2 融合層對實體鏈接性能的影響
4.3 本章小結(jié)
5 基于實體結(jié)構(gòu)信息的生物醫(yī)學(xué)實體鏈接
5.1 基于實體結(jié)構(gòu)信息的生物醫(yī)學(xué)實體鏈接系統(tǒng)
5.1.1 實體結(jié)構(gòu)信息
5.1.2 基于自動編碼機(jī)的實體表示學(xué)習(xí)
5.1.3 實體消歧模型改進(jìn)
5.2 實驗與分析
5.2.1 文本編碼器對實體鏈接性能的影響
5.2.2 融合層對實體鏈接性能的影響
5.2.3 實體知識對實體鏈接性能的影響
5.2.4 與相關(guān)研究的對比
5.3 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況
致謝
本文編號:3682712
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3682712.html
最近更新
教材專著