基于BERT嵌入和殘差連接的中文電子病歷命名實(shí)體識(shí)別研究
發(fā)布時(shí)間:2021-03-01 10:22
隨著IT技術(shù)和醫(yī)療信息化的不斷發(fā)展,電子病歷(Electronic Medical Records,EMR)逐漸取代了紙質(zhì)病歷而被應(yīng)用于眾多醫(yī)院,成為醫(yī)院信息系統(tǒng)的核心。在醫(yī)院的現(xiàn)代化管理當(dāng)中,電子病歷不僅起到了高效便利的作用,而且也是科研以及醫(yī)療的第一手資料。但是由于電子病歷醫(yī)療數(shù)據(jù)規(guī)模龐大以及復(fù)雜,導(dǎo)致醫(yī)療文本內(nèi)的有效信息并沒有得到充分的挖掘。于是,作為自然語言處理技術(shù)之一的命名實(shí)體識(shí)別(Named Entity Recognition,NER)被引入其中。命名實(shí)體識(shí)別已被廣泛的應(yīng)用于信息抽取、智能問答、句法分析、機(jī)器翻譯等領(lǐng)域。它成為了各領(lǐng)域人員關(guān)注的重點(diǎn)。雖然命名實(shí)體識(shí)別已經(jīng)發(fā)展了很長一段時(shí)間,但是其識(shí)別的效果在部分領(lǐng)域仍然沒有滿足需求。其表現(xiàn)為,傳統(tǒng)的命名實(shí)體識(shí)別方法太依賴于人工特征,需要較高人力和時(shí)間成本。有鑒于此,本文引入時(shí)下流行的深度學(xué)習(xí)序列標(biāo)注模型——BiLSTM-CRF模型來作為基準(zhǔn)模型,并基于此模型來進(jìn)行改進(jìn),以便更好的應(yīng)用在中文電子病歷命名實(shí)體識(shí)別當(dāng)中。本文研究內(nèi)容主要圍繞以下三個(gè)方面:(1)針對國內(nèi)對于公開的中文電子病歷數(shù)據(jù)嚴(yán)重缺乏和高質(zhì)量中文電子病歷標(biāo)注數(shù)據(jù)...
【文章來源】:浙江工商大學(xué)浙江省
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
線性鏈條件隨機(jī)場
基于對抗的深度遷移學(xué)習(xí)
基于BERT嵌入和殘差連接的中文電子病歷命名實(shí)體識(shí)別研究16圖2.3基于預(yù)訓(xùn)練的深度遷移學(xué)習(xí)詞向量不僅表達(dá)詞自己的意思特征,還會(huì)表達(dá)相關(guān)詞之間的聯(lián)系,即每個(gè)詞不再是獨(dú)立的個(gè)體而是相互之間含有聯(lián)系。而借助預(yù)訓(xùn)練技術(shù)用大量數(shù)據(jù)進(jìn)行語言模型預(yù)訓(xùn)練,能夠很好的去提取大量數(shù)據(jù)當(dāng)中的語義特征,這樣的話在下游任務(wù)當(dāng)中能夠起到很好的提升作用。在對于某些特殊領(lǐng)域的數(shù)據(jù)集相對較少且標(biāo)注成本過高的情況下,通過預(yù)訓(xùn)練得到的語義表征將會(huì)對我們指定領(lǐng)域任務(wù)的特征起到補(bǔ)充的作用,進(jìn)而使任務(wù)的性能得到提升。相關(guān)研究證明,通過對語言模型進(jìn)行預(yù)訓(xùn)練然后作用在下游任務(wù)模型不僅能夠在少量標(biāo)注數(shù)據(jù)集上使得性能得到一定的提升,并且可以加快模型的收斂速度。2.4評價(jià)標(biāo)準(zhǔn)不同模型對命名實(shí)體識(shí)別的效果來進(jìn)行比較需要一個(gè)評價(jià)標(biāo)準(zhǔn),因此在MUC-6的會(huì)議當(dāng)中提出準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值(F1-Score)來進(jìn)行估計(jì)。(1)準(zhǔn)確率P(Precision)如公式(2-15)所示,=3u3uHvu (2-15)其中,TP(truepositive)表示正確識(shí)別出的命名實(shí)體個(gè)數(shù);FP(falsepositive)表示被錯(cuò)誤的識(shí)別成命名實(shí)體的個(gè)數(shù)。因此,準(zhǔn)確率即定義為正確識(shí)別出的命名實(shí)體個(gè)數(shù)與識(shí)別為命名實(shí)體總數(shù)的比例。
【參考文獻(xiàn)】:
期刊論文
[1]全國知識(shí)圖譜與語義計(jì)算大會(huì)(CCKS 2017)在四川成都隆重召開[J]. 中文信息學(xué)報(bào). 2017(05)
[2]深層網(wǎng)絡(luò)中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[3]計(jì)算機(jī)在醫(yī)院信息系統(tǒng)中的應(yīng)用[J]. 王歌. 電子技術(shù)與軟件工程. 2016(01)
[4]我國電子病歷定義定位研究[J]. 朱妍昕,徐維. 醫(yī)學(xué)信息學(xué)雜志. 2015(06)
[5]基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J]. 何炎祥,羅楚威,胡彬堯. 計(jì)算機(jī)應(yīng)用與軟件. 2015(01)
[6]電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動(dòng)化學(xué)報(bào). 2014(08)
[7]結(jié)構(gòu)化電子病歷的應(yīng)用及問題[J]. 馮志香. 中國病案. 2009(11)
碩士論文
[1]基于半監(jiān)督學(xué)習(xí)的中文電子病歷實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究[D]. 牧楊子.海南大學(xué) 2018
[2]醫(yī)療衛(wèi)生信息化建設(shè)中的政府功能及其實(shí)現(xiàn)策略研究[D]. 黃威.深圳大學(xué) 2017
[3]中文電子病歷命名實(shí)體識(shí)別研究[D]. 曲春燕.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3057345
【文章來源】:浙江工商大學(xué)浙江省
【文章頁數(shù)】:60 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
線性鏈條件隨機(jī)場
基于對抗的深度遷移學(xué)習(xí)
基于BERT嵌入和殘差連接的中文電子病歷命名實(shí)體識(shí)別研究16圖2.3基于預(yù)訓(xùn)練的深度遷移學(xué)習(xí)詞向量不僅表達(dá)詞自己的意思特征,還會(huì)表達(dá)相關(guān)詞之間的聯(lián)系,即每個(gè)詞不再是獨(dú)立的個(gè)體而是相互之間含有聯(lián)系。而借助預(yù)訓(xùn)練技術(shù)用大量數(shù)據(jù)進(jìn)行語言模型預(yù)訓(xùn)練,能夠很好的去提取大量數(shù)據(jù)當(dāng)中的語義特征,這樣的話在下游任務(wù)當(dāng)中能夠起到很好的提升作用。在對于某些特殊領(lǐng)域的數(shù)據(jù)集相對較少且標(biāo)注成本過高的情況下,通過預(yù)訓(xùn)練得到的語義表征將會(huì)對我們指定領(lǐng)域任務(wù)的特征起到補(bǔ)充的作用,進(jìn)而使任務(wù)的性能得到提升。相關(guān)研究證明,通過對語言模型進(jìn)行預(yù)訓(xùn)練然后作用在下游任務(wù)模型不僅能夠在少量標(biāo)注數(shù)據(jù)集上使得性能得到一定的提升,并且可以加快模型的收斂速度。2.4評價(jià)標(biāo)準(zhǔn)不同模型對命名實(shí)體識(shí)別的效果來進(jìn)行比較需要一個(gè)評價(jià)標(biāo)準(zhǔn),因此在MUC-6的會(huì)議當(dāng)中提出準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值(F1-Score)來進(jìn)行估計(jì)。(1)準(zhǔn)確率P(Precision)如公式(2-15)所示,=3u3uHvu (2-15)其中,TP(truepositive)表示正確識(shí)別出的命名實(shí)體個(gè)數(shù);FP(falsepositive)表示被錯(cuò)誤的識(shí)別成命名實(shí)體的個(gè)數(shù)。因此,準(zhǔn)確率即定義為正確識(shí)別出的命名實(shí)體個(gè)數(shù)與識(shí)別為命名實(shí)體總數(shù)的比例。
【參考文獻(xiàn)】:
期刊論文
[1]全國知識(shí)圖譜與語義計(jì)算大會(huì)(CCKS 2017)在四川成都隆重召開[J]. 中文信息學(xué)報(bào). 2017(05)
[2]深層網(wǎng)絡(luò)中的梯度消失現(xiàn)象[J]. 周祥全,張津. 科技展望. 2017(27)
[3]計(jì)算機(jī)在醫(yī)院信息系統(tǒng)中的應(yīng)用[J]. 王歌. 電子技術(shù)與軟件工程. 2016(01)
[4]我國電子病歷定義定位研究[J]. 朱妍昕,徐維. 醫(yī)學(xué)信息學(xué)雜志. 2015(06)
[5]基于CRF和規(guī)則相結(jié)合的地理命名實(shí)體識(shí)別方法[J]. 何炎祥,羅楚威,胡彬堯. 計(jì)算機(jī)應(yīng)用與軟件. 2015(01)
[6]電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J]. 楊錦鋒,于秋濱,關(guān)毅,蔣志鵬. 自動(dòng)化學(xué)報(bào). 2014(08)
[7]結(jié)構(gòu)化電子病歷的應(yīng)用及問題[J]. 馮志香. 中國病案. 2009(11)
碩士論文
[1]基于半監(jiān)督學(xué)習(xí)的中文電子病歷實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究[D]. 牧楊子.海南大學(xué) 2018
[2]醫(yī)療衛(wèi)生信息化建設(shè)中的政府功能及其實(shí)現(xiàn)策略研究[D]. 黃威.深圳大學(xué) 2017
[3]中文電子病歷命名實(shí)體識(shí)別研究[D]. 曲春燕.哈爾濱工業(yè)大學(xué) 2015
本文編號(hào):3057345
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3057345.html
最近更新
教材專著