基于深度神經(jīng)網(wǎng)絡(luò)的電子病歷命名實(shí)體識(shí)別關(guān)鍵技術(shù)研究與應(yīng)用
發(fā)布時(shí)間:2021-08-27 00:49
隨著“互聯(lián)網(wǎng)+醫(yī)療”的發(fā)展,越來越多的研究者將目光投向使用計(jì)算機(jī)技術(shù)對(duì)醫(yī)療信息提取的研究,尤其是2019年末爆發(fā)的新冠肺炎更是把大眾的眼光都吸引向了醫(yī)療領(lǐng)域。中文電子病歷命名實(shí)體識(shí)別是對(duì)電子病歷中的醫(yī)療信息進(jìn)行抽取的第一步,具有重大的研究意義和價(jià)值。本文在對(duì)現(xiàn)有中文電子病歷命名實(shí)體技術(shù)進(jìn)行研究的基礎(chǔ)上,提出了一種多特征融合的字符級(jí)詞嵌入算法,并在此基礎(chǔ)上提出了一種基于自注意力機(jī)制的WC-LSTM中文電子病歷命名實(shí)體識(shí)別模型。最后實(shí)現(xiàn)了基于上述模型的中文電子病歷命名實(shí)體識(shí)別系統(tǒng)。本文的研究內(nèi)容有:(1)本文從語言特性和應(yīng)用領(lǐng)域兩方面研究了用于中文電子病歷命名實(shí)體識(shí)別的字符級(jí)詞嵌入算法的特點(diǎn)和難點(diǎn),提出了一種基于Skip-gram算法的融合偏旁部首信息和拼音信息的字符級(jí)詞嵌入算法,并通過外部評(píng)估的方式對(duì)其可行性和有效性進(jìn)行了驗(yàn)證。(2)本文提出了一種基于多頭自注意力機(jī)制的WC-LSTM中文電子病歷命名實(shí)體識(shí)別模型。針對(duì)基于字符的命名實(shí)體識(shí)別模型丟失詞信息的問題,本文使用將字符對(duì)應(yīng)的最短詞的信息融入字向量的方法,對(duì)詞信息進(jìn)行補(bǔ)充,并使用自注意力機(jī)制加強(qiáng)距離較遠(yuǎn)的字符間的聯(lián)系,降低由于使用最短...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
命名實(shí)體識(shí)別算法的一般架構(gòu)
年來基于深度學(xué)習(xí)的命名實(shí)體識(shí)別算法,其總體架構(gòu)如圖2-1所示。總體架構(gòu)可分為三個(gè)部分:嵌入層,編碼層和解碼層。嵌入層將文本映射到高維數(shù)字空間,目前主流的方法分為基于字的嵌入,基于詞的嵌入,和混合字詞信息的嵌入。將文本轉(zhuǎn)化為向量之后進(jìn)行編碼,目前主要使用的編碼器為CNNs,RNNs和Transformer架構(gòu)的各類編碼器。最后進(jìn)行解碼,輸出標(biāo)簽。2.2中文電子病歷文本命名實(shí)體識(shí)別特點(diǎn)中文電子病歷命名實(shí)體識(shí)別的特點(diǎn)與難點(diǎn)主要表現(xiàn)在中文的語言特點(diǎn)與醫(yī)學(xué)領(lǐng)域的病歷的語言特點(diǎn)兩個(gè)方面。2.2.1中文命名實(shí)體識(shí)別的特點(diǎn)圖2-2不同分詞方法所帶來的歧義與英語命名實(shí)體識(shí)別相比,中文命名實(shí)體識(shí)別更加困難。中文命名實(shí)體識(shí)別和英語命名實(shí)體識(shí)別之間的主要區(qū)別在于:(1)與英語不同,中文缺乏大寫信息,這在識(shí)別命名實(shí)體方面起著非常重要的作用。(2)如采用基于詞的序列命名實(shí)體識(shí)別算法,由于中文單詞之間沒有空格,因此算法需要首先應(yīng)用中文分詞來獲取單詞邊界,然后使用類似于英語命名實(shí)體模型的單詞級(jí)序列標(biāo)記模型來進(jìn)行識(shí)別。但是,中文中的單詞邊界可能含糊不清,這導(dǎo)致實(shí)體邊界與單詞邊界存在不匹配的可能。例如,術(shù)語“西藏自治區(qū)(西藏自治區(qū))”是命名實(shí)體識(shí)別中行政區(qū)域類型的實(shí)體,但也可以分為一個(gè)單詞或兩個(gè)單詞“西藏(西藏)”和“自治區(qū)(自治區(qū))”,這取決于分詞工具的粒度。但是,大多數(shù)情況下,很難確定正確的分詞粒度。同樣,如圖2-2所示,不同的分段可能導(dǎo)致中文的句子含義不同,甚至可能導(dǎo)致不同的命名實(shí)體。顯然,如果在分割中錯(cuò)誤
第二章相關(guān)研究的理論基礎(chǔ)與技術(shù)9地檢測到實(shí)體邊界,它將對(duì)基于詞的命名實(shí)體識(shí)別模型中的實(shí)體標(biāo)記產(chǎn)生負(fù)面影響。(3)如采用基于字的命名實(shí)體識(shí)別算法,由于丟失單詞和單詞序列信息,因此字符級(jí)嵌入本身只能攜帶有限的信息,主要考慮兩個(gè)方面:a.漢語存在一字多義,相同字在不同的詞語中意義完全不同,如“拍”字在“球拍”和“拍賣”兩個(gè)詞中的含義就差別甚遠(yuǎn)。b.單個(gè)字符含義與成詞之后可能差別比較大,如“感”字,在單獨(dú)成詞時(shí)含義通常為“感覺”、“感受”,如“患者感頭痛”,但存在“感冒”等詞,此時(shí),“感”字與單獨(dú)成詞時(shí)含義差別較大。2.2.2病歷命名實(shí)體識(shí)別的特點(diǎn)圖2-3實(shí)際中文電子病歷一例在中文電子病歷中,存在著許多的醫(yī)學(xué)領(lǐng)域?qū)S玫男g(shù)語,沒有相關(guān)的背景知識(shí)很難對(duì)其進(jìn)行理解,同時(shí)為簡單明了的進(jìn)行病歷記錄,醫(yī)生在其中使用了大量的縮寫、略寫。盡管國家出臺(tái)了許多條例來規(guī)范電子病歷的書寫和記錄,但其與通用領(lǐng)域的文本仍然有較大的差異。如圖2-3,具體的來說,在中文電子病歷命名實(shí)體識(shí)別領(lǐng)域主要的困難有:(1)中文電子病歷中存在著大量的醫(yī)學(xué)領(lǐng)域的專業(yè)術(shù)語。如“髂嵴”,“子宮
本文編號(hào):3365305
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
命名實(shí)體識(shí)別算法的一般架構(gòu)
年來基于深度學(xué)習(xí)的命名實(shí)體識(shí)別算法,其總體架構(gòu)如圖2-1所示。總體架構(gòu)可分為三個(gè)部分:嵌入層,編碼層和解碼層。嵌入層將文本映射到高維數(shù)字空間,目前主流的方法分為基于字的嵌入,基于詞的嵌入,和混合字詞信息的嵌入。將文本轉(zhuǎn)化為向量之后進(jìn)行編碼,目前主要使用的編碼器為CNNs,RNNs和Transformer架構(gòu)的各類編碼器。最后進(jìn)行解碼,輸出標(biāo)簽。2.2中文電子病歷文本命名實(shí)體識(shí)別特點(diǎn)中文電子病歷命名實(shí)體識(shí)別的特點(diǎn)與難點(diǎn)主要表現(xiàn)在中文的語言特點(diǎn)與醫(yī)學(xué)領(lǐng)域的病歷的語言特點(diǎn)兩個(gè)方面。2.2.1中文命名實(shí)體識(shí)別的特點(diǎn)圖2-2不同分詞方法所帶來的歧義與英語命名實(shí)體識(shí)別相比,中文命名實(shí)體識(shí)別更加困難。中文命名實(shí)體識(shí)別和英語命名實(shí)體識(shí)別之間的主要區(qū)別在于:(1)與英語不同,中文缺乏大寫信息,這在識(shí)別命名實(shí)體方面起著非常重要的作用。(2)如采用基于詞的序列命名實(shí)體識(shí)別算法,由于中文單詞之間沒有空格,因此算法需要首先應(yīng)用中文分詞來獲取單詞邊界,然后使用類似于英語命名實(shí)體模型的單詞級(jí)序列標(biāo)記模型來進(jìn)行識(shí)別。但是,中文中的單詞邊界可能含糊不清,這導(dǎo)致實(shí)體邊界與單詞邊界存在不匹配的可能。例如,術(shù)語“西藏自治區(qū)(西藏自治區(qū))”是命名實(shí)體識(shí)別中行政區(qū)域類型的實(shí)體,但也可以分為一個(gè)單詞或兩個(gè)單詞“西藏(西藏)”和“自治區(qū)(自治區(qū))”,這取決于分詞工具的粒度。但是,大多數(shù)情況下,很難確定正確的分詞粒度。同樣,如圖2-2所示,不同的分段可能導(dǎo)致中文的句子含義不同,甚至可能導(dǎo)致不同的命名實(shí)體。顯然,如果在分割中錯(cuò)誤
第二章相關(guān)研究的理論基礎(chǔ)與技術(shù)9地檢測到實(shí)體邊界,它將對(duì)基于詞的命名實(shí)體識(shí)別模型中的實(shí)體標(biāo)記產(chǎn)生負(fù)面影響。(3)如采用基于字的命名實(shí)體識(shí)別算法,由于丟失單詞和單詞序列信息,因此字符級(jí)嵌入本身只能攜帶有限的信息,主要考慮兩個(gè)方面:a.漢語存在一字多義,相同字在不同的詞語中意義完全不同,如“拍”字在“球拍”和“拍賣”兩個(gè)詞中的含義就差別甚遠(yuǎn)。b.單個(gè)字符含義與成詞之后可能差別比較大,如“感”字,在單獨(dú)成詞時(shí)含義通常為“感覺”、“感受”,如“患者感頭痛”,但存在“感冒”等詞,此時(shí),“感”字與單獨(dú)成詞時(shí)含義差別較大。2.2.2病歷命名實(shí)體識(shí)別的特點(diǎn)圖2-3實(shí)際中文電子病歷一例在中文電子病歷中,存在著許多的醫(yī)學(xué)領(lǐng)域?qū)S玫男g(shù)語,沒有相關(guān)的背景知識(shí)很難對(duì)其進(jìn)行理解,同時(shí)為簡單明了的進(jìn)行病歷記錄,醫(yī)生在其中使用了大量的縮寫、略寫。盡管國家出臺(tái)了許多條例來規(guī)范電子病歷的書寫和記錄,但其與通用領(lǐng)域的文本仍然有較大的差異。如圖2-3,具體的來說,在中文電子病歷命名實(shí)體識(shí)別領(lǐng)域主要的困難有:(1)中文電子病歷中存在著大量的醫(yī)學(xué)領(lǐng)域的專業(yè)術(shù)語。如“髂嵴”,“子宮
本文編號(hào):3365305
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3365305.html
最近更新
教材專著