天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

中草藥文獻(xiàn)知識(shí)抽取方法研究與應(yīng)用

發(fā)布時(shí)間:2022-02-14 23:44
  隨著中醫(yī)現(xiàn)代化的提出,與中草藥相關(guān)的文獻(xiàn)資源迅速增長(zhǎng)。這些文本內(nèi)容中隱藏著諸多中草藥實(shí)體知識(shí)及關(guān)系,如何從非結(jié)構(gòu)化的文本中挖掘有意義的實(shí)體關(guān)系是目前信息抽取領(lǐng)域的研究熱點(diǎn),也是構(gòu)建知識(shí)庫(kù)或?qū)嶓w關(guān)系網(wǎng)絡(luò)(知識(shí)圖譜)的基礎(chǔ)。然而目前該領(lǐng)域的研究并不是很多,針對(duì)現(xiàn)有的一些研究可以概括為三個(gè)方面:一是實(shí)體關(guān)系的抽取多基于中文語(yǔ)料,然而英文文獻(xiàn)中也包含中草藥知識(shí)。二是抽取方法多基于傳統(tǒng)算法,準(zhǔn)確率并不是很高,所以有必要結(jié)合深度學(xué)習(xí)技術(shù)做進(jìn)一步的研究。三是對(duì)抽取結(jié)果的利用,應(yīng)結(jié)合領(lǐng)域知識(shí)做進(jìn)一步的應(yīng)用。因此本文的主要工作有以下幾個(gè)方面:一、從PubMed數(shù)據(jù)庫(kù)中檢索和收集了中草藥相關(guān)的英文文章。結(jié)合中藥與其他實(shí)體在文獻(xiàn)中的關(guān)系描述,定義了中藥與疾病、中藥與化學(xué)物質(zhì)這兩種定向關(guān)系。在醫(yī)學(xué)工作者的幫助下構(gòu)建了實(shí)體關(guān)系抽取語(yǔ)料庫(kù),以實(shí)現(xiàn)對(duì)關(guān)系抽取問(wèn)題的研究。二、為了提高中草藥相關(guān)的實(shí)體關(guān)系抽取準(zhǔn)確率,本文結(jié)合深度學(xué)習(xí)技術(shù)進(jìn)行了算法的研究。首先提出了SETATT-CNN模型,該模型創(chuàng)新性體現(xiàn)在根據(jù)分段輸入特征提出了具有分段注意力機(jī)制的SEGATT層。在模型訓(xùn)練上設(shè)計(jì)了具有權(quán)值系數(shù)的交叉熵?fù)p失函數(shù)。其次為了... 

【文章來(lái)源】:吉林大學(xué)吉林省211工程院校985工程院校教育部直屬院校

【文章頁(yè)數(shù)】:84 頁(yè)

【學(xué)位級(jí)別】:碩士

【圖文】:

中草藥文獻(xiàn)知識(shí)抽取方法研究與應(yīng)用


本文主要研究?jī)?nèi)容

實(shí)體關(guān)系圖,實(shí)體關(guān)系,文本


第2章相關(guān)技術(shù)介紹8第2章相關(guān)技術(shù)介紹本章節(jié)將從實(shí)體關(guān)系抽取問(wèn)題的定義和解決方法、詞特征表示方法及深度學(xué)習(xí)技術(shù)三個(gè)方面進(jìn)行介紹,為本文研究問(wèn)題的解決奠定基矗2.1實(shí)體關(guān)系抽取2.1.1實(shí)體關(guān)系抽取概述信息抽取問(wèn)題最早始于MUC會(huì)議。在1998年最后一次MUC會(huì)議上初步提出和確定了關(guān)系抽取問(wèn)題,并發(fā)布了相關(guān)數(shù)據(jù)集[34],之后便有很多學(xué)者關(guān)注了實(shí)體關(guān)系抽取問(wèn)題。實(shí)體關(guān)系抽取的定義可以這樣描述:“在預(yù)先識(shí)別出實(shí)體的基礎(chǔ)上判斷成對(duì)實(shí)體之間的關(guān)系”。實(shí)體關(guān)系抽取問(wèn)題是目前信息抽取領(lǐng)域的重要研究課題,尤其是基于文本的實(shí)體關(guān)系抽取,即從非結(jié)構(gòu)化的文本中判定實(shí)體對(duì)的關(guān)系,提取文本中結(jié)構(gòu)化的語(yǔ)義知識(shí);谖谋拘问降膶(shí)體關(guān)系抽取問(wèn)題可以抽象的描述為:基于文本語(yǔ)義確定實(shí)體e1和實(shí)體e2的關(guān)系r,其描述形式為(e1,r,e2);其實(shí)體在文本中的存在形式如圖2.1所示。解決實(shí)體關(guān)系抽取的方法主要包含有監(jiān)督和無(wú)監(jiān)督兩種,目前針對(duì)該文本形式的實(shí)體關(guān)系抽取解決方式主要采用有監(jiān)督的方法,有監(jiān)督即是在提前給定已標(biāo)注實(shí)體關(guān)系數(shù)據(jù)集的情況下學(xué)習(xí)和訓(xùn)練模型,然后根據(jù)訓(xùn)練好的模型去預(yù)測(cè)未標(biāo)注的實(shí)體關(guān)系。圖2.1基于文本的實(shí)體關(guān)系抽取樣例2.1.2關(guān)系抽取的方法關(guān)系抽取問(wèn)題的解決方法主要分為四種,其分別為:基于共現(xiàn)的方法、基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和目前較為流行的深度學(xué)習(xí)方法。1.基于共現(xiàn)的方法當(dāng)兩個(gè)實(shí)體同時(shí)存在時(shí),該方法主要通過(guò)兩個(gè)假設(shè)性判定去確定實(shí)體之間的

流程圖,實(shí)體關(guān)系,流程圖


第2章相關(guān)技術(shù)介紹10題。該方法的應(yīng)用能夠很好的克服傳統(tǒng)實(shí)體關(guān)系抽取方法的不足,使準(zhǔn)確率有了一定的保障。但是仍舊存在一定的不足,特征表示階段需要構(gòu)建大量的特征工程,例如上下文特征、最短路徑特征、領(lǐng)域知識(shí)特征、解析樹(shù)和依賴(lài)圖特征的組合、句法和短語(yǔ)輔助功能等。該方法的最大挑戰(zhàn)就是首先選擇能夠利于模型學(xué)習(xí)和訓(xùn)練的良好特征,其次就是從文本中準(zhǔn)確提取這些特征,避免誤差傳遞。因此,機(jī)器學(xué)習(xí)方法在進(jìn)行解決實(shí)體關(guān)系抽取問(wèn)題時(shí)需要大量的特征工程才能輔助模型挖掘出文本中的語(yǔ)義特征從而提高關(guān)系分類(lèi)的準(zhǔn)確性。4.深度學(xué)習(xí)方法與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型在解決NLP問(wèn)題上具有較好的效果。其主要原因在于文本經(jīng)過(guò)詞嵌入特征編碼之后,其高維度的文本特征包含了大量文本語(yǔ)義信息,可以全部輸入到具有大量權(quán)值參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。多隱層形式的神經(jīng)網(wǎng)絡(luò)模型具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)到的特征對(duì)文本的原始數(shù)據(jù)具有更本質(zhì)的刻畫(huà)能力,從而更好的為實(shí)體關(guān)系分類(lèi)任務(wù)服務(wù)。深度學(xué)習(xí)方法具有較強(qiáng)的泛化性能,在生物醫(yī)學(xué)領(lǐng)域已經(jīng)有了大量的研究和應(yīng)用。該方法能夠減少手動(dòng)構(gòu)建特征工程的繁瑣,但并不影響準(zhǔn)確率的提升。在解決實(shí)體關(guān)系抽取問(wèn)題上,其實(shí)現(xiàn)流程和機(jī)器學(xué)習(xí)方法類(lèi)似,唯一不同的就是特征表示階段的Embedding過(guò)程不需要進(jìn)行特征降維便可直接輸入模型。圖2.2實(shí)體關(guān)系抽取流程圖總的來(lái)說(shuō)四種方法都可以應(yīng)用于解決實(shí)體關(guān)系抽取問(wèn)題上,其不同方法解決該問(wèn)題的流程如圖2.2所示。不難發(fā)現(xiàn),采用深度學(xué)習(xí)方法進(jìn)行解決實(shí)體關(guān)系抽取具有較好的應(yīng)用前景。

【參考文獻(xiàn)】:
期刊論文
[1]BERST: An Engine and Tool for Exploring Biomedical Entities and Relationships[J]. BAI Tian,GE Yan,YANG Changqing,LIU Xiaohua,GONG Leiguang,WANG Ye,HUANG Lan.  Chinese Journal of Electronics. 2019(04)
[2]深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴.  軟件學(xué)報(bào). 2019(06)
[3]中醫(yī)養(yǎng)生知識(shí)圖譜的構(gòu)建與應(yīng)用[J]. 于彤,李敬華,于琦,田野,孫曉峰,徐麗麗,張竹綠.  中國(guó)數(shù)字醫(yī)學(xué). 2017(12)
[4]卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 周飛燕,金林鵬,董軍.  計(jì)算機(jī)學(xué)報(bào). 2017(06)
[5]中醫(yī)藥知識(shí)圖譜構(gòu)建與應(yīng)用[J]. 阮彤,孫程琳,王昊奮,方之家,殷亦超.  醫(yī)學(xué)信息學(xué)雜志. 2016(04)
[6]中醫(yī)自然語(yǔ)言處理研究方法綜述[J]. 柴華,路海明,劉清晨.  醫(yī)學(xué)信息學(xué)雜志. 2015(10)
[7]中醫(yī)藥知識(shí)圖譜構(gòu)建[J]. 賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅.  醫(yī)學(xué)信息學(xué)雜志. 2015(08)
[8]中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)的語(yǔ)義網(wǎng)絡(luò)框架:一個(gè)面向中醫(yī)藥領(lǐng)域的規(guī)范化頂層本體[J]. 于彤,崔蒙,李海燕,楊碩,賈李蓉,張竹綠.  中國(guó)數(shù)字醫(yī)學(xué). 2014(01)



本文編號(hào):3625482

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3625482.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)1c271***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com