天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于深度學(xué)習(xí)的生物醫(yī)學(xué)實(shí)體關(guān)系抽取算法研究

發(fā)布時(shí)間:2021-08-20 14:53
  近年來(lái),隨著生物醫(yī)學(xué)技術(shù)的進(jìn)步,生物醫(yī)學(xué)領(lǐng)域產(chǎn)生了大量的研究成果,該領(lǐng)域文獻(xiàn)呈急劇增長(zhǎng)趨勢(shì)。截止目前,醫(yī)學(xué)文獻(xiàn)搜索引擎PubMed引文已經(jīng)超過(guò)三千萬(wàn),這些文獻(xiàn)中蘊(yùn)含著豐富的生物醫(yī)學(xué)知識(shí)。面對(duì)如此海量的文獻(xiàn),科研人員通過(guò)人工閱讀的方式獲取有用信息、了解生物醫(yī)學(xué)領(lǐng)域最新研究進(jìn)展越來(lái)越困難。通過(guò)文本挖掘從海量文獻(xiàn)中自動(dòng)挖掘出知識(shí)是解決這一困境的可行辦法,受到了越來(lái)越多研究人員的關(guān)注。實(shí)體關(guān)系抽取技術(shù)是文本挖掘領(lǐng)域的關(guān)鍵技術(shù)。生物醫(yī)學(xué)文獻(xiàn)中存在許多命名實(shí)體,這些實(shí)體包括蛋白質(zhì)、藥物和疾病等類型。這些命名實(shí)體之間存在許多關(guān)系例如蛋白質(zhì)和蛋白質(zhì)之間的交互關(guān)系、藥物和疾病之間的治療關(guān)系。通過(guò)實(shí)體關(guān)系抽取技術(shù)將這些實(shí)體關(guān)系從文獻(xiàn)中挖掘出來(lái)對(duì)生物學(xué)家進(jìn)行系統(tǒng)生物學(xué)研究有重要意義。當(dāng)前該技術(shù)主要有三類方法:共現(xiàn)法、模板匹配方法和機(jī)器學(xué)習(xí)方法。相較于共現(xiàn)方法的低精確率和模板匹配方法的低召回率,機(jī)器學(xué)習(xí)方法由于出色的性能受到研究人員的廣泛關(guān)注。基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法可分為:基于特征工程的方法、基于核函數(shù)的方法和基于深度學(xué)習(xí)的方法。基于特征工程和基于核函數(shù)的方法比較依賴于特征設(shè)計(jì),因此,近期的研究熱點(diǎn)是使用... 

【文章來(lái)源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:62 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于深度學(xué)習(xí)的生物醫(yī)學(xué)實(shí)體關(guān)系抽取算法研究


986年-2010年P(guān)ubMed引文數(shù)量變化[2]

句法,示例,句子


司吞岢雋艘恢只?謨錕楹痛市緣惹巢閿镅匝?畔⒌暮撕?齕57]。單獨(dú)一個(gè)核函數(shù)通常只從一個(gè)角度建模句子,可以結(jié)合多個(gè)核函數(shù)來(lái)對(duì)句子充分建模。Miwa等人通過(guò)多核學(xué)習(xí)方法(multiplekernellearning)結(jié)合了多種關(guān)系抽取核函數(shù),在蛋白質(zhì)-蛋白質(zhì)交互關(guān)系抽取任務(wù)上取得了極好的性能[58]。基于核函數(shù)的方法嚴(yán)重依賴于其他自然語(yǔ)言處理工具,這些工具產(chǎn)生的錯(cuò)誤通常會(huì)造成其他模型的錯(cuò)誤累積。分類器在利用核函數(shù)時(shí),通常會(huì)構(gòu)造一個(gè)核矩陣。當(dāng)訓(xùn)練數(shù)據(jù)比較大時(shí),相應(yīng)的核矩陣也比較大,此時(shí)基于核方法的模型訓(xùn)練變得不那么可行。圖1.2依存句法解析結(jié)果示例[59]將深度學(xué)習(xí)算法應(yīng)用于生物醫(yī)學(xué)關(guān)系抽取也是近期的研究熱點(diǎn)。由于生物醫(yī)學(xué)關(guān)系抽取語(yǔ)料規(guī)模普遍比較小,用語(yǔ)跟通用領(lǐng)域語(yǔ)料并不完全一致,因此設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò)時(shí)需要考慮生物醫(yī)學(xué)領(lǐng)域的特點(diǎn)。深度神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)的需求量大,將句法結(jié)構(gòu)信息引入神經(jīng)網(wǎng)絡(luò)可以提供一定的先驗(yàn)知識(shí),減少對(duì)數(shù)據(jù)的需求。實(shí)體對(duì)在句子間的最短依存路徑通常被認(rèn)為最可能表達(dá)實(shí)體間關(guān)系,這個(gè)路徑上的詞可以看做一個(gè)簡(jiǎn)化的句子。例如:句子“Acanthamoebaprofilinaffectsthemechanicalpropertiesofnon-filamentousactin.”的依存句法解析結(jié)果如圖1.2所示。在這個(gè)句子中profilin和actin分別為兩個(gè)蛋白質(zhì)實(shí)體。這兩個(gè)詞的最短依存路徑為圖中標(biāo)紅的連接線?梢钥闯鲎疃桃来媛窂健皃rofilinaffectspropertiesactin”比原始句子短,也更容易理解。因此,最短依存路徑被廣泛用于基于深度學(xué)習(xí)的生物醫(yī)學(xué)關(guān)系抽取模型中[59–62]。Yadav等人認(rèn)為實(shí)體間的最短依存路徑上的詞序列比整個(gè)句子對(duì)抽取醫(yī)學(xué)關(guān)系更有用,因此提出了一個(gè)結(jié)合最短依存路徑和基于Attention的LongShortTerm-Memory(LSTM)的關(guān)系抽取模型Att-sdpLSTM[60]。這個(gè)?

實(shí)例圖,實(shí)例,句子,實(shí)體


第2章相關(guān)理論介紹10第2章相關(guān)理論介紹2.1生物醫(yī)學(xué)實(shí)體關(guān)系抽取2.1.1任務(wù)介紹生物醫(yī)學(xué)實(shí)體關(guān)系抽取的任務(wù)目標(biāo)是將給定句子中描述的生物醫(yī)學(xué)實(shí)體間關(guān)系給抽取出來(lái)。在進(jìn)行該任務(wù)前首先需要把句子中出現(xiàn)的生物醫(yī)學(xué)實(shí)體給找出來(lái)。圖2.1所示的實(shí)例共標(biāo)注有三個(gè)蛋白質(zhì)實(shí)體,它們是LEC、CCR1和CCR8。圖2.2所示的實(shí)例共標(biāo)注有三個(gè)藥物實(shí)體,它們分別是Metopirone、acetaminophen和acetaminophen。醫(yī)學(xué)關(guān)系抽取語(yǔ)料都會(huì)對(duì)句子中的領(lǐng)域命名實(shí)體給標(biāo)注出來(lái),當(dāng)前大部分工作都假定實(shí)體是預(yù)先給定,因此本文也遵循這一做法。圖2.1關(guān)系抽取實(shí)例1圖2.2關(guān)系抽取實(shí)例2知道句子中命名實(shí)體后,需要通過(guò)某種方法判斷實(shí)體間是否存在關(guān)系,這一步叫做實(shí)體關(guān)系檢測(cè)。如圖2.1所示,該句子描述了LEC蛋白質(zhì)和CCR1蛋白質(zhì)之間的關(guān)系,但是并沒(méi)有描述CCR1和CCR8之間的關(guān)系。在確定實(shí)體間存在關(guān)

【參考文獻(xiàn)】:
期刊論文
[1]實(shí)體關(guān)系自動(dòng)抽取[J]. 車(chē)萬(wàn)翔,劉挺,李生.  中文信息學(xué)報(bào). 2005(02)



本文編號(hào):3353703

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3353703.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8a606***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com