天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于文獻(xiàn)挖掘的生物實體關(guān)系提取研究及應(yīng)用

發(fā)布時間:2021-04-01 02:00
  在生命機(jī)體中生物實體(如化合物、蛋白質(zhì)等)之間時刻發(fā)生各種相互作用,研究生物實體的作用關(guān)系對理解生命機(jī)制至關(guān)重要。隨著生物醫(yī)學(xué)文獻(xiàn)快速增長,可以利用文獻(xiàn)挖掘的方法高效地提取出生物實體關(guān)系,進(jìn)而建立結(jié)構(gòu)化的生物數(shù)據(jù)庫,這對于生物醫(yī)學(xué)基礎(chǔ)研究和藥物研發(fā)等領(lǐng)域具有廣泛的應(yīng)用價值。據(jù)我們所知,以往基于機(jī)器學(xué)習(xí)的系統(tǒng)提取生物實體關(guān)系需要耗費精力設(shè)計特征,而且較難刻畫詞語之間的依賴信息;基于深度學(xué)習(xí)的系統(tǒng)大多忽略了生物實體關(guān)系具有層次的特點,未建立關(guān)系之間的聯(lián)系。而且這些系統(tǒng)在特定數(shù)據(jù)集上訓(xùn)練,遷移到其他數(shù)據(jù)集時表現(xiàn)不佳,導(dǎo)致難以提取多種生物實體關(guān)系。另外,大多生物實體關(guān)系數(shù)據(jù)庫依靠手工建立,該方法非常耗費資源且難以跟上出版物的速度。為此本文設(shè)計一種普適性強(qiáng)的且能提取不同層次生物實體關(guān)系的深度學(xué)習(xí)模型,并利用模型挖掘海量文獻(xiàn)中的生物實體關(guān)系,建立結(jié)構(gòu)化的數(shù)據(jù)庫供研究者使用。本文主要工作和貢獻(xiàn)如下:1.生物實體層次化關(guān)系提取方法設(shè)計本文提出基于多通道卷積神經(jīng)網(wǎng)絡(luò)模型(MCCNN)用于提取多種生物實體關(guān)系。此模型利用卷積操作將句子劃分成多個短語并學(xué)習(xí)其語義,然后從短語中捕獲到表達(dá)關(guān)系的底層關(guān)系詞,最后... 

【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校

【文章頁數(shù)】:90 頁

【學(xué)位級別】:碩士

【部分圖文】:

基于文獻(xiàn)挖掘的生物實體關(guān)系提取研究及應(yīng)用


圖1.3?BioStars網(wǎng)站中的問答示例??

實體關(guān)系圖,實體關(guān)系,示例,實體


第2章問題定義及相關(guān)知識??形式上具有差別,而它們與第三個句子的底層關(guān)系在生物學(xué)意義上具有差別,但??同時也具有一定的聯(lián)系。所以只提取出生物實體間的底層關(guān)系,會導(dǎo)致關(guān)系種類??過多,使得具有聯(lián)系的關(guān)系也孤立地存在,這樣不利于發(fā)現(xiàn)關(guān)系之間的聯(lián)系。采??用關(guān)系分類的方法認(rèn)為通過專家對生物實體之間的關(guān)系進(jìn)行概括,預(yù)定義一些??抽象的高層關(guān)系,然后將生物實體關(guān)系提取任務(wù)轉(zhuǎn)變成分類問題[42,43』。如圖2.1,??三個句子中的實體關(guān)系都可以抽象為“INHIBITOR?(抑制)”這一高層關(guān)系中。??目前深度學(xué)習(xí)方法主要將關(guān)系提取轉(zhuǎn)化為關(guān)系分類任務(wù),通過設(shè)計模型預(yù)測實??體間的關(guān)系類別。使用關(guān)系分類主要提取出實體之間的高層關(guān)系,而忽略了底層??關(guān)系,當(dāng)研宄者研宄生物實體具體的作用類型時,則不能滿足研宄者的需求。??本文所研宄的生物實體關(guān)系提取的目標(biāo)是同時提取出實體間的底層關(guān)系??和高層關(guān)系,然后將層次化的關(guān)系保存到數(shù)據(jù)庫中供用戶使用。如圖2.2描述??化合物與蛋白質(zhì)關(guān)系的句子?“We?conclude?that?erg3?can?be?blocked?by?sertindole??and?pimozide.”中包含三個實體,通過兩兩組合可形成三個實體對<erg3,sertin-??dole>,<erg3,?pimozide〉和〈sertindole,pimozide〉。其中前兩個實體對的關(guān)系由??“be?blocked?by”描述,而第三個實體對不具有關(guān)系,所以在提取時我們首先識別??出前兩個實體對的底層關(guān)系“block”,然后再把底層關(guān)系歸類到高層關(guān)系“IN???HIBITOR,,中,對于不具有關(guān)系的實體對,在預(yù)測時我們把這些實體關(guān)

句法,解析方法,示例,句法分析


/?\?/?\?/?\??NNP?NNPS?NP?PP?DT?NN??/\?/\??DTNNIN?NP??\??NNP??I??American?Airlines?a?unit?of?AMR?immediately?matched?the?move?spokesman?Tim?Wagner?said??Phrase?label?paths??PTP?=?[NP,?S,?NP]??PTPH?=?[NP:Airlines,?S:matched,?NP:Wagner]??圖2.3句法解析方法示例??基于句法分析的方法。該方法是通過將句子進(jìn)行分塊,然后提取出句子的主??干,再通過對句子主干中的詞進(jìn)行匹配,得到句子中蘊含的實體關(guān)系。句法分析??工具常見的有NLTK程序庫[49】,StanfordCoreNLP工具_等,這些句法分析器??18??

【參考文獻(xiàn)】:
期刊論文
[1]深度學(xué)習(xí)實體關(guān)系抽取研究綜述[J]. 鄂海紅,張文靜,肖思琪,程瑞,胡鶯夕,周筱松,牛佩晴.  軟件學(xué)報. 2019(06)



本文編號:3112479

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/benkebiyelunwen/3112479.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶09443***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com