面向海量生物醫(yī)學(xué)文獻(xiàn)的實(shí)體關(guān)系提取方法及其應(yīng)用研究
發(fā)布時(shí)間:2021-03-11 23:28
生物醫(yī)學(xué)文獻(xiàn)是生物醫(yī)藥大數(shù)據(jù)的一類重要來(lái)源,其中包含了大量有價(jià)值的信息。但這些信息多以非結(jié)構(gòu)化文本的形式存在,加之文獻(xiàn)數(shù)目以千萬(wàn)計(jì),因此,需要信息的高效獲取和利用需要先進(jìn)、高效的計(jì)算機(jī)方法;谧匀徽Z(yǔ)言處理(NLP)的文本挖掘技術(shù),可以識(shí)別海量生物醫(yī)學(xué)文獻(xiàn)中的基因、藥物、疾病和變異等關(guān)鍵的生物醫(yī)學(xué)概念(命名實(shí)體識(shí)別,NER),并可在此基礎(chǔ)上挖掘的概念實(shí)體之間的關(guān)系(RE)。已有相關(guān)研究表明,生物醫(yī)學(xué)文獻(xiàn)具有其獨(dú)特的語(yǔ)言特點(diǎn)且很多情況下依賴于復(fù)雜的領(lǐng)域背景知識(shí),因此生物醫(yī)學(xué)文獻(xiàn)挖掘不能直接照搬通用NLP的方法和工具,需要進(jìn)行專門(mén)的研究。生物醫(yī)學(xué)文獻(xiàn)的命名實(shí)體識(shí)別已有大量相關(guān)研究和軟件工具,目前已可涵蓋大部分關(guān)鍵的生物醫(yī)學(xué)概念;但針對(duì)實(shí)體間關(guān)系的提取,則是近兩年才成為研究的熱點(diǎn)。實(shí)體間關(guān)系提取需要進(jìn)行深度的語(yǔ)義和語(yǔ)法分析,流程較為復(fù)雜,當(dāng)前的主流方法準(zhǔn)確率不能令人滿意。此外,生物醫(yī)學(xué)文獻(xiàn)的數(shù)量龐大,當(dāng)前最全的生物醫(yī)學(xué)文獻(xiàn)庫(kù)PubMed包含超過(guò)兩千萬(wàn)篇摘要和百萬(wàn)篇全文,這樣大的數(shù)據(jù)量,對(duì)計(jì)算能力提出了嚴(yán)峻的挑戰(zhàn)。因此,如何設(shè)計(jì)與實(shí)現(xiàn)識(shí)別性能好、計(jì)算效率高的關(guān)系提取方法是本課題研究的主要科學(xué)問(wèn)...
【文章來(lái)源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
生物醫(yī)藥文獻(xiàn)挖掘流水線
本文組織結(jié)構(gòu)
例句2-1的依存關(guān)系分析
本文編號(hào):3077286
【文章來(lái)源】:國(guó)防科技大學(xué)湖南省 211工程院校 985工程院校
【文章頁(yè)數(shù)】:84 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
生物醫(yī)藥文獻(xiàn)挖掘流水線
本文組織結(jié)構(gòu)
例句2-1的依存關(guān)系分析
本文編號(hào):3077286
本文鏈接:http://www.sikaile.net/yixuelunwen/yiyuanguanlilunwen/3077286.html
最近更新
教材專著