天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

生物醫(yī)學(xué)文本中細(xì)菌命名實(shí)體識(shí)別算法研究

發(fā)布時(shí)間:2020-08-06 22:38
【摘要】:微生物尤其是細(xì)菌之間的相互作用決定了微生態(tài)群落組織和功能,從而影響了人類的健康和環(huán)境生態(tài)系統(tǒng)的功能。通過(guò)實(shí)驗(yàn)方法獲得細(xì)菌相互作用代價(jià)較高,隨著高通量測(cè)序數(shù)據(jù)的日益積累,通過(guò)計(jì)算推斷的方法獲得細(xì)菌交互成為研究的熱點(diǎn),但缺乏標(biāo)準(zhǔn)的交互數(shù)據(jù)集使得計(jì)算方法的評(píng)估和驗(yàn)證成為問(wèn)題。另一方面,生物醫(yī)學(xué)文獻(xiàn)中隱含著大量的經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證細(xì)菌相互作用,但是如何從這些海量文獻(xiàn)中快速準(zhǔn)確地挖掘出這些潛在的相互作用關(guān)系是一個(gè)新的問(wèn)題。細(xì)菌命名實(shí)體與以往生物醫(yī)學(xué)實(shí)體相比具有自身的獨(dú)特屬性,如種類繁雜、新實(shí)體不斷出現(xiàn)、一詞多義、大量實(shí)體嵌套現(xiàn)象等,這些性質(zhì)導(dǎo)致了細(xì)菌命名實(shí)體識(shí)別任務(wù)的復(fù)雜性。本文研究了基于條件隨機(jī)場(chǎng)(CRF)和細(xì)菌詞典的細(xì)菌命名實(shí)體識(shí)別方法及基于深度學(xué)習(xí)的的細(xì)菌命名實(shí)體識(shí)別方法,取得了較好的識(shí)別效果,主要研究工作和貢獻(xiàn)如下:(1)基于條件隨機(jī)場(chǎng)和細(xì)菌詞典的細(xì)菌命名實(shí)體識(shí)別方法。本文參考經(jīng)典的Genia Corpus V3.02語(yǔ)料,標(biāo)注了一千余篇可用于細(xì)菌命名實(shí)體識(shí)別的語(yǔ)料庫(kù),通過(guò)UMLS構(gòu)建細(xì)菌詞典,根據(jù)細(xì)菌命名特有方式,人工設(shè)計(jì)了 42種特征,并使用CRF算法學(xué)習(xí)模型,結(jié)合單獨(dú)最優(yōu)組合法挑選出最優(yōu)特征集,和其他領(lǐng)域基于CRF的命名實(shí)體識(shí)別任務(wù)達(dá)到的性能作比較,并用生物領(lǐng)域常用分類算法SVM訓(xùn)練模型進(jìn)行對(duì)比。還針對(duì)其在處理大規(guī)模數(shù)據(jù)的低效性,在速度改進(jìn)上提出了基于Spark分布式平臺(tái)的細(xì)菌命名實(shí)體識(shí)別系統(tǒng)。(2)基于深度學(xué)習(xí)的細(xì)菌命名實(shí)體識(shí)別方法。有監(jiān)督機(jī)器學(xué)習(xí)方法中使用的特征需人工選取并進(jìn)行特征選擇,需要領(lǐng)域先驗(yàn)知識(shí),與所解決的問(wèn)題緊密相關(guān),普適性不強(qiáng),且模型的性能很大程度上依賴于數(shù)據(jù)的表示,需要耗費(fèi)大量的時(shí)間精力不斷地設(shè)計(jì)更好的特征。針對(duì)上述問(wèn)題,本文提出一種基于條件隨機(jī)場(chǎng)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BI-LSTM-CRF)的細(xì)菌命名實(shí)體識(shí)別系統(tǒng),經(jīng)訓(xùn)練、驗(yàn)證和評(píng)估,F1值達(dá)到了 86.718%。實(shí)驗(yàn)結(jié)果表明,基于BI-LSTM-CRF的細(xì)菌命名實(shí)體識(shí)別系統(tǒng)不僅無(wú)需人工抽取特征,編程工作量少,且預(yù)測(cè)效果優(yōu)于筆者先前的工作中的基于CRF和詞典的細(xì)菌命名實(shí)體識(shí)別。本文提出的細(xì)菌命名實(shí)體識(shí)別系統(tǒng),具有較好的速度和性能,可以快速有效地從大型生物醫(yī)學(xué)文獻(xiàn)中自動(dòng)識(shí)別出細(xì)菌命名實(shí)體。本文的工作為從醫(yī)學(xué)文獻(xiàn)提取細(xì)菌交互關(guān)系奠定了可行的基礎(chǔ)。
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:R318;TP391.1
【圖文】:

線性鏈,隨機(jī)場(chǎng),條件


別貢獻(xiàn)大的特征訓(xùn)練學(xué)習(xí)器,其最核心的思想是結(jié)[42】,有優(yōu)異的學(xué)習(xí)能力和泛化性能,尤其在處理小樣、局部極小等任務(wù)上展現(xiàn)出其特有的優(yōu)勢(shì),由于這別也經(jīng)常使用SVM算法。Park邋K.M等分別在GENIA、詞綴、詞形等特征學(xué)習(xí)SVM模型,F1值分別達(dá)6ssler結(jié)合隱馬爾可夫和支持向量機(jī)在GENIA語(yǔ)料上64.0%【45]等。逡逑隨機(jī)場(chǎng)模型逡逑(CRF)是一種在給定變量觀測(cè)序列后對(duì)輸出序列化數(shù)據(jù)的判別式無(wú)向圖模型,其理論源于Markov隨機(jī)確定最大化條件概率的思想。2001年由LafTerty等理領(lǐng)域中,如線性鏈條件隨機(jī)場(chǎng)(CRFs)。在序列列,F表示與之對(duì)應(yīng)的輸出標(biāo)記序列或狀態(tài)序列。序列}7的條件概率分布構(gòu)成條件隨機(jī)場(chǎng),,^+1,.",>:,)=戶0^義,^+1),則稱戶(>1義)為線

對(duì)比圖,查準(zhǔn)率,單詞,對(duì)比圖


在兩種語(yǔ)料下分別組合單詞特征和其他特征訓(xùn)練的模型查準(zhǔn)率P對(duì)比圖

對(duì)比圖,單詞,對(duì)比圖,模型


在兩種語(yǔ)料下分別組合單詞特征和其他特征III練的模型召回率R對(duì)比圖

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 劉瀏;王東波;;命名實(shí)體識(shí)別研究綜述[J];情報(bào)學(xué)報(bào);2018年03期

2 朱顥東;楊立志;丁溫雪;馮嘉美;;面向中文微博命名實(shí)體識(shí)別的對(duì)比研究[J];湖北民族學(xué)院學(xué)報(bào)(自然科學(xué)版);2017年01期

3 包敏娜;斯·勞格勞;;基于詞典匹配的蒙古文命名實(shí)體識(shí)別研究[J];中央民族大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版);2017年03期

4 羅芳;熊前興;肖敏;;基于本體的產(chǎn)品命名實(shí)體識(shí)別研究[J];武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版);2011年06期

5 金明;楊歡歡;單廣榮;;藏語(yǔ)命名實(shí)體識(shí)別研究[J];西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版);2010年03期

6 彭春艷;張暉;包玲玉;陳昌平;;基于條件隨機(jī)域的生物命名實(shí)體識(shí)別[J];計(jì)算機(jī)工程;2009年22期

7 曲曉棠;沈曉紅;;基于最大熵模型的中文命名實(shí)體識(shí)別研究[J];科技信息(學(xué)術(shù)研究);2008年30期

8 向曉雯,史曉東,曾華琳;一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識(shí)別系統(tǒng)[J];計(jì)算機(jī)應(yīng)用;2005年10期

9 張曉艷;王挺;陳火旺;;命名實(shí)體識(shí)別研究[J];計(jì)算機(jī)科學(xué);2005年04期

10 閆海磊;施水才;;一種面向時(shí)政新聞的命名實(shí)體識(shí)別方法[J];北京信息科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2018年06期

相關(guān)會(huì)議論文 前10條

1 向曉雯;史曉東;曾華琳;;一個(gè)統(tǒng)計(jì)與規(guī)則相結(jié)合的中文命名實(shí)體識(shí)別系統(tǒng)[A];第六屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集[C];2005年

2 李治國(guó);周俏麗;;在篇章中面向產(chǎn)品類的命名實(shí)體識(shí)別研究[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

3 付瑞吉;車(chē)萬(wàn)翔;劉挺;;一種基于分類方法的音樂(lè)命名實(shí)體識(shí)別技術(shù)[A];黑龍江省計(jì)算機(jī)學(xué)會(huì)2009年學(xué)術(shù)交流年會(huì)論文集[C];2010年

4 馮元勇;孫樂(lè);張大鯤;李文波;;基于單字提示特征的中文命名實(shí)體識(shí)別快速算法[A];第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集[C];2007年

5 劉非凡;趙軍;呂碧波;于浩;夏迎炬;;面向商務(wù)信息抽取的產(chǎn)品命名實(shí)體識(shí)別研究[A];全國(guó)第八屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議(JSCL-2005)論文集[C];2005年

6 陳禹;史曉東;向曉雯;張潤(rùn)延;;基于混合方法的中文命名實(shí)體識(shí)別[A];內(nèi)容計(jì)算的研究與應(yīng)用前沿——第九屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議論文集[C];2007年

7 龐薇;徐波;;基于雙語(yǔ)平行語(yǔ)料的分層次命名實(shí)體抽取[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年

8 史樹(shù)敏;王志強(qiáng);周浪;馮沖;黃河燕;;基于條件隨機(jī)域的中文命名實(shí)體識(shí)別[A];第三屆學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2006年

9 廖先桃;于海濱;秦兵;劉挺;;HMM與自動(dòng)規(guī)則提取相結(jié)合的中文命名實(shí)體識(shí)別[A];第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)論文集[C];2004年

10 朱佳暉;張文峰;劉衛(wèi)平;張超;陳淵;;基于雙向LSTM和CRF的軍事命名實(shí)體識(shí)別和鏈接[A];第六屆中國(guó)指揮控制大會(huì)論文集(上冊(cè))[C];2018年

相關(guān)博士學(xué)位論文 前10條

1 朱鎖玲;命名實(shí)體識(shí)別在方志內(nèi)容挖掘中的應(yīng)用研究[D];南京農(nóng)業(yè)大學(xué);2011年

2 付瑞吉;開(kāi)放域命名實(shí)體識(shí)別及其層次化類別獲取[D];哈爾濱工業(yè)大學(xué);2014年

3 羅芳;意見(jiàn)挖掘中若干關(guān)鍵問(wèn)題研究[D];武漢理工大學(xué);2011年

4 豆增發(fā);生物命名實(shí)體識(shí)別及生物文本分類[D];西安電子科技大學(xué);2013年

5 李彥鵬;特征耦合泛化及其在文體挖掘中的應(yīng)用[D];大連理工大學(xué);2011年

6 何濤;互聯(lián)網(wǎng)廣告投遞中的商品名稱識(shí)別[D];武漢大學(xué);2014年

7 盧延鑫;基于自然語(yǔ)言處理技術(shù)的循證醫(yī)學(xué)信息提取研究[D];復(fù)旦大學(xué);2011年

8 錢(qián)偉中;基于判別式模型的蛋白質(zhì)互作用文本挖掘技術(shù)研究[D];電子科技大學(xué);2011年

9 袁鋒;中醫(yī)醫(yī)案文本挖掘的若干關(guān)鍵技術(shù)研究[D];山東師范大學(xué);2016年

10 穆一夫;基于認(rèn)知的非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)與算法研究[D];中國(guó)礦業(yè)大學(xué)(北京);2013年

相關(guān)碩士學(xué)位論文 前10條

1 耿雪來(lái);面向旅游的蒙漢雙語(yǔ)知識(shí)圖譜的研究與構(gòu)建[D];內(nèi)蒙古大學(xué);2019年

2 王超;基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別與實(shí)體關(guān)系聯(lián)合抽取[D];東北師范大學(xué);2019年

3 徐國(guó)海;面向中文醫(yī)療文本的命名實(shí)體識(shí)別研究[D];華東師范大學(xué);2019年

4 李延昀;基于注意力機(jī)制的命名實(shí)體識(shí)別算法研究[D];北京郵電大學(xué);2019年

5 干家東;參數(shù)共享模式下的實(shí)體和關(guān)系聯(lián)合抽取研究[D];北京郵電大學(xué);2019年

6 勞雅迪;基于強(qiáng)化學(xué)習(xí)的命名實(shí)體識(shí)別算法研究[D];北京郵電大學(xué);2019年

7 顧溢;基于BiLSTM-CRF的復(fù)雜中文命名實(shí)體識(shí)別研究[D];南京大學(xué);2019年

8 安磊;構(gòu)建金融知識(shí)圖譜的知識(shí)抽取服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)[D];南京大學(xué);2019年

9 韓靜漪;科技項(xiàng)目申報(bào)通知的命名實(shí)體識(shí)別研究[D];南京農(nóng)業(yè)大學(xué);2017年

10 楊賀羽;基于深度學(xué)習(xí)的半監(jiān)督式命名實(shí)體識(shí)別[D];沈陽(yáng)工業(yè)大學(xué);2019年



本文編號(hào):2783068

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/yixuelunwen/swyx/2783068.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f103a***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com