天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于自由詞的基因功能注釋和分子網(wǎng)絡(luò)構(gòu)建

發(fā)布時(shí)間:2018-06-29 07:06

  本文選題:文獻(xiàn)挖掘 + 數(shù)據(jù)庫(kù) ; 參考:《南方醫(yī)科大學(xué)》2012年碩士論文


【摘要】:背景 當(dāng)前高通量分析方法(例如,基因芯片、蛋白質(zhì)組學(xué)和RNA測(cè)序等)已成為生物醫(yī)學(xué)研究的常規(guī)手段。通過(guò)高通量方法篩選出的一組標(biāo)簽基因(或其產(chǎn)物),人們需要解析生物學(xué)含義、功能、參與的調(diào)控通路和分子網(wǎng)絡(luò),進(jìn)一步識(shí)別網(wǎng)絡(luò)中新的疾病基因和網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)(或者調(diào)控通路)等。 隨著生物信息學(xué)的興起,文獻(xiàn)挖掘已逐步成為生物醫(yī)學(xué)研究的常規(guī)輔助手段,同時(shí)也成為大規(guī)模獲取原始數(shù)據(jù)的重要途經(jīng)之一;為助推疾病的診斷、預(yù)防和治療研究起到了重要作用。文獻(xiàn)挖掘在很多重要的生物信息研究領(lǐng)域(例如,獲取蛋白質(zhì)相互作用、基因功能注釋和生物通路等)發(fā)揮著重要作用。 目前許多基因功能、通路和分子相互作用等數(shù)據(jù)主要由人工從文獻(xiàn)中提取并建成數(shù)據(jù)庫(kù),如GO數(shù)據(jù)庫(kù)注釋基因的功能、KEGG數(shù)據(jù)庫(kù)注釋代謝通路、HPRD數(shù)據(jù)庫(kù)注釋蛋白-蛋白相互作用等。但是人工注釋由于人力、物力有限,只能注釋一小部分的基因功能、通路和分子相互作用而且注釋的形式是固化的不能隨意變更。以GO數(shù)據(jù)庫(kù)為例,大量與基因功能密切相關(guān)的注釋仍然沒有被GO收錄,例如在胚胎干細(xì)胞中特異表達(dá)的基因和與特定病毒相關(guān)的基因等。因此,本研究開發(fā)網(wǎng)絡(luò)版文獻(xiàn)挖掘軟件GenCLiP2.0,注釋基因的功能和分子相互作用。軟件的主要特色是:1)通過(guò)機(jī)器自動(dòng)挖掘自由詞并允許用戶以人工編輯自由詞的方式注釋基因功能;2)從Pubmed摘要中識(shí)別并整合最全面的分子相互作用,構(gòu)建分子相互作用網(wǎng)絡(luò)及與任意自由詞相關(guān)的子網(wǎng)絡(luò)。 ■材料與方法 1、文獻(xiàn)挖掘人基因功能和分子網(wǎng)絡(luò)。 (1)數(shù)據(jù)庫(kù)下載:將PubMed文獻(xiàn)數(shù)據(jù)庫(kù)、Entrez gene基因名稱數(shù)據(jù)庫(kù)和HUGO基因名稱數(shù)據(jù)庫(kù)下載到本地并定期更新。 (2)基因相關(guān)文獻(xiàn)識(shí)別:整合Entrez gene基因名稱數(shù)據(jù)庫(kù)和HUGO基因名稱數(shù)據(jù)庫(kù),建立人基因名稱數(shù)據(jù)庫(kù);根據(jù)人基因名稱(包括縮寫、別名、全稱和產(chǎn)物名稱等),制定基因名稱的識(shí)別規(guī)則,識(shí)別PubMed中的基因相關(guān)文獻(xiàn),建成數(shù)據(jù)庫(kù)。 我們采用基于詞典和基于規(guī)則的混合方法識(shí)別基因相關(guān)文獻(xiàn)。首先,提取人基因名稱(包括縮寫、別名、全稱和產(chǎn)物名稱等)和Entrez gene的基因簡(jiǎn)介。對(duì)基因名稱作相應(yīng)的擴(kuò)展、刪減和修正,以提高基因名稱識(shí)別查全率。同時(shí),根據(jù)基因全稱和基因簡(jiǎn)介制定輔助檢索詞,提高基因名稱識(shí)別準(zhǔn)確率。然后,在Biocreative Ⅱ GN訓(xùn)練集上總結(jié)歸納復(fù)雜的基因名稱識(shí)別規(guī)則,進(jìn)一步提高基因名稱識(shí)別查全率和準(zhǔn)確率。 (3)基因功能注釋識(shí)別:識(shí)別至少在兩個(gè)基因的相關(guān)文獻(xiàn)中高頻率出現(xiàn)的非公共詞匯的單詞和詞組為基因的功能注釋(即關(guān)鍵詞),建成數(shù)據(jù)庫(kù)。 我們通過(guò)兩種方法識(shí)別基因的關(guān)鍵詞。一、識(shí)別基因相關(guān)文獻(xiàn)中高頻率出現(xiàn)的非公共詞匯為基因的候選關(guān)鍵詞。二、識(shí)別基因相關(guān)文獻(xiàn)中高頻率出現(xiàn)的詞組(包括GO數(shù)據(jù)庫(kù)的生物學(xué)過(guò)程和分子功能注釋,以及文獻(xiàn)中出現(xiàn)簡(jiǎn)寫形式的詞組)為基因的候選關(guān)鍵詞。進(jìn)一步篩選至少兩個(gè)基因共有的候選關(guān)鍵詞作為基因的關(guān)鍵詞。 (4)分子相互作用識(shí)別:從基因相關(guān)文獻(xiàn)中提取分子相互作用對(duì)(包括蛋白-蛋白相互作用和蛋白-基因相互作用),建成數(shù)據(jù)庫(kù)。 我們收集廣泛使用的描述分子相互作用的調(diào)控詞匯。在五個(gè)蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)文獻(xiàn)測(cè)試集(corpus)上總結(jié)歸納各個(gè)調(diào)控詞的用法,從而制定識(shí)別規(guī)則。將基因相關(guān)文獻(xiàn)分割為句子,根據(jù)制定的規(guī)則識(shí)別句子中相互作用的基因/蛋白對(duì)。 (5)整合已有的分子相互作用數(shù)據(jù)庫(kù)。 我們收集四個(gè)已有的基于人工文獻(xiàn)注釋的分子相互作用數(shù)據(jù)庫(kù)(HPRD、 BioGRID、CORUM、IntAct),提取其中人的分子相互作用對(duì)。如果該分子對(duì)在同一篇摘要的同一句子出現(xiàn),則將其整合至上述建立的分子相互作用數(shù)據(jù)庫(kù)。 (6)詞相關(guān)基因識(shí)別:根據(jù)用戶提交的單詞(組合),從基因相關(guān)文獻(xiàn)中,識(shí)別包含該單詞(組合)并且與基因名稱出現(xiàn)在同一句子的文獻(xiàn),由此報(bào)告識(shí)別到的單詞(組合)相關(guān)基因。 (7)基因功能檢索和聚類:根據(jù)用戶提交的單個(gè)基因或者基因列表,從基因功能注釋數(shù)據(jù)庫(kù)中,識(shí)別單個(gè)基因的功能注釋或者基因列表富集的功能注釋并進(jìn)行模糊聚類。允許用戶人工添加或者刪除基因功能注釋,使得聚類結(jié)果更加與用戶的研究目的密切相關(guān)。 (8)分子網(wǎng)絡(luò)構(gòu)建:根據(jù)用戶提交的單個(gè)基因或者基因列表,從分子相互作用對(duì)數(shù)據(jù)庫(kù)中,識(shí)別單個(gè)基因所在的分子網(wǎng)絡(luò)或基因列表所構(gòu)成的分子網(wǎng)絡(luò)。進(jìn)一步地,根據(jù)用戶提交的單詞(組合),從分子網(wǎng)絡(luò)中,識(shí)別基因?qū)λ诘奈墨I(xiàn)包含該單詞(組合)并與其出現(xiàn)在同一句子的基因?qū)?由此構(gòu)建特定關(guān)鍵詞相關(guān)的分子網(wǎng)絡(luò)。 2、數(shù)據(jù)庫(kù)挖掘人基因功能與通路。 (1)下載人的GO數(shù)據(jù)庫(kù)和通路數(shù)據(jù)庫(kù)(包括代謝通路)到本地。 (2)根據(jù)用戶提交的單個(gè)基因(或基因列表),檢索(或富集分析)其GO注釋和調(diào)控通路。 (3)對(duì)所提交基因列表的功能富集分析結(jié)果進(jìn)行模糊聚類和顯示。 3、GenCLiP2.0網(wǎng)絡(luò)平臺(tái)的開發(fā)。 在浪潮高性能計(jì)算集群服務(wù)器上,使用LAMP組合(Linux+Apache+MySQL+PHP/Perl),即整個(gè)系統(tǒng)工作在Linux平臺(tái),以Apache作為Web服務(wù)器,使用MySQL作為數(shù)據(jù)庫(kù)系統(tǒng),并使用PHP/Perl腳本語(yǔ)言結(jié)合HTML語(yǔ)言和JavaScript進(jìn)行開發(fā)。最大限度地設(shè)計(jì)一個(gè)穩(wěn)定且易擴(kuò)展的網(wǎng)絡(luò)系統(tǒng),以及一個(gè)簡(jiǎn)單易操作的網(wǎng)頁(yè)界面。 4、GenCLiP2.0網(wǎng)絡(luò)平臺(tái)的測(cè)試和應(yīng)用。 (1)我們分別用Biocreative Ⅱ GN測(cè)試集和iHOP測(cè)試集檢驗(yàn)基因名稱識(shí)別模塊的查全率和準(zhǔn)確率,并與參加Biocreative Ⅱ競(jìng)賽的同類軟件以及iHOP軟件進(jìn)行比較。 (2)我們隨機(jī)提取200個(gè)句子(包含442對(duì)分子相互作用),進(jìn)行人工閱讀驗(yàn)證,確定分子相互作用識(shí)別準(zhǔn)確率。 (3)我們將文獻(xiàn)挖掘識(shí)別到的所有分子相互作用對(duì)與已有的四個(gè)PPI數(shù)據(jù)庫(kù)進(jìn)行比較,確定新發(fā)現(xiàn)的分子相互作用對(duì)數(shù)量。 (4)我們?cè)谠~相關(guān)基因模塊中輸入cancer "stem cell",搜索腫瘤干細(xì)胞相關(guān)基因,并人工閱讀以確定準(zhǔn)確率。 (5)我們根據(jù)Sengupta等提供的695個(gè)鼻咽癌與正常鼻咽組織的差異表達(dá)基因,其中上調(diào)和下調(diào)的基因個(gè)數(shù)分別為326和369,分別輸入GenCLiP2.0網(wǎng)絡(luò)平臺(tái)進(jìn)行基因功能聚類分析和分子網(wǎng)絡(luò)構(gòu)建。 ■結(jié)果 1.基因名稱識(shí)別模塊在Biocreative Ⅱ GN測(cè)試集上取得了查全率83.8%,準(zhǔn)確率81.8%,F值0.828的結(jié)果,優(yōu)于當(dāng)時(shí)競(jìng)賽成績(jī)最好的系統(tǒng)。iHOP測(cè)試集的結(jié)果為F=0.861,略優(yōu)于iHOP的測(cè)試結(jié)果。 2.在截止2010年的PubMed全集共1956萬(wàn)篇文獻(xiàn)摘要中,識(shí)別到18305個(gè)人基因在314萬(wàn)篇摘要中出現(xiàn)594萬(wàn)次。平均每個(gè)基因的相關(guān)文獻(xiàn)數(shù)為326篇。 3.總共識(shí)別到17497個(gè)關(guān)鍵詞。在18232個(gè)人基因中,平均每個(gè)基因的關(guān)鍵詞有24個(gè)而平均每個(gè)關(guān)鍵詞的相關(guān)基因有25個(gè)。同時(shí)計(jì)算了關(guān)鍵詞在每個(gè)基因相關(guān)文獻(xiàn)中的詞頻,這些關(guān)鍵詞和詞頻最終用于文獻(xiàn)功能注釋和聚類分析。 4.我們制定了53條分子相互作用對(duì)識(shí)別規(guī)則。在訓(xùn)練集上有接近九成的準(zhǔn)確率。分子相互作用對(duì)識(shí)別模塊最終確定了60609個(gè)基因?qū)?與目前流行的4個(gè)PPI數(shù)據(jù)庫(kù)的交集不足四分之一。整合這4個(gè)PPI數(shù)據(jù)庫(kù)之后,分子相互作用對(duì)增加到79033對(duì)。 5.網(wǎng)絡(luò)平臺(tái)構(gòu)建工作完成,網(wǎng)址為:http://ci.smu.edu.cn。GenCLiP2.0的主要功能模塊包括詞相關(guān)基因檢索模塊,基因信息模塊,基因功能注釋聚類模塊,分子網(wǎng)絡(luò)文獻(xiàn)挖掘模塊,GO分析模塊和通路分析模塊,另外還有用戶注冊(cè)模塊。 6.我們用字符串cancer "stem cell",在詞相關(guān)基因檢索模塊中檢索到333個(gè)候選腫瘤干細(xì)胞相關(guān)基因;虬闯霈F(xiàn)cancer "stem cell"的文獻(xiàn)數(shù)目排序。人工閱讀發(fā)現(xiàn)大約50%的基因是正確的。 7.695個(gè)鼻咽癌差異表達(dá)基因用GenCLiP2.0的分析結(jié)果與Sengupta等用GO注釋的分析結(jié)果一致。并且GenCLiP2.0發(fā)現(xiàn)鼻咽癌差異表達(dá)基因與上皮組織分化、EBV反應(yīng)、胚胎干細(xì)胞、間充質(zhì)干細(xì)胞等密切相關(guān)。這些相關(guān)以自由詞的形式出現(xiàn),而不是以GO注釋的標(biāo)準(zhǔn)形式出現(xiàn),因此用GO注釋無(wú)法發(fā)現(xiàn)。進(jìn)一步地,GenCLiP2.0構(gòu)建了鼻咽癌差異表達(dá)基因參與的與特定功能相關(guān)的基因網(wǎng)絡(luò)并識(shí)別網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)。 結(jié)論 1. GenCLiP2.0從文獻(xiàn)中挖掘人基因的功能注釋和分子相互作用。其優(yōu)點(diǎn)在于:1)充分發(fā)揮自由詞的優(yōu)勢(shì),不受GO等標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)的形式和范圍限制;2)允許用戶發(fā)揮自己的專業(yè)知識(shí)通過(guò)添加刪除注釋詞匯參與基因功能注釋;3)實(shí)現(xiàn)對(duì)PubMed的全覆蓋,其注釋的數(shù)量和范圍比GO和KEGG等人工注釋數(shù)據(jù)庫(kù)更多、更全面。因此,GenCLiP2.0在闡明疾病的分子機(jī)制,構(gòu)建疾病的分子網(wǎng)絡(luò),發(fā)現(xiàn)診治的靶點(diǎn)等方面具有獨(dú)特的優(yōu)勢(shì)。但是,其缺點(diǎn)是注釋的假陽(yáng)性率較高,不如GO和KEGG等人工注釋數(shù)據(jù)庫(kù)可靠。 2. GenCLiP2.0的基因名稱識(shí)別模塊具有較高的查全率和準(zhǔn)確率,與國(guó)際上先進(jìn)的文獻(xiàn)挖掘軟件的水平相當(dāng),識(shí)別出來(lái)的基因相關(guān)文獻(xiàn)比較可靠。分子相互作用識(shí)別模塊具有較高的準(zhǔn)確率,達(dá)到89%;但是查全率很低,不足30%。這兩個(gè)模塊仍然有較大的提升空間,可繼續(xù)研究或者擴(kuò)展到更多的物種。 3. GenCLiP2.0的分子相互作用數(shù)據(jù)庫(kù)提供了6萬(wàn)多個(gè)基因?qū)?并且大部分是其它數(shù)據(jù)庫(kù)尚未注釋的。通過(guò)整合已有的四個(gè)PPI數(shù)據(jù)庫(kù)后,基因?qū)_(dá)到7萬(wàn)多對(duì),是迄今為止基于摘要注釋最全面的數(shù)據(jù)庫(kù)。 4. GenCLiP2.0的分析速度快、分析周期短,網(wǎng)頁(yè)操作簡(jiǎn)單,用戶容易上手。
[Abstract]:......
【學(xué)位授予單位】:南方醫(yī)科大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2012
【分類號(hào)】:R341

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 張重義;范華敏;楊艷會(huì);李明杰;李娟;許海霞;陳軍營(yíng);陳新建;;連作地黃cDNA消減文庫(kù)的構(gòu)建及分析[J];中國(guó)中藥雜志;2011年03期

2 詹皓;李熹娟;;生物控制論的觀點(diǎn)看下丘腦的“老化鐘”作用[J];醫(yī)學(xué)與哲學(xué)(人文社會(huì)醫(yī)學(xué)版);1990年04期

3 顏建華;朱錫華;;絨毛膜促性腺激素、生長(zhǎng)催乳素的基因調(diào)控[J];醫(yī)學(xué)分子生物學(xué)雜志;1993年01期

4 張敏;胞核內(nèi)維甲酸受體[J];國(guó)外醫(yī)學(xué).生理.病理科學(xué)與臨床分冊(cè);1995年04期

5 宋瑞平;短暫腦缺血后的延遲性神經(jīng)元降解——細(xì)胞凋亡[J];國(guó)外醫(yī)學(xué).麻醉學(xué)與復(fù)蘇分冊(cè);2000年04期

6 邱德有;試論藥用植物有效成分基因調(diào)控的研究進(jìn)展[J];世界科學(xué)技術(shù);2000年03期

7 張小玉;;骨細(xì)胞凋亡及其調(diào)控與絕經(jīng)后骨質(zhì)疏松[J];國(guó)外醫(yī)學(xué).老年醫(yī)學(xué)分冊(cè);2000年05期

8 趙志力;付小兵;;修復(fù)細(xì)胞分化的調(diào)控機(jī)制與鑒別[J];感染.炎癥.修復(fù);2001年04期

9 紀(jì)方,趙鵬,李成乾;動(dòng)脈粥樣硬化發(fā)生發(fā)展中的基因表達(dá)與調(diào)控[J];中國(guó)分子心臟病學(xué)雜志;2002年02期

10 楊宗孟,劉春娣;自然流產(chǎn)的基因調(diào)控與陰陽(yáng)調(diào)節(jié)[J];長(zhǎng)春中醫(yī)學(xué)院學(xué)報(bào);2003年03期

相關(guān)會(huì)議論文 前10條

1 梁滿中;陳良碧;張會(huì)勇;;超級(jí)雜交稻雜種優(yōu)勢(shì)基因組水平的轉(zhuǎn)錄因子分析[A];中國(guó)作物學(xué)會(huì)2007年全國(guó)作物遺傳育種學(xué)術(shù)研討會(huì)論文集[C];2007年

2 李曉陽(yáng);黃新華;;只有生物技術(shù)能拯救世界——基因調(diào)控是發(fā)展綠色高效農(nóng)業(yè)的捷徑[A];新世紀(jì)(首屆)全國(guó)綠色環(huán)保農(nóng)藥技術(shù)論壇暨產(chǎn)品展示會(huì)論文集[C];2002年

3 譚業(yè)輝;王暢;李薇;王冠軍;;紅系造血分化中EDRF基因的表達(dá)變化及調(diào)控[A];第11次中國(guó)實(shí)驗(yàn)血液學(xué)會(huì)議論文匯編[C];2007年

4 杜宏偉;楊柳燕;肖琳;;轉(zhuǎn)聚磷激酶基因應(yīng)用及其調(diào)控的研究進(jìn)展[A];江蘇省遺傳學(xué)會(huì)第七屆二次代表大會(huì)暨學(xué)術(shù)研討會(huì)論文摘要匯編[C];2008年

5 荊清;袁文俊;秦永文;;microRNA的基因調(diào)控新功能[A];中國(guó)生理學(xué)會(huì)第五屆全國(guó)心血管、呼吸和腎臟生理學(xué)學(xué)術(shù)會(huì)議論文摘要匯編[C];2005年

6 顏軍;陳愛國(guó);;心理應(yīng)激對(duì)機(jī)體淋巴細(xì)胞凋亡及基因調(diào)控的影響[A];第十屆全國(guó)心理學(xué)學(xué)術(shù)大會(huì)論文摘要集[C];2005年

7 劉洪;趙彥艷;王s,

本文編號(hào):2081320


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/xiyixuelunwen/2081320.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶64e25***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com