天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 理工論文 > 生物學(xué)論文 >

RNA互作文本挖掘工具開(kāi)發(fā)及應(yīng)用研究

發(fā)布時(shí)間:2020-08-20 18:33
【摘要】:RNA互作組學(xué)(RNA interactomics)是RNA組學(xué)(RNomics)研究的重要組成。其中,(1)RNA互作數(shù)據(jù)的收集和歸納以及(2)RNA相關(guān)互作網(wǎng)絡(luò)的分析與挖掘是RNA互作組學(xué)研究的重要內(nèi)容。目前生物學(xué)家已經(jīng)開(kāi)發(fā)了各種RNA互作相關(guān)的高通量實(shí)驗(yàn)技術(shù)、預(yù)測(cè)算法以及數(shù)據(jù)庫(kù),為RNA互作組學(xué)中數(shù)據(jù)收集和歸納研究提供了有力支撐。然而,還有大量生物實(shí)驗(yàn)發(fā)現(xiàn)的RNA互作數(shù)據(jù)分散在海量的文獻(xiàn)中,缺乏系統(tǒng)的收集和歸納,這是RNA互作組學(xué)領(lǐng)域亟待解決的問(wèn)題之一。開(kāi)發(fā)針對(duì)相關(guān)數(shù)據(jù)的文本挖掘算法,是解決這個(gè)問(wèn)題的重要途徑。同時(shí),RNA互作網(wǎng)絡(luò)通常包含了海量的信息,這種級(jí)別的數(shù)據(jù)往往是傳統(tǒng)生物學(xué)實(shí)驗(yàn)和技術(shù)難以應(yīng)對(duì)的。因此,從數(shù)學(xué)和統(tǒng)計(jì)角度分析RNA互作網(wǎng)絡(luò),根據(jù)分析結(jié)果指導(dǎo)實(shí)驗(yàn)研究將成為RNA互作組學(xué)研究的新方法。本論文針對(duì)散在于文獻(xiàn)中的海量RNA互作數(shù)據(jù),開(kāi)發(fā)了RIscoper(RNA Interactome Scoper)文本挖掘系統(tǒng),可提取收集海量文獻(xiàn)中各種RNA-RNA互作(RNA-RNA interaction,RRI)數(shù)據(jù)。然后,針對(duì)基于RIscoper軟件輔助收集的RRI數(shù)據(jù)形成的RNA互作網(wǎng)絡(luò),選擇對(duì)其中病毒-宿主間非編碼RNA(non-coding RNA,ncRNA)介導(dǎo)的串?dāng)_(crosstalk)網(wǎng)絡(luò)進(jìn)行深入挖掘,嘗試揭示病毒感染過(guò)程中潛在的分子機(jī)制。本論文的主要研究?jī)?nèi)容如下:1.基于N-元語(yǔ)義模型(N-gram model)設(shè)計(jì)和開(kāi)發(fā)RIscoper算法流程及軟件。算法流程第一步為語(yǔ)句標(biāo)準(zhǔn)化(sentence standardization),包括語(yǔ)句分割和詞形還原等內(nèi)容;第二步是對(duì)語(yǔ)句中的RNA名稱(chēng)進(jìn)行命名實(shí)體識(shí)別(named entity recognition);第三步是語(yǔ)句打分(sentence scoring),用分值評(píng)價(jià)語(yǔ)句是否包含RRI數(shù)據(jù)信息,具體包括利用N-元語(yǔ)義模型計(jì)算語(yǔ)句的最大似然概率、利用柯蒂斯平滑算法(Katz smoothing algorithm)對(duì)概率矩陣進(jìn)行平滑處理以及利用幾何平均值對(duì)語(yǔ)句長(zhǎng)度進(jìn)行標(biāo)準(zhǔn)化處理。2.構(gòu)建了一個(gè)包括13,377條RRI陽(yáng)性語(yǔ)句的語(yǔ)料庫(kù)作為RIscoper標(biāo)準(zhǔn)訓(xùn)練集。該語(yǔ)料庫(kù)內(nèi)所有語(yǔ)句均是通過(guò)人工閱讀大量的專(zhuān)業(yè)文獻(xiàn)而獲取的(來(lái)源于超過(guò)5,000篇專(zhuān)業(yè)期刊文獻(xiàn)),覆蓋多種RNA互作信息。3.使用10-折交叉驗(yàn)證方法評(píng)價(jià)軟件的性能。結(jié)果證明RIscoper在RRI數(shù)據(jù)(精確度:90.4%,召回率93.9%)和蛋白質(zhì)-蛋白質(zhì)互作(protein-protein interaction,PPI)數(shù)據(jù)(精確度:90.3%,召回率94.1%)提取上都有很高的性能。此外,案例研究的結(jié)果發(fā)現(xiàn)RIscoper可提取到絕大部分有效的RRI信息,這些結(jié)果表明RIscoper軟件具有良好的準(zhǔn)確性和實(shí)用性。4.收集整理多個(gè)數(shù)據(jù)庫(kù)和平臺(tái)的病毒-宿主(人類(lèi))間以及人類(lèi)的PPI以及ncRNA-蛋白質(zhì)互作(ncRNA-protein interaction,NPI)網(wǎng)絡(luò)數(shù)據(jù)(其中NPI網(wǎng)絡(luò)數(shù)據(jù)來(lái)自于RIscoper軟件的輔助),分析病毒ncRNA靶向的宿主蛋白質(zhì)以及ncRNA在PPI以及NPI網(wǎng)絡(luò)中的中心性(度與介數(shù)),結(jié)果發(fā)現(xiàn)病毒ncRNA靶向的宿主蛋白質(zhì)和ncRNA在網(wǎng)絡(luò)中傾向于是中樞節(jié)點(diǎn)(hub node)以及瓶頸節(jié)點(diǎn)(bottleneck node)(靶向蛋白質(zhì):Wilcoxon秩和檢驗(yàn),度:P=1.99E-11,介數(shù):P=9.32E-09;靶向ncRNA:Wilcoxon秩和檢驗(yàn),度:P2.2E-16,介數(shù):P2.2E-16)。提示病毒在感染過(guò)程中傾向于攻擊宿主分子調(diào)控網(wǎng)絡(luò)的重要節(jié)點(diǎn)。例如,EBV原始病原體miR-BHRF1-1直接靶向人類(lèi)PPI網(wǎng)絡(luò)中樞和瓶頸蛋白質(zhì)P53,控制EBV晚期裂解復(fù)制;ebv-miR-BHRF1-2直接靶向BCL2,抑制細(xì)胞早期凋亡。5.對(duì)病毒ncRNA和蛋白質(zhì)共同靶向的人類(lèi)蛋白質(zhì)的中心性和功能進(jìn)行分析,發(fā)現(xiàn)其度和介數(shù)顯著高于其他靶向蛋白質(zhì),且顯著參與到細(xì)胞死亡相關(guān)生物學(xué)功能中,尤其是參與到自噬相關(guān)的調(diào)控網(wǎng)絡(luò)。6.定義和篩選病毒-人類(lèi)間功能同源性ncRNA對(duì),通過(guò)對(duì)ncRNA共同靶向的基因數(shù)量進(jìn)行顯著性分析,得到820條潛在的病毒-人類(lèi)間功能同源性ncRNA對(duì)(P0.01),提示部分病毒ncRNA和人類(lèi)ncRNA傾向于調(diào)節(jié)類(lèi)似的靶基因集合,存在功能上的同源性。7.基于病毒-人類(lèi)間ncRNA串?dāng)_網(wǎng)絡(luò),利用重啟隨機(jī)游走算法對(duì)病毒進(jìn)行聚類(lèi)分析,結(jié)果發(fā)現(xiàn)了6個(gè)不同的病毒簇。功能富集分析發(fā)現(xiàn)不同的病毒簇具有不同的功能傾向而同一病毒簇的功能趨向于相同。這提示不同病毒簇間存在著不同的感染和發(fā)病機(jī)制而同一病毒簇可能存在機(jī)制上的同源性。綜上所述,本研究圍繞著RNA互作組學(xué)目前的需求和方向,基于自然語(yǔ)言處理開(kāi)發(fā)了挖掘文獻(xiàn)中RRI信息的工具RIscoper,為未來(lái)RNA組學(xué)研究提供數(shù)據(jù)積累和技術(shù)支撐。然后,針對(duì)RIscoper輔助挖掘得到的病毒-宿主間ncRNA介導(dǎo)的串?dāng)_網(wǎng)絡(luò)進(jìn)行深入挖掘和研究,揭示病毒感染的一些潛在的分子機(jī)制,為全面解析病毒感染機(jī)制以及開(kāi)發(fā)相應(yīng)治療方案提供有效的信息和線索。
【學(xué)位授予單位】:電子科技大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2019
【分類(lèi)號(hào)】:TP391.1;Q811.4
【圖文】:

示意圖,中樞,節(jié)點(diǎn),瓶頸


圖 1-1 網(wǎng)絡(luò)的中樞節(jié)點(diǎn)和瓶頸節(jié)點(diǎn)以及 k-核的示意圖。(a)網(wǎng)絡(luò)的中樞節(jié)點(diǎn)與瓶頸節(jié)點(diǎn)的示意圖;(b)網(wǎng)絡(luò)的 k-核的示意圖表 1-4 網(wǎng)絡(luò)中的一些基本術(shù)語(yǔ)及拓?fù)鋵W(xué)特征的定義術(shù)語(yǔ) 定義

算法流程,語(yǔ)句,實(shí)體


圖 2-1 RIscoper 算法流程。第一步是語(yǔ)句標(biāo)準(zhǔn)化,RIscoper 通過(guò) OpenNLP 工具將文章分割成語(yǔ)句,并通過(guò) BioLemmatizer 工具對(duì)所有單詞進(jìn)行詞形還原;第二步是命名實(shí)體識(shí)別(NER),RIscoper 集成一個(gè)預(yù)設(shè)實(shí)體語(yǔ)料庫(kù)用于 NER;第三步是語(yǔ)句打分,RIscoper 通過(guò) N-gram 模型進(jìn)行評(píng)分;此外,RIscoper 提供了一個(gè)可選模塊(RNA 名稱(chēng)實(shí)體過(guò)濾器),用于過(guò)濾掉不包含 RNA 名稱(chēng)的語(yǔ)句

模型圖,二元語(yǔ)義,語(yǔ)料庫(kù),模型


0.01 0.0245 0.9846 0.6457 0.77982.4.2.2 使用PPI語(yǔ)料庫(kù)評(píng)價(jià)性能本章研究還整理和收集了一套 PPI 語(yǔ)料庫(kù)對(duì) RIscoper 性能進(jìn)行評(píng)價(jià)。PPI 語(yǔ)料庫(kù)來(lái)源于 BioCreative III 語(yǔ)料庫(kù)[137],其是一個(gè)用于評(píng)估生物與醫(yī)學(xué)領(lǐng)域內(nèi)文本挖掘和信息提取軟件的標(biāo)準(zhǔn)語(yǔ)料庫(kù)。首先,通過(guò) 10-折交叉驗(yàn)證方法將陽(yáng)性集(1,617條陽(yáng)性語(yǔ)句)和陰性集(1,617 條陰性語(yǔ)句)分別平均分成十份,九份陽(yáng)性集用來(lái)估計(jì)模型參數(shù),構(gòu)建打分矩陣。九份陰性集用于判斷 FDR 閾值的背景。另兩份具有類(lèi)別標(biāo)簽,用來(lái)測(cè)試軟件性能。然后通過(guò) ROC 曲線評(píng)價(jià)性能,結(jié)果發(fā)現(xiàn) AUC為 0.962(見(jiàn)圖 2-4b)。最后,分別取 FDR 為 0.01,0.05 以及 0.1 三個(gè)閾值,計(jì)算精確度,召回率以及 F1-值,結(jié)果與 RRI 語(yǔ)料庫(kù)的評(píng)估結(jié)果類(lèi)似(見(jiàn)表 2-2),在FDR 分別為 0.1 與 0.05 的情況下,F(xiàn)1-值均超過(guò) 0.9(0.9217,0.9118)。而 FDR為 0.01 時(shí),閾值設(shè)置相對(duì)嚴(yán)格,導(dǎo)致召回率顯著下降,最終 F1-值不到 0.8(0.7805)。以上結(jié)果顯示,基于 1:1 的 PPI 陽(yáng)性和陰性語(yǔ)句數(shù)據(jù)集,RIscoper 仍然具有很好的性能。

【相似文獻(xiàn)】

相關(guān)期刊論文 前8條

1 劉樹(shù)業(yè);;非編碼RNA調(diào)節(jié)異常在肝細(xì)胞癌發(fā)生發(fā)展中的作用[J];世界華人消化雜志;2019年18期

2 鄭凌伶;戚益軍;屈良鵠;;走向國(guó)際科技前沿的中國(guó)RNA研究[J];中國(guó)科學(xué):生命科學(xué);2019年10期

3 林琳;劉建華;吳麗娜;;甲狀腺癌RNA分子研究進(jìn)展[J];腫瘤防治研究;2019年11期

4 楊瑩潔;趙虹;;競(jìng)爭(zhēng)性?xún)?nèi)源RNA在神經(jīng)退行性疾病中的作用研究進(jìn)展[J];內(nèi)科理論與實(shí)踐;2019年05期

5 劉凱;葉遠(yuǎn)舟;吳雨宸;蘇儉生;;非編碼RNA在牙髓炎中的研究進(jìn)展[J];中華臨床醫(yī)師雜志(電子版);2019年03期

6 秦少杰;王曉燕;林利;;環(huán)狀RNA的生物學(xué)功能及其在心血管疾病中的作用[J];臨床與病理雜志;2019年10期

7 張碩;王非凡;劉洪臣;;環(huán)狀RNA調(diào)控骨髓間充質(zhì)干細(xì)胞成骨分化的研究進(jìn)展[J];口腔頜面修復(fù)學(xué)雜志;2019年05期

8 楊宗霖;王藝;馬田田;霍春月;劉曉;闞云超;李丹丹;;有翅和無(wú)翅豌豆蚜中翅型分化信號(hào)通路相關(guān)微小RNA及其靶基因的表達(dá)差異[J];昆蟲(chóng)學(xué)報(bào);2019年11期

相關(guān)會(huì)議論文 前10條

1 張暢斌;尹愛(ài)華;何天文;王波;鄧文喻;賴(lài)有行;;一種經(jīng)濟(jì)便捷的手足口病原RNA提取方法[A];廣東省遺傳學(xué)會(huì)第九屆代表大會(huì)暨學(xué)術(shù)研討會(huì)論文及摘要匯編[C];2014年

2 李園園;陸俊梅;程松;崔振玲;;RNA恒溫?cái)U(kuò)增實(shí)時(shí)檢測(cè)技術(shù)鑒定鳥(niǎo)分枝桿菌和胞內(nèi)分枝桿菌[A];第四屆中國(guó)臨床微生物學(xué)大會(huì)暨微生物學(xué)與免疫學(xué)論壇論文匯編[C];2013年

3 Jingrong Wang;Junping Kou;Hilda Yau;Wanrong Zong;Tongmeng Yan;Zhi-Hong Jiang;;Protective Effect and Sequences of RNA Fragments from Ginseng's Larger RNAs against Myocardial Ischemia Injury in Mice[A];中國(guó)化學(xué)會(huì)第十一屆全國(guó)天然有機(jī)化學(xué)學(xué)術(shù)會(huì)議論文集(第一冊(cè))[C];2016年

4 郭曉強(qiáng);張巧霞;黃衛(wèi)人;蔡志明;;長(zhǎng)鏈非編碼RNA與腎細(xì)胞癌發(fā)生[A];遺傳多樣性:前沿與挑戰(zhàn)——中國(guó)的遺傳學(xué)研究(2013-2015)——2015中國(guó)遺傳學(xué)會(huì)大會(huì)論文摘要匯編[C];2015年

5 吳建軍;李勛;黃錦坤;楊倜;徐益勤;楊巧媛;蔣義國(guó);;環(huán)境化學(xué)物暴露血液非編碼RNA標(biāo)志物研究[A];中國(guó)毒理學(xué)會(huì)第七次全國(guó)毒理學(xué)大會(huì)暨第八屆湖北科技論壇論文集[C];2015年

6 李成云;梁戈玉;姚文卓;隋靜;申嫻;張艷秋;馬書(shū)梅;尹立紅;浦躍樸;;胃癌相關(guān)長(zhǎng)鏈非編碼RNA的鑒定及腫瘤標(biāo)志物的篩選研究[A];中國(guó)毒理學(xué)會(huì)第七次全國(guó)毒理學(xué)大會(huì)暨第八屆湖北科技論壇論文集[C];2015年

7 徐勇;張付全;張克讓;Yin Yao Shugart;;精神分裂癥中轉(zhuǎn)錄因子-微小RNA交互調(diào)控網(wǎng)絡(luò)的異常[A];中華醫(yī)學(xué)會(huì)第十三次全國(guó)精神醫(yī)學(xué)學(xué)術(shù)會(huì)議論文匯編[C];2015年

8 韓艷華;陳紅印;張禮生;;RNA干擾技術(shù)在昆蟲(chóng)滯育機(jī)制研究中的應(yīng)用[A];植?萍紕(chuàng)新與農(nóng)業(yè)精準(zhǔn)扶貧——中國(guó)植物保護(hù)學(xué)會(huì)2016年學(xué)術(shù)年會(huì)論文集[C];2016年

9 王小利;吳佳海;舒健虹;牟瓊;;高羊茅光周期調(diào)控基因RNA干擾表達(dá)載體構(gòu)建[A];中國(guó)草學(xué)會(huì)2013學(xué)術(shù)年會(huì)論文集[C];2013年

10 魏任雄;;長(zhǎng)鏈非編碼RNA與男性不育的研究進(jìn)展[A];中華中醫(yī)藥學(xué)會(huì)第十四次男科學(xué)術(shù)大會(huì)論文集[C];2014年

相關(guān)重要報(bào)紙文章 前10條

1 中科院上海生科院上海植物生理生態(tài)所 毛穎波;尋找小RNA世界里的另一道風(fēng)景[N];科學(xué)時(shí)報(bào);2011年

2 本報(bào)記者 沈則瑾;破解環(huán)形RNA之謎[N];經(jīng)濟(jì)日?qǐng)?bào);2019年

3 記者 顏維琦;我科學(xué)家深度“解碼”環(huán)形RNA[N];光明日?qǐng)?bào);2019年

4 唐一塵;新“剪刀”能暫時(shí)編輯RNA[N];中國(guó)科學(xué)報(bào);2019年

5 趙熙熙;實(shí)驗(yàn)室“原始湯”生成RNA堿基[N];中國(guó)科學(xué)報(bào);2019年

6 記者 黃辛;科學(xué)家實(shí)現(xiàn)活細(xì)胞RNA標(biāo)記與無(wú)背景成像[N];中國(guó)科學(xué)報(bào);2019年

7 記者 耿挺;RNA剪接基因編輯新方法[N];上?萍紙(bào);2018年

8 記者 聶翠蓉;基因檢測(cè)“神探夏洛克”問(wèn)世[N];科技日?qǐng)?bào);2017年

9 本報(bào)記者 聶翠蓉;讓RNA處理器在活細(xì)胞中“奔騰”[N];科技日?qǐng)?bào);2017年

10 記者 毛黎;脂質(zhì)分子可提高RNA干擾技術(shù)效率[N];科技日?qǐng)?bào);2009年

相關(guān)博士學(xué)位論文 前10條

1 龔朵;CCDC80下調(diào)血管平滑肌細(xì)胞LPL表達(dá)對(duì)動(dòng)脈粥樣硬化的影響及機(jī)制[D];南華大學(xué);2019年

2 張楊;RNA互作文本挖掘工具開(kāi)發(fā)及應(yīng)用研究[D];電子科技大學(xué);2019年

3 盧梅華;革蘭氏陽(yáng)性菌RNA降解關(guān)鍵酶的結(jié)構(gòu)與功能研究[D];浙江大學(xué);2019年

4 陳小翔;長(zhǎng)鏈非編碼RNA-ZFAS1促進(jìn)結(jié)直腸癌發(fā)生發(fā)展機(jī)制及其作為潛在標(biāo)志物的初步研究[D];東南大學(xué);2019年

5 王熵;siRNA的非對(duì)稱(chēng)結(jié)構(gòu)對(duì)RNA干擾的影響研究[D];湖南師范大學(xué);2016年

6 鄧世江;長(zhǎng)鏈非編碼RNA GLS-AS介導(dǎo)的c-Myc/GLS通路在胰腺癌中的作用及機(jī)制[D];華中科技大學(xué);2019年

7 周虎;基于非編碼RNA的胃癌標(biāo)志物篩選鑒定研究[D];武漢大學(xué);2016年

8 肖明揚(yáng);環(huán)狀RNA hsa_circ_0051488的篩選驗(yàn)證及其在多環(huán)芳烴致肺癌變中的生物學(xué)功能及作用機(jī)制研究[D];中國(guó)醫(yī)科大學(xué);2019年

9 馬明輝;長(zhǎng)鏈非編碼RNA ZBE1-AS1作為競(jìng)爭(zhēng)內(nèi)源性RNA促進(jìn)胃癌發(fā)展的機(jī)制研究[D];中國(guó)醫(yī)科大學(xué);2019年

10 靳建軍;長(zhǎng)非編碼RNA SYISL對(duì)肌肉生長(zhǎng)發(fā)育的影響及其分子機(jī)制研究[D];華中農(nóng)業(yè)大學(xué);2018年

相關(guān)碩士學(xué)位論文 前10條

1 胡橋;TbCSV及其衛(wèi)星TbCSB來(lái)源的部分siRNA功能研究[D];西南大學(xué);2019年

2 代濤;基于類(lèi)修飾DNA探針和免疫競(jìng)爭(zhēng)法的RNA N~6-甲基腺苷電化學(xué)檢測(cè)方法研究[D];重慶醫(yī)科大學(xué);2019年

3 張潤(rùn)姣;Nrf2通過(guò)mmu_circRNA_32463調(diào)控α-SYN的表達(dá)[D];河北醫(yī)科大學(xué);2019年

4 呂成偉;基于集成學(xué)習(xí)的σ~(54)啟動(dòng)子及RNA修飾位點(diǎn)的預(yù)測(cè)[D];桂林電子科技大學(xué);2019年

5 李家恒;長(zhǎng)鏈非編碼RNA 9130024F11Rik在小鼠腦發(fā)育過(guò)程中的作用初探[D];華僑大學(xué);2019年

6 劉玲;雙連接探針在RNA原位檢測(cè)中的開(kāi)發(fā)和應(yīng)用[D];華僑大學(xué);2019年

7 張科;煙草蛋白-TCV P8互作影響病毒誘導(dǎo)的RNA沉默在細(xì)胞間傳播機(jī)制的初步研究[D];杭州師范大學(xué);2019年

8 劉曼迪;豬源產(chǎn)腸毒素大腸桿菌總RNA的免疫保護(hù)作用研究[D];河北農(nóng)業(yè)大學(xué);2019年

9 杜瑩;環(huán)狀RNA hsa_circ_0011940在抗結(jié)核藥物性肝損傷患者外周血中的表達(dá)及功能研究[D];華北理工大學(xué);2019年

10 李雙;高通量測(cè)序分析湖南地區(qū)動(dòng)脈瘤性蛛網(wǎng)膜下腔出血患者外周血長(zhǎng)鏈非編碼RNA表達(dá)差異[D];湖南師范大學(xué);2019年



本文編號(hào):2798304

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/projectlw/swxlw/2798304.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)e9ad1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com