天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向組學(xué)大數(shù)據(jù)的生物信息學(xué)研究

發(fā)布時(shí)間:2017-12-20 11:25

  本文關(guān)鍵詞:面向組學(xué)大數(shù)據(jù)的生物信息學(xué)研究 出處:《中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院》2016年博士論文 論文類(lèi)型:學(xué)位論文


  更多相關(guān)文章: 生物信息學(xué) 云計(jì)算 蛋白質(zhì)組 多組學(xué)整合 生物學(xué)網(wǎng)絡(luò)


【摘要】:隨著DNA測(cè)序、質(zhì)譜測(cè)序等高通量技術(shù)的快速發(fā)展,生命科學(xué)領(lǐng)域進(jìn)入了以海量多元組學(xué)數(shù)據(jù)為特征的大數(shù)據(jù)時(shí)代。組學(xué)大數(shù)據(jù)給生命科學(xué)研究帶來(lái)了前所未有的機(jī)遇,在研究基因功能、疾病機(jī)制、精準(zhǔn)醫(yī)療等方面具有重要意義。面向組學(xué)大數(shù)據(jù)的生物信息學(xué)研究,有助于快速有效地挖掘組學(xué)大數(shù)據(jù)中蘊(yùn)含的生物學(xué)知識(shí)。大數(shù)據(jù)具有規(guī)模性、多樣性、高速性等三個(gè)特征,給傳統(tǒng)生物信息學(xué)帶來(lái)了新的挑戰(zhàn)。在數(shù)據(jù)計(jì)算方面,亟需解決中小實(shí)驗(yàn)室對(duì)計(jì)算資源的彈性需求;在數(shù)據(jù)分析方面,亟需多組學(xué)整合分析體系解決生物學(xué)問(wèn)題。缺乏相應(yīng)的生物信息學(xué)工具是大數(shù)據(jù)時(shí)代生命科學(xué)領(lǐng)域面臨的主要瓶頸。本論文主要目的即在于使用數(shù)據(jù)計(jì)算技術(shù)和數(shù)據(jù)分析技術(shù)解決組學(xué)大數(shù)據(jù)分析中存在的上述問(wèn)題。在數(shù)據(jù)計(jì)算技術(shù)研究方面,本文重點(diǎn)關(guān)注云計(jì)算技術(shù)解決若干蛋白質(zhì)組大數(shù)據(jù)問(wèn)題。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS,Amazon Web Service)采用現(xiàn)收現(xiàn)付(pay as you go)的計(jì)費(fèi)模式,提供彈性計(jì)算云(EC2,Elastic Compute Cloud)和簡(jiǎn)單存儲(chǔ)服務(wù)(S3,Simple Storage Service)等多種云服務(wù),使得用戶通過(guò)互聯(lián)網(wǎng)即可按需獲取計(jì)算和存儲(chǔ)資源,可有效解決組學(xué)大數(shù)據(jù)對(duì)計(jì)算資源的彈性需求。MapReduce框架將任務(wù)的處理過(guò)程劃分成Map和Reduce兩個(gè)階段:Map階段將輸入數(shù)據(jù)切割成數(shù)據(jù)分塊,以鍵值對(duì)的形式分配到計(jì)算節(jié)點(diǎn)上的Map函數(shù)并行分析處理,Map函數(shù)的輸出同樣以鍵值對(duì)的形式保存在各自的計(jì)算節(jié)點(diǎn)上;Reduce階段負(fù)責(zé)將所有的中間結(jié)果根據(jù)鍵值進(jìn)行合并,然后生成最終結(jié)果。MapReduce框架簡(jiǎn)化了分布式計(jì)算的編程模型。針對(duì)海量串聯(lián)質(zhì)譜數(shù)據(jù)帶來(lái)的計(jì)算復(fù)雜度問(wèn)題,本文使用云計(jì)算技術(shù)解決鑒定新肽段、單氨基酸變異肽段以及外顯子跳躍剪接肽段等基于串聯(lián)質(zhì)譜的蛋白質(zhì)組大數(shù)據(jù)問(wèn)題。本文采用串聯(lián)質(zhì)譜數(shù)據(jù)結(jié)合蛋白質(zhì)基因組學(xué)的方法,構(gòu)建了全基因組六框翻譯氨基酸的序列數(shù)據(jù)庫(kù)、錯(cuò)義突變的氨基酸序列數(shù)據(jù)庫(kù)以及外顯子跳躍剪接的氨基酸序列數(shù)據(jù)庫(kù),使用基于MapReduce框架的數(shù)據(jù)庫(kù)搜索算法加快基于串聯(lián)質(zhì)譜的肽段鑒定過(guò)程,使用Target-Decoy搜索策略對(duì)肽段鑒定結(jié)果進(jìn)行質(zhì)量控制。本文構(gòu)建了基于云計(jì)算技術(shù)的蛋白質(zhì)組大數(shù)據(jù)分析和呈現(xiàn)平臺(tái)CAPER 3。CAPER 3使用AWS和MapReduce框架實(shí)現(xiàn)了數(shù)據(jù)處理流程的可擴(kuò)展性。CAPER 3具有兩個(gè)主要組件,分別是遠(yuǎn)程工作包(rwp,remoteworkpackage)和本地工作包(lwp,localworkpackage)。rwp部署在aws上,處理運(yùn)行在云端的任務(wù)。lwp是基于java的圖形客戶端,具有數(shù)據(jù)傳輸、任務(wù)配置、進(jìn)度監(jiān)控以及結(jié)果展示等功能。lwp使得用戶不需要專(zhuān)業(yè)知識(shí)即可在處理數(shù)據(jù)時(shí)獲得aws提供的彈性計(jì)算能力。caper3在鑒定新肽段、已知單氨基酸變異肽段、樣本特異的單氨基酸變異肽段、以及外顯子跳躍剪接肽段等蛋白質(zhì)組大數(shù)據(jù)問(wèn)題上,加快了數(shù)據(jù)處理速度,并且從蛋白質(zhì)層次上提供基因或者變異的證據(jù),可為未來(lái)研究提供重要線索。caerp3的源代碼可通過(guò)https://github.com/ys-amms/capercloud獲取,使用說(shuō)明詳見(jiàn)http://prodigy.bprc.ac.cn/caper3。在數(shù)據(jù)分析技術(shù)研究方面,本文重點(diǎn)關(guān)注建立基于生物學(xué)網(wǎng)絡(luò)的多組學(xué)整合分析體系。單一組學(xué)數(shù)據(jù)的分析往往具有局限性。高通量測(cè)序技術(shù)產(chǎn)生了多平臺(tái)的組學(xué)數(shù)據(jù),揭示了細(xì)胞中分子的靜態(tài)和動(dòng)態(tài)信息,而細(xì)胞中不同分子之間相互通信形成了復(fù)雜的生物學(xué)網(wǎng)絡(luò)?紤]不同組學(xué)數(shù)據(jù)之間的關(guān)聯(lián),有利于對(duì)候選疾病基因進(jìn)行篩選和排序。驅(qū)動(dòng)基因鑒定問(wèn)題是生物信息學(xué)中一個(gè)重要的研究領(lǐng)域。本文首先搜集整理了最新的癌癥相關(guān)突變數(shù)據(jù)集,使用特征分析發(fā)現(xiàn)癌癥相關(guān)突變與中性突變?cè)诨趐am250和基于香農(nóng)信息熵的序列特征上存在顯著差異。在生物學(xué)網(wǎng)絡(luò)層次,本文提出一種通路算法用于解決驅(qū)動(dòng)基因鑒定問(wèn)題;谕返乃惴僭O(shè)通路上游的驅(qū)動(dòng)基因經(jīng)信號(hào)轉(zhuǎn)導(dǎo)過(guò)程導(dǎo)致下游轉(zhuǎn)錄因子過(guò)表達(dá),轉(zhuǎn)錄因子過(guò)表達(dá)導(dǎo)致其靶基因顯著過(guò)表達(dá),進(jìn)而引發(fā)癌癥;而基于蛋白質(zhì)功能關(guān)聯(lián)網(wǎng)絡(luò)(pfin,proteinfunctionalinteractionnetwork)的算法假設(shè)癌癥驅(qū)動(dòng)基因的網(wǎng)絡(luò)鄰居存在更多差異表達(dá)基因。本文研發(fā)了基于生物學(xué)網(wǎng)絡(luò)的癌癥驅(qū)動(dòng)基因鑒定工具bionexr。bionexr是一個(gè)r包,由四個(gè)功能模塊組成,分別是“數(shù)據(jù)下載與解析”、“基因分析”、“網(wǎng)絡(luò)分析”和“可視化”。為了方便獲取tcga數(shù)據(jù),“數(shù)據(jù)下載與解析”模塊提供tcgalevel-3基因體系突變數(shù)據(jù)和基因表達(dá)數(shù)據(jù)的下載,查看下載進(jìn)度和斷點(diǎn)續(xù)傳功能。對(duì)于基因體系突變數(shù)據(jù),“基因分析”模塊計(jì)算突變對(duì)基因功能的影響。對(duì)于基因表達(dá)數(shù)據(jù),“基因分析”模塊計(jì)算基因在腫瘤樣本和正常樣本中的表達(dá)倍數(shù)變化!熬W(wǎng)絡(luò)分析”模塊集成了基于kegg通路和基于pfin的分析算法。對(duì)于基于kegg通路分析流程的鑒定結(jié)果,“可視化”模塊以具有三級(jí)層次(分別是突變基因、轉(zhuǎn)錄因子和靶基因)的有向圖呈現(xiàn);對(duì)于基于pfin分析流程的鑒定結(jié)果,“可視化”模塊以無(wú)向圖呈現(xiàn)。四個(gè)模塊既相互獨(dú)立,又可以串聯(lián)在一起,構(gòu)成鑒定癌癥驅(qū)動(dòng)基因的數(shù)據(jù)分析流程!盎蚍治觥焙汀熬W(wǎng)絡(luò)分析”組成的分析流程使得bionexr在鑒定癌癥驅(qū)動(dòng)基因時(shí)既考察核酸層次的信息,又考察生物學(xué)網(wǎng)絡(luò)層次的信息。使用Bionexr對(duì)TCGA中的多種癌癥,如頭和頸部鱗狀細(xì)胞癌、乳腺癌、腎癌和子宮內(nèi)膜癌,進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)了潛在的癌癥驅(qū)動(dòng)基因或通路,分析結(jié)果提供豐富的信息。Bionexr的源代碼及使用說(shuō)明可通過(guò)https://github.com/ys-amms/bionexr獲取。組學(xué)大數(shù)據(jù)的知識(shí)挖掘是當(dāng)前生物信息學(xué)的重要機(jī)遇和挑戰(zhàn)。云計(jì)算技術(shù)和生物學(xué)網(wǎng)絡(luò)有助于快速有效地挖掘組學(xué)大數(shù)據(jù)中蘊(yùn)含的生物學(xué)知識(shí)。未來(lái)研究中,我們將考慮組學(xué)數(shù)據(jù)與文獻(xiàn)知識(shí)結(jié)合,為面向組學(xué)大數(shù)據(jù)的生物信息學(xué)研究提供新的思路。
【學(xué)位授予單位】:中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:Q811.4

【相似文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 ;生物信息學(xué)與基因電腦克隆[J];中國(guó)獸醫(yī)學(xué)報(bào);2000年01期

2 陳成;生物信息學(xué)的現(xiàn)狀與未來(lái)[J];生物技術(shù)通報(bào);2000年02期

3 龐洪泉 ,樊龍江;有關(guān)生物信息學(xué)的幾點(diǎn)誤解[J];生物技術(shù)通報(bào);2002年02期

4 蔣寶榮,吳文德;寄生蟲(chóng)生物信息學(xué)研究[J];廣西大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年S1期

5 ;生物信息學(xué)[J];現(xiàn)代臨床醫(yī)學(xué)生物工程學(xué)雜志;2003年05期

6 ;生物信息學(xué)[J];天津科技;2004年06期

7 彭濤 ,王林;2004年青年生物信息學(xué)家論壇[J];國(guó)外醫(yī)學(xué).藥學(xué)分冊(cè);2005年03期

8 ;《生物信息學(xué)導(dǎo)論》出版[J];遺傳學(xué)報(bào);2005年01期

9 鐘揚(yáng);王莉;李作峰;;我國(guó)生物信息學(xué)教育的發(fā)展與挑戰(zhàn)[J];計(jì)算機(jī)教育;2006年09期

10 賀思敏;陳文光;許東;羅靜初;吳曉桃;;生物信息學(xué)[J];計(jì)算機(jī)教育;2006年09期

中國(guó)重要會(huì)議論文全文數(shù)據(jù)庫(kù) 前10條

1 唐一源;沈鈞賢;徐志敏;;生物信息學(xué)與神經(jīng)信息學(xué)數(shù)據(jù)庫(kù)的整合[A];第九次全國(guó)生物物理大會(huì)學(xué)術(shù)會(huì)議論文摘要集[C];2002年

2 高亞梅;韓毅強(qiáng);余麗蕓;;生物信息學(xué)本科教學(xué)研究初探[A];高教科研2006(中冊(cè):教學(xué)改革)[C];2006年

3 楊劍;;生物信息學(xué)在新發(fā)再發(fā)傳染病研究中的應(yīng)用[A];新發(fā)和再發(fā)傳染病防治熱點(diǎn)研討會(huì)論文集[C];2011年

4 潘潔;;生物信息學(xué)對(duì)中藥現(xiàn)代化的作用[A];2006第六屆中國(guó)藥學(xué)會(huì)學(xué)術(shù)年會(huì)論文集[C];2006年

5 葛劍徽;李成;謝迅雷;;生物信息學(xué)發(fā)展現(xiàn)狀與前景展望[A];2008年中華臨床醫(yī)學(xué)工程及數(shù)字醫(yī)學(xué)大會(huì)暨中華醫(yī)學(xué)會(huì)醫(yī)學(xué)工程學(xué)分會(huì)第九次學(xué)術(shù)年會(huì)論文集[C];2008年

6 劉湘軍;;生物信息學(xué)的研究現(xiàn)狀[A];第九次全國(guó)生物物理大會(huì)學(xué)術(shù)會(huì)議論文摘要集[C];2002年

7 孫金立;李路路;王棟;;生物信息學(xué)多媒體教學(xué)系統(tǒng)結(jié)構(gòu)框架[A];圖書(shū)館改革與發(fā)展——陜西省社會(huì)科學(xué)信息學(xué)會(huì)第六次學(xué)術(shù)討論會(huì)論文集[C];2003年

8 陸文聰;鈕冰;;基于數(shù)據(jù)挖掘的生物信息學(xué)研究進(jìn)展[A];中國(guó)化學(xué)會(huì)第27屆學(xué)術(shù)年會(huì)第15分會(huì)場(chǎng)摘要集[C];2010年

9 康曉東;;生物信息學(xué)及其研究對(duì)象[A];2003年全國(guó)醫(yī)學(xué)影像技術(shù)學(xué)術(shù)會(huì)議論文匯編[C];2003年

10 呂暉;;生物信息學(xué)與個(gè)體化醫(yī)學(xué)[A];第九屆全國(guó)遺傳病診斷與產(chǎn)前診斷學(xué)術(shù)交流會(huì)暨產(chǎn)前診斷和醫(yī)學(xué)遺傳學(xué)新技術(shù)研討會(huì)論文集[C];2014年

中國(guó)重要報(bào)紙全文數(shù)據(jù)庫(kù) 前10條

1 劉義;生物信息學(xué)產(chǎn)業(yè)浮出水面[N];中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2000年

2 張雅麗;加強(qiáng)交流 立足中國(guó)生物信息學(xué)最新進(jìn)展[N];科技日?qǐng)?bào);2000年

3 本報(bào)記者 白毅;生物信息學(xué)院士談[N];中國(guó)醫(yī)藥報(bào);2002年

4 劉麗麗;高性能計(jì)算為生物信息學(xué)加速[N];計(jì)算機(jī)世界;2007年

5 中科院生物學(xué)部 張春霆;對(duì)生物信息學(xué)的展望[N];北京科技報(bào);2000年

6 魏中文;生物信息學(xué)是開(kāi)啟后基因組時(shí)代的“金鑰匙”[N];北京科技報(bào);2002年

7 記者 王雪飛;我國(guó)科學(xué)家向政府建議——加強(qiáng)生物信息學(xué)學(xué)科建設(shè)[N];健康報(bào);2000年

8 白毅;加強(qiáng)生物信息學(xué)建設(shè)推動(dòng)人類(lèi)基因組研究[N];中國(guó)醫(yī)藥報(bào);2002年

9 王雪飛 吳黎;中國(guó)生物信息學(xué)研究快速發(fā)展[N];健康報(bào);2002年

10 春曉;國(guó)外生物信息學(xué)的發(fā)展與現(xiàn)狀[N];中國(guó)醫(yī)藥報(bào);2002年

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前6條

1 楊帥;面向組學(xué)大數(shù)據(jù)的生物信息學(xué)研究[D];中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院;2016年

2 喬立安;基于網(wǎng)格的生物信息學(xué)計(jì)算流程系統(tǒng)的研究[D];清華大學(xué);2005年

3 賴煦卉;基于生物信息學(xué)的抗結(jié)核藥物靶點(diǎn)的篩選與驗(yàn)證[D];復(fù)旦大學(xué);2008年

4 張成崗;基于本地和WEB的生物信息學(xué)綜合分析體系的建立及部分新基因的初步實(shí)驗(yàn)研究[D];中國(guó)人民解放軍軍事醫(yī)學(xué)科學(xué)院;2000年

5 朱英杰;藥用植物基因資源的生物信息學(xué)研究[D];北京協(xié)和醫(yī)學(xué)院;2014年

6 王嫻;蛋白殘基可溶性預(yù)測(cè)及基因表達(dá)數(shù)據(jù)分析方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2007年

中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前10條

1 李中輝;Ⅱ型糖尿病相關(guān)基因的生物信息學(xué)研究[D];南方醫(yī)科大學(xué);2015年

2 張書(shū)欣;生物信息學(xué)若干問(wèn)題研究報(bào)告[D];吉林大學(xué);2012年

3 劉維;生物信息學(xué)中的并行處理[D];揚(yáng)州大學(xué);2007年

4 張景祥;關(guān)于生物信息學(xué)的幾個(gè)問(wèn)題[D];江南大學(xué);2008年

5 雷國(guó)慶;面向生物信息學(xué)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的算法加速器設(shè)計(jì)[D];國(guó)防科學(xué)技術(shù)大學(xué);2010年

6 劉丙強(qiáng);生物信息學(xué)中的若干組合問(wèn)題[D];山東大學(xué);2006年

7 周萍;生物信息學(xué)多序列比對(duì)及種系生成樹(shù)的幾種技術(shù)和算法研究[D];電子科技大學(xué);2007年

8 湯思捷;蛋白質(zhì)可溶性預(yù)測(cè)的生物信息學(xué)模型及應(yīng)用[D];蘇州大學(xué);2014年

9 黃金;聚類(lèi)和分類(lèi)技術(shù)在生物信息學(xué)中的應(yīng)用[D];黑龍江大學(xué);2005年

10 朱賢芳;生物序列的比對(duì)算法比較研究[D];南京理工大學(xué);2005年

,

本文編號(hào):1311917

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/jckxbs/1311917.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶ce35e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com