基于分布式計(jì)算平臺(tái)Spark的脫落膜蛋白預(yù)測(cè)與應(yīng)用
發(fā)布時(shí)間:2017-03-20 15:10
本文關(guān)鍵詞:基于分布式計(jì)算平臺(tái)Spark的脫落膜蛋白預(yù)測(cè)與應(yīng)用,,由筆耕文化傳播整理發(fā)布。
【摘要】:廣泛分布于細(xì)胞膜上的膜蛋白同絕大多數(shù)分泌蛋白的分泌均有著密切的聯(lián)系,而且由于膜蛋白是許多信號(hào)通路的潛在受體,因此在現(xiàn)代醫(yī)學(xué)中膜蛋白發(fā)揮著重要的作用。已有的相關(guān)統(tǒng)計(jì)表明,現(xiàn)有醫(yī)學(xué)藥物靶點(diǎn)有超過(guò)一半均作用在膜蛋白上。隨著醫(yī)學(xué)的發(fā)展,用于診斷不同疾病的生物標(biāo)志物受到了廣泛的重視,其中許多位于細(xì)胞膜上的膜蛋白已被作為多種疾病的生物標(biāo)志物。細(xì)胞外的膜蛋白質(zhì)由于蛋白水溶性的作用可能發(fā)生脫落,該過(guò)程被稱為“胞外域脫落(Ectodomain Shedding)”現(xiàn)象。在這一過(guò)程中,位于細(xì)胞外膜上的膜蛋白可能脫落并成為分泌蛋白。相關(guān)研究顯示,約有近4%的膜蛋白會(huì)發(fā)生脫落。胞外域脫落可以作用于一系列的生物過(guò)程且主要由MMP(基質(zhì)金屬蛋白酶)和ADAM(和解整合素金屬蛋白酶)控制。由于這一原因,胞外域脫落同許多疾病都有關(guān)聯(lián),比如:各種炎癥、癌癥及老年癡呆等慢性疾病。此外,脫落膜蛋白所形成的分泌蛋白易于得到,其廣泛存在于血液、唾液以及尿液中。但現(xiàn)在尚無(wú)能夠?qū)δさ鞍酌撀涫录M(jìn)行高效預(yù)測(cè)的工具,所以現(xiàn)急需能夠?qū)δさ鞍资欠駮?huì)發(fā)生脫落進(jìn)行高效且準(zhǔn)確預(yù)測(cè)的工具。隨著現(xiàn)代技術(shù)的不斷發(fā)展,生物信息學(xué)中各組學(xué)的數(shù)據(jù)量均呈現(xiàn)爆炸式增長(zhǎng)。更加豐富的數(shù)據(jù)給相關(guān)研究帶來(lái)了新的機(jī)遇,但對(duì)數(shù)據(jù)的處理也需要提供更高的計(jì)算性能,這給原有的單機(jī)計(jì)算方式帶來(lái)了嚴(yán)峻的挑戰(zhàn)。而分布式計(jì)算平臺(tái)憑借其高效的運(yùn)算效率,良好的拓展性以及使用的便捷性,為數(shù)據(jù)的計(jì)算問(wèn)題提供了新的解決方案。本文中使用的膜蛋白數(shù)據(jù)具有較高的維度,而且構(gòu)建預(yù)測(cè)模型的時(shí)間復(fù)雜度較高,如果采用單機(jī)運(yùn)算方式則需要耗費(fèi)大量的時(shí)間與資源。本文構(gòu)建的脫落膜蛋白預(yù)測(cè)模型采用基于分布式計(jì)算平臺(tái)Spark的方式,在保證脫落膜蛋白預(yù)測(cè)準(zhǔn)確性的同時(shí),又提供了更為高效的運(yùn)算效率。在對(duì)脫落膜蛋白預(yù)測(cè)模型構(gòu)建的過(guò)程中,首先通過(guò)比對(duì)不同數(shù)據(jù)庫(kù)中現(xiàn)有記錄獲取了相應(yīng)的蛋白的屬性信息,其中能夠發(fā)生脫落的膜蛋白作為正樣本,其他不會(huì)脫落的膜蛋白作為負(fù)樣本。然后將得到的膜蛋白進(jìn)行初始化并通過(guò)特征選擇算法獲取特征向量的排序列表,從而得到用于實(shí)驗(yàn)的初始數(shù)據(jù)集。最后采用基于內(nèi)存運(yùn)算的分布式計(jì)算平臺(tái)Spark,并通過(guò)支持向量機(jī)(SVM)構(gòu)建了脫落膜蛋白預(yù)測(cè)模型。在模型構(gòu)建的過(guò)程中使用多種評(píng)定標(biāo)準(zhǔn)對(duì)膜蛋白特征向量排序列表進(jìn)行篩選,最終構(gòu)建了具有最優(yōu)預(yù)測(cè)性能的脫落膜蛋白預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果表明,本文提出的脫落膜蛋白預(yù)測(cè)模型具有更好的運(yùn)算性能和預(yù)測(cè)準(zhǔn)確性,同時(shí)在實(shí)驗(yàn)中預(yù)測(cè)得到的會(huì)發(fā)生脫落的膜蛋白中,有許多已被有關(guān)研究證實(shí)其確實(shí)會(huì)發(fā)生脫落,并在患有某些嚴(yán)重疾病的患者體內(nèi)具有高表達(dá)的特性。模擬實(shí)驗(yàn)與對(duì)比研究結(jié)果表明,本文提出的脫落膜蛋白預(yù)測(cè)模型能夠?qū)δさ鞍资欠衩撀涮峁?zhǔn)確判定,并且能夠發(fā)生脫落的膜蛋白可以作為診斷某些疾病的潛在標(biāo)志物,預(yù)期將在臨床醫(yī)學(xué)等領(lǐng)域發(fā)揮重要作用。
【關(guān)鍵詞】:膜蛋白 胞外域脫落 特征選擇 支持向量機(jī) Spark
【學(xué)位授予單位】:吉林大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:Q51;TP338.8
【目錄】:
- 摘要4-6
- Abstract6-10
- 第1章 緒論10-15
- 1.1 研究背景及意義10-11
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-13
- 1.3 本文主要工作13-14
- 1.4 本文組織架構(gòu)14-15
- 第2章 特征選擇與支持向量機(jī)簡(jiǎn)介15-25
- 2.1 特征選擇15-18
- 2.2 支持向量機(jī)(SVM)18-25
- 第3章 分布式計(jì)算平臺(tái)簡(jiǎn)介25-36
- 3.1 分布式系統(tǒng)架構(gòu)Hadoop25-31
- 3.2 分布式計(jì)算平臺(tái)Spark31-36
- 第4章 脫落膜蛋白預(yù)測(cè)模型的建立與應(yīng)用36-57
- 4.1 模型概述36-37
- 4.2 相關(guān)數(shù)據(jù)集的收集37-41
- 4.3 模型實(shí)現(xiàn)41-46
- 4.4 實(shí)驗(yàn)方法與結(jié)果分析46-57
- 第5章 總結(jié)與展望57-59
- 5.1 總結(jié)57
- 5.2 展望57-59
- 參考文獻(xiàn)59-64
- 個(gè)人簡(jiǎn)介64-65
- 致謝65
【相似文獻(xiàn)】
中國(guó)碩士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條
1 汪連恒;基于分布式計(jì)算平臺(tái)Spark的脫落膜蛋白預(yù)測(cè)與應(yīng)用[D];吉林大學(xué);2016年
本文關(guān)鍵詞:基于分布式計(jì)算平臺(tái)Spark的脫落膜蛋白預(yù)測(cè)與應(yīng)用,由筆耕文化傳播整理發(fā)布。
本文編號(hào):257991
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/257991.html
最近更新
教材專著