基于PPI網(wǎng)絡(luò)和基因表達數(shù)據(jù)的關(guān)鍵蛋白質(zhì)識別算法
發(fā)布時間:2021-11-20 07:05
隨著人類基因組計劃的開展,越來越多物種的測序數(shù)據(jù)被生物學(xué)家們挖掘出來,從此對于生命科學(xué)的研究也逐漸地聚焦于基因組學(xué)。然而基因組學(xué)的開展只是生命本質(zhì)特征研究的基礎(chǔ)之一,生命過程中細胞的代謝、信號傳導(dǎo)以及基因調(diào)控等都是通過蛋白質(zhì)實現(xiàn)的。蛋白質(zhì)是構(gòu)造細胞的基本有機物,是生命活動的物質(zhì)條件和生物功能活性的保證。生物體的蛋白質(zhì)主要分為兩類:關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì),F(xiàn)有的關(guān)鍵蛋白質(zhì)是指去除或破壞活生物體中的特定蛋白質(zhì)后,造成該生物的相關(guān)功能的喪失,從而導(dǎo)致該生物體無法生存。關(guān)鍵蛋白質(zhì)對于細胞的生理活動和生物的存活都是必不可少的。因此,在研究細胞的生長和調(diào)控時,如何準(zhǔn)確的識別關(guān)鍵蛋白質(zhì)成為了至關(guān)重要的一步。目前,已經(jīng)有了一系列基于網(wǎng)絡(luò)拓撲的計算方法用于關(guān)鍵蛋白質(zhì)的預(yù)測,如度中心性(DC)、信息中心性(IC)、信息向量中心性(EC)、子圖中心性(SC)、介數(shù)中心性(BC)、接近度中心性(CC)、基于邊聚集系數(shù)的關(guān)鍵蛋白質(zhì)度量方法(NC)等。隨著高通量實驗數(shù)據(jù)的發(fā)展,使得多數(shù)據(jù)預(yù)測關(guān)鍵蛋白質(zhì)成為了可能。其中,基于基因表達數(shù)據(jù)和PPI網(wǎng)絡(luò)的關(guān)鍵蛋白質(zhì)預(yù)測算法常被使用,如基于基因表達數(shù)據(jù)和PPI網(wǎng)絡(luò)數(shù)據(jù)的...
【文章來源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
酵母PPI網(wǎng)絡(luò)圖
基于PPI網(wǎng)絡(luò)和基因表達數(shù)據(jù)的關(guān)鍵蛋白質(zhì)預(yù)測算法研究13Jaccard相關(guān)系數(shù)在0~1之間。這里,我們將Jaccard相關(guān)系數(shù)的值定義為PPI網(wǎng)絡(luò)簇中蛋白質(zhì)p和蛋白質(zhì)q的活性表達相似性。3.2.4基于蛋白質(zhì)成簇特性和活性共表達的識別方法已經(jīng)證明,具有相似功能的基因往往表現(xiàn)出相似的表達模式,這被稱為“guilt-by-association”原理[54];谶吘壘垲愊禂(shù)(ECC)和Jaccard系數(shù)(Jaccard),提出了一種基于邊的度中心性度量方法(JDC)。我們從拓撲和生物學(xué)的角度描述了兩個蛋白質(zhì)的聚類程度。因此,我們將邊(,)在PPI網(wǎng)絡(luò)中的聚類度定義如下:(,)=(,)(,)(3.9)對于一個蛋白質(zhì)p,我們將其JDC值定義為該蛋白質(zhì)與其鄰居屬于同一簇的概率之和:JDC()=∑(,)(,)∈(3.10)其中表示節(jié)點p的所有鄰域。JDC測量的值取決于成簇的PPI網(wǎng)絡(luò)中基因表達的“活躍”和“非活躍”狀態(tài)的相似性。在本研究中,我們提出了一種基于PPI數(shù)據(jù)和基因表達的重要蛋白質(zhì)鑒定方法。該方法的優(yōu)點是計算簡單,并且JDC的性能優(yōu)于某些最新的預(yù)測方法。圖3.1顯示了JDC預(yù)測關(guān)鍵蛋白質(zhì)的示例。JDC算法融合了基因表達信息和PPI網(wǎng)絡(luò)數(shù)據(jù)。JDC的整個過程包括以下幾個步驟:1)ECC用于從拓撲的角度描述兩個蛋白質(zhì)在一個簇中的概率;2)設(shè)置一個動態(tài)閾值來對基因表達數(shù)據(jù)進行二值化,以過濾基因表達譜中的波動。3)Jaccard相似度指數(shù)衡量基因表達譜處于“活性”和“非活性”狀態(tài)的兩個蛋白的相似度;4)綜合ECC值和Jaccard相似度指數(shù),計算每個基因的JDC分?jǐn)?shù);谶@些步驟,我們在JDC值中使用toprank分析來驗證我們的方法的性能。圖3.1JDC算法示意圖
基于PPI網(wǎng)絡(luò)和基因表達數(shù)據(jù)的關(guān)鍵蛋白質(zhì)預(yù)測算法研究15圖3.2JDC方法和其他預(yù)測方法的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。比較結(jié)果如圖3.2所示,在Yeast數(shù)據(jù)下,JDC曲線下面積(AUC)為0.6996,WDC和NC曲線下面積(AUC)分別為0.6884和0.6889。JDC的方法相較于WDC和NC分別提高了0.0112和0.0107。JDC、WDC和PeC的區(qū)別就是在對PPI網(wǎng)絡(luò)如何進行加權(quán)。LI和Tang雖然在ECC的基礎(chǔ)上引入了PCC相關(guān)系數(shù)對PPI網(wǎng)絡(luò)進行加權(quán),有效的抑制了假陽性和假陰性。但是在引入基因表達數(shù)據(jù)時忽略了基因表達在不同時刻的“活性”與“不活性”。為此,本研究提出了通過將基因表達數(shù)據(jù)二值化并引入Jaccard系數(shù)來加權(quán),不僅考慮到了PPI網(wǎng)絡(luò)的假陰性和假陽性,還考慮了基因的活性共表達,使結(jié)果更準(zhǔn)確更靈敏。從圖3.2中可以看出DC、IC、EC、SC、BC、CC和PeC的曲線下面積分別為0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331,本研究方法的面積明顯要高于其余的關(guān)鍵蛋白質(zhì)預(yù)測方法。當(dāng)Yeast的FPR在小于0.4的情況下,JDC方法的ROC曲線較與其余關(guān)鍵蛋白質(zhì)預(yù)測方法性能最優(yōu),這說明JDC方法在識別關(guān)鍵蛋白質(zhì)中具有較高的靈敏度。圖3.3JDC方法和其他預(yù)測方法的TOP20%蛋白質(zhì)的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。為了進一步比較JDC,WDC和Pec的性能,我們分析了ROC曲線基于每種方法排名前20%的蛋白質(zhì),ROC曲線圖如圖3.3所示。從圖3.3可以看出,JDC的AUC在酵母和ecoli數(shù)據(jù)集上均高于WDC和PeC的ROC曲線當(dāng)
本文編號:3506815
【文章來源】:湖南師范大學(xué)湖南省 211工程院校
【文章頁數(shù)】:52 頁
【學(xué)位級別】:碩士
【部分圖文】:
酵母PPI網(wǎng)絡(luò)圖
基于PPI網(wǎng)絡(luò)和基因表達數(shù)據(jù)的關(guān)鍵蛋白質(zhì)預(yù)測算法研究13Jaccard相關(guān)系數(shù)在0~1之間。這里,我們將Jaccard相關(guān)系數(shù)的值定義為PPI網(wǎng)絡(luò)簇中蛋白質(zhì)p和蛋白質(zhì)q的活性表達相似性。3.2.4基于蛋白質(zhì)成簇特性和活性共表達的識別方法已經(jīng)證明,具有相似功能的基因往往表現(xiàn)出相似的表達模式,這被稱為“guilt-by-association”原理[54];谶吘壘垲愊禂(shù)(ECC)和Jaccard系數(shù)(Jaccard),提出了一種基于邊的度中心性度量方法(JDC)。我們從拓撲和生物學(xué)的角度描述了兩個蛋白質(zhì)的聚類程度。因此,我們將邊(,)在PPI網(wǎng)絡(luò)中的聚類度定義如下:(,)=(,)(,)(3.9)對于一個蛋白質(zhì)p,我們將其JDC值定義為該蛋白質(zhì)與其鄰居屬于同一簇的概率之和:JDC()=∑(,)(,)∈(3.10)其中表示節(jié)點p的所有鄰域。JDC測量的值取決于成簇的PPI網(wǎng)絡(luò)中基因表達的“活躍”和“非活躍”狀態(tài)的相似性。在本研究中,我們提出了一種基于PPI數(shù)據(jù)和基因表達的重要蛋白質(zhì)鑒定方法。該方法的優(yōu)點是計算簡單,并且JDC的性能優(yōu)于某些最新的預(yù)測方法。圖3.1顯示了JDC預(yù)測關(guān)鍵蛋白質(zhì)的示例。JDC算法融合了基因表達信息和PPI網(wǎng)絡(luò)數(shù)據(jù)。JDC的整個過程包括以下幾個步驟:1)ECC用于從拓撲的角度描述兩個蛋白質(zhì)在一個簇中的概率;2)設(shè)置一個動態(tài)閾值來對基因表達數(shù)據(jù)進行二值化,以過濾基因表達譜中的波動。3)Jaccard相似度指數(shù)衡量基因表達譜處于“活性”和“非活性”狀態(tài)的兩個蛋白的相似度;4)綜合ECC值和Jaccard相似度指數(shù),計算每個基因的JDC分?jǐn)?shù);谶@些步驟,我們在JDC值中使用toprank分析來驗證我們的方法的性能。圖3.1JDC算法示意圖
基于PPI網(wǎng)絡(luò)和基因表達數(shù)據(jù)的關(guān)鍵蛋白質(zhì)預(yù)測算法研究15圖3.2JDC方法和其他預(yù)測方法的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。比較結(jié)果如圖3.2所示,在Yeast數(shù)據(jù)下,JDC曲線下面積(AUC)為0.6996,WDC和NC曲線下面積(AUC)分別為0.6884和0.6889。JDC的方法相較于WDC和NC分別提高了0.0112和0.0107。JDC、WDC和PeC的區(qū)別就是在對PPI網(wǎng)絡(luò)如何進行加權(quán)。LI和Tang雖然在ECC的基礎(chǔ)上引入了PCC相關(guān)系數(shù)對PPI網(wǎng)絡(luò)進行加權(quán),有效的抑制了假陽性和假陰性。但是在引入基因表達數(shù)據(jù)時忽略了基因表達在不同時刻的“活性”與“不活性”。為此,本研究提出了通過將基因表達數(shù)據(jù)二值化并引入Jaccard系數(shù)來加權(quán),不僅考慮到了PPI網(wǎng)絡(luò)的假陰性和假陽性,還考慮了基因的活性共表達,使結(jié)果更準(zhǔn)確更靈敏。從圖3.2中可以看出DC、IC、EC、SC、BC、CC和PeC的曲線下面積分別為0.6705、0.6657、0.6386、0.6385、0.6256、0.6293和0.6331,本研究方法的面積明顯要高于其余的關(guān)鍵蛋白質(zhì)預(yù)測方法。當(dāng)Yeast的FPR在小于0.4的情況下,JDC方法的ROC曲線較與其余關(guān)鍵蛋白質(zhì)預(yù)測方法性能最優(yōu),這說明JDC方法在識別關(guān)鍵蛋白質(zhì)中具有較高的靈敏度。圖3.3JDC方法和其他預(yù)測方法的TOP20%蛋白質(zhì)的ROC曲線和AUC值。(a)酵母數(shù)據(jù)。(b)大腸桿菌數(shù)據(jù)。為了進一步比較JDC,WDC和Pec的性能,我們分析了ROC曲線基于每種方法排名前20%的蛋白質(zhì),ROC曲線圖如圖3.3所示。從圖3.3可以看出,JDC的AUC在酵母和ecoli數(shù)據(jù)集上均高于WDC和PeC的ROC曲線當(dāng)
本文編號:3506815
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/3506815.html
最近更新
教材專著