基于HeteSim的疾病關(guān)聯(lián)長非編碼RNA預(yù)測
發(fā)布時間:2021-04-13 20:53
越來越多的研究表明,長非編碼RNA(long non-coding RNA, lncRNA)在許多生物過程中具有重要的功能,而這些長非編碼RNA的變異或功能失調(diào)會導(dǎo)致一些復(fù)雜疾病的發(fā)生.通過生物信息學(xué)方法預(yù)測潛在的長非編碼RNA-疾病關(guān)聯(lián)關(guān)系,對于致病機理的探索以及疾病診斷、治療、預(yù)后和預(yù)防都具有重要的意義.基于疾病基因關(guān)聯(lián)關(guān)系的異質(zhì)信息網(wǎng)絡(luò),研究者使用了一種相關(guān)性計算法方法——HeteSim來計算疾病基因之間的相關(guān)性,進而預(yù)測致病基因.使用的方法基于路徑約束,具有可擴展性,算法效率高,留一交叉驗證實驗表明該方法的預(yù)測結(jié)果優(yōu)于其他方法.將其應(yīng)用在卵巢癌和胃癌的預(yù)測分析中,相關(guān)文獻表明,所提方法的預(yù)測結(jié)果已被生物實驗等驗證,再次表明該方法的有效性.
【文章來源】:計算機研究與發(fā)展. 2019,56(09)北大核心EICSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
圖1異質(zhì)信息網(wǎng)絡(luò)實例和元路徑[24]Fig.1Heterogeneousinformationnetworkinstanceandmeta-path[24]
R,PL=A1A2…Amid-1M,PR=MAmid+1…Al+1.M為路徑中的中間類型對象,當(dāng)路徑長度為偶數(shù)時mid=l2+1,當(dāng)路徑長度為奇數(shù)時mid=l+12+1.對于我們選擇的元路徑lncRNA-疾病-lncRNA-疾。ǎ蹋模蹋模,由于路徑長度是奇數(shù),元路徑兩端的2個節(jié)點始終都不會在1個點相遇,因此我們需要插入中間類型M從而使路徑可以等分成路徑PL=LDM和PR=MLD,如圖3所示:Fig.3BeforeandafterinsertionoftheintermediatetypeM圖3插入中間類型M前后下面介紹如何利用矩陣乘法計算lncRNA和疾病之間的關(guān)聯(lián)得分.首先,我們定義2類矩陣:轉(zhuǎn)移概率矩陣和可達概率矩陣.定義2.轉(zhuǎn)移概率矩陣.定義有向元路徑A→?RB,對象A和對象B之間的連接關(guān)系為R(A和B表示同一類型對象構(gòu)成的集合),A和B之間的關(guān)系可以用0?1鄰接矩陣WAB表示,元素1表示2節(jié)點連通,元素0表示2節(jié)點不連通.將0?1鄰接矩陣WAB分別按照行向量和列向量進行標(biāo)準(zhǔn)化操作,得到矩陣XAB和YAB.XAB和YAB就是轉(zhuǎn)移概率矩陣,分別表示A→?RB和BR→?-1A這2種有向關(guān)系.根據(jù)矩陣的性質(zhì),可以得到:XAB=YTBA,YAB=XTBA.定義3.可達概率矩陣.轉(zhuǎn)移概率矩陣是可達概率矩陣的特例
公式為FPR=FPFP+TN,(4)TPR=TPTP+FN.(5)TPR表示的是移除的關(guān)聯(lián)邊排名在k%以內(nèi)的比率;FPR表示的是不存在的關(guān)聯(lián)邊排名在k%以內(nèi)的比率.當(dāng)閾值k在1~100之間變化時可以得到相應(yīng)的TPR和FPR.通過這種方式,可以繪制ROC曲線,從而計算AUC.按照以上步驟,我們在lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò)上進行了留一交叉驗證,并取得了0.6828的AUC.相應(yīng)的ROC曲線如圖4所示:Fig.4Leave-one-outcrossvalidationROCcurve圖4留一交叉驗證ROC曲線圖為了提高方法的性能,我們將編碼基因和疾病關(guān)聯(lián)關(guān)系整合到lncRNA-疾病網(wǎng)絡(luò)中得到基因-疾病異質(zhì)信息網(wǎng)絡(luò).我們在基因-疾病異質(zhì)信息網(wǎng)絡(luò)上進行了留一交叉驗證,負樣本的構(gòu)造方法與之前類似,得到的AUC值為0.7835,如圖4所示.很明顯,馬毅等:基于HeteSim的疾病關(guān)聯(lián)長非編碼RNA預(yù)測3981
【參考文獻】:
期刊論文
[1]動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建、分析及應(yīng)用研究進展[J]. 李敏,孟祥茂. 計算機研究與發(fā)展. 2017(06)
本文編號:3135991
【文章來源】:計算機研究與發(fā)展. 2019,56(09)北大核心EICSCD
【文章頁數(shù)】:8 頁
【部分圖文】:
圖1異質(zhì)信息網(wǎng)絡(luò)實例和元路徑[24]Fig.1Heterogeneousinformationnetworkinstanceandmeta-path[24]
R,PL=A1A2…Amid-1M,PR=MAmid+1…Al+1.M為路徑中的中間類型對象,當(dāng)路徑長度為偶數(shù)時mid=l2+1,當(dāng)路徑長度為奇數(shù)時mid=l+12+1.對于我們選擇的元路徑lncRNA-疾病-lncRNA-疾。ǎ蹋模蹋模,由于路徑長度是奇數(shù),元路徑兩端的2個節(jié)點始終都不會在1個點相遇,因此我們需要插入中間類型M從而使路徑可以等分成路徑PL=LDM和PR=MLD,如圖3所示:Fig.3BeforeandafterinsertionoftheintermediatetypeM圖3插入中間類型M前后下面介紹如何利用矩陣乘法計算lncRNA和疾病之間的關(guān)聯(lián)得分.首先,我們定義2類矩陣:轉(zhuǎn)移概率矩陣和可達概率矩陣.定義2.轉(zhuǎn)移概率矩陣.定義有向元路徑A→?RB,對象A和對象B之間的連接關(guān)系為R(A和B表示同一類型對象構(gòu)成的集合),A和B之間的關(guān)系可以用0?1鄰接矩陣WAB表示,元素1表示2節(jié)點連通,元素0表示2節(jié)點不連通.將0?1鄰接矩陣WAB分別按照行向量和列向量進行標(biāo)準(zhǔn)化操作,得到矩陣XAB和YAB.XAB和YAB就是轉(zhuǎn)移概率矩陣,分別表示A→?RB和BR→?-1A這2種有向關(guān)系.根據(jù)矩陣的性質(zhì),可以得到:XAB=YTBA,YAB=XTBA.定義3.可達概率矩陣.轉(zhuǎn)移概率矩陣是可達概率矩陣的特例
公式為FPR=FPFP+TN,(4)TPR=TPTP+FN.(5)TPR表示的是移除的關(guān)聯(lián)邊排名在k%以內(nèi)的比率;FPR表示的是不存在的關(guān)聯(lián)邊排名在k%以內(nèi)的比率.當(dāng)閾值k在1~100之間變化時可以得到相應(yīng)的TPR和FPR.通過這種方式,可以繪制ROC曲線,從而計算AUC.按照以上步驟,我們在lncRNA-疾病異質(zhì)信息網(wǎng)絡(luò)上進行了留一交叉驗證,并取得了0.6828的AUC.相應(yīng)的ROC曲線如圖4所示:Fig.4Leave-one-outcrossvalidationROCcurve圖4留一交叉驗證ROC曲線圖為了提高方法的性能,我們將編碼基因和疾病關(guān)聯(lián)關(guān)系整合到lncRNA-疾病網(wǎng)絡(luò)中得到基因-疾病異質(zhì)信息網(wǎng)絡(luò).我們在基因-疾病異質(zhì)信息網(wǎng)絡(luò)上進行了留一交叉驗證,負樣本的構(gòu)造方法與之前類似,得到的AUC值為0.7835,如圖4所示.很明顯,馬毅等:基于HeteSim的疾病關(guān)聯(lián)長非編碼RNA預(yù)測3981
【參考文獻】:
期刊論文
[1]動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建、分析及應(yīng)用研究進展[J]. 李敏,孟祥茂. 計算機研究與發(fā)展. 2017(06)
本文編號:3135991
本文鏈接:http://www.sikaile.net/yixuelunwen/shiyanyixue/3135991.html
最近更新
教材專著