基于機器學習的非編碼RNA與疾病關(guān)系預測
發(fā)布時間:2020-12-20 06:37
MicroRNA(miRNA)和long non-coding RNA(lncRNA)是兩種擁有不同轉(zhuǎn)錄本長度的非編碼RNA。研究發(fā)現(xiàn),miRNAs和lncRNAs都在人類許多生物學過程中扮演著重要角色,它們的失調(diào)可能導致諸如癌癥等多種疾病,探究miRNAs、lncRNAs與疾病的潛在關(guān)聯(lián)有助于了解疾病的發(fā)病機制,并及時做出診斷、治療以及預后等措施。然而,傳統(tǒng)的生物學實驗成本高、耗時長,因此,開發(fā)有效的計算模型具有重要意義。機器學習方法在解決預測問題中有很多的應用。本文主要研究基于矩陣完成的計算模型預測miRNAs與疾病潛在關(guān)聯(lián)以及基于網(wǎng)絡算法的模型預測lncRNAs與疾病潛在關(guān)聯(lián)。對于miRNAs與疾病關(guān)聯(lián)的預測,借助lncRNAs與疾病的關(guān)聯(lián)數(shù)據(jù)作為輔助信息,應用基于矩陣完成的方法進行預測。將從數(shù)據(jù)庫下載的已知的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)以及l(fā)ncRNA-疾病關(guān)聯(lián)數(shù)據(jù)進行整合,然后構(gòu)建映射網(wǎng)絡,根據(jù)映射網(wǎng)絡的不變性的性質(zhì)構(gòu)建負樣本,最后以相似度作為邊信息,將miRNA-疾病關(guān)系的預測轉(zhuǎn)化為低秩矩陣完成問題,采用交替梯度下降法求解模型。5-fold交叉驗證(5-fold CV)結(jié)果顯示...
【文章來源】:海南師范大學海南省
【文章頁數(shù)】:49 頁
【學位級別】:碩士
【部分圖文】:
基于矩陣完成的預測miRNA與疾病關(guān)聯(lián)流程圖
海南師范大學碩士學位論文10383種疾病和495種miRNAs。2.2.2lncRNA與疾病關(guān)聯(lián)本研究中使用的已知人類lncRNAs與疾病關(guān)聯(lián)數(shù)據(jù)來源于lncRNADisease數(shù)據(jù)庫[42]。通過對下載的數(shù)據(jù)進行整理和標準化,獲得了352對經(jīng)過實驗驗證的人類lncRNAs與疾病關(guān)聯(lián),涉及190種疾病和156種lncRNAs。2.2.3lncRNA+miRNA與疾病的關(guān)聯(lián)通過合并lncRNA-疾病數(shù)據(jù)和miRNA-疾病關(guān)聯(lián)數(shù)據(jù),構(gòu)建了一個關(guān)聯(lián)網(wǎng)絡。如圖2-2所示,設NDA為其鄰接矩陣,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR與疾病)(j相關(guān),則jiNDA1=),(,否則jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,當與與疾病有關(guān)聯(lián),否則(2-1)將列中重復的疾病項合并后,最終得到651行535列的鄰接矩陣。圖2-2關(guān)聯(lián)網(wǎng)絡融合過程
第二章基于矩陣完成的miRNA與疾病關(guān)聯(lián)預測15數(shù)據(jù)集,將其中1組用作預測的測試集合,并將其他K-1組用作訓練數(shù)據(jù)以建立預測模型。重復此過程K次,并在所有樣本都被預測一次后結(jié)束。2.6.2預測結(jié)果分析本章節(jié)使用5-fold交叉驗證對矩陣完成算法進行評估,即K=5,根據(jù)不同的閾值,通過計算真陽性率(TPR,靈敏度)和假陽性率(FPR,1-特異性)繪制了ROC曲線進行性能評估。為了評估矩陣完成算法對于預測miRNAs與疾病潛在關(guān)聯(lián)的性能,本小節(jié)對數(shù)據(jù)以及算法使用Matlab語言實現(xiàn)。秩r3,結(jié)果顯示,當10.1,21,30.5時,AUC的值最大,此時AUC=0.8884。為了更好地評價基于矩陣完成的模型對于預測miRNAs與疾病潛在關(guān)聯(lián)的性能,將其與近年來研究miRNAs與疾病關(guān)聯(lián)的其他算法進行對比,分別是NCPMDA[47]和RLSMDA[15]。NCPMDA通過整合miRNAs功能相似網(wǎng)絡、疾病語義相似網(wǎng)絡、已知的miRNA-疾病關(guān)聯(lián)以及miRNAs家族信息來計算每個miRNA-疾病節(jié)點對的得分,從而發(fā)現(xiàn)潛在的關(guān)聯(lián)。用相同的數(shù)據(jù)集與驗證方法對上述兩種預測算法進行比較,繪制了三種方法的ROC曲線如圖2-3所示:圖2-3三種算法的ROC曲線對比圖ROC曲線圖顯示,矩陣完成算法在預測miRNAs與疾病關(guān)聯(lián)的性能方面有了明顯提高。2.6.3案例研究
本文編號:2927392
【文章來源】:海南師范大學海南省
【文章頁數(shù)】:49 頁
【學位級別】:碩士
【部分圖文】:
基于矩陣完成的預測miRNA與疾病關(guān)聯(lián)流程圖
海南師范大學碩士學位論文10383種疾病和495種miRNAs。2.2.2lncRNA與疾病關(guān)聯(lián)本研究中使用的已知人類lncRNAs與疾病關(guān)聯(lián)數(shù)據(jù)來源于lncRNADisease數(shù)據(jù)庫[42]。通過對下載的數(shù)據(jù)進行整理和標準化,獲得了352對經(jīng)過實驗驗證的人類lncRNAs與疾病關(guān)聯(lián),涉及190種疾病和156種lncRNAs。2.2.3lncRNA+miRNA與疾病的關(guān)聯(lián)通過合并lncRNA-疾病數(shù)據(jù)和miRNA-疾病關(guān)聯(lián)數(shù)據(jù),構(gòu)建了一個關(guān)聯(lián)網(wǎng)絡。如圖2-2所示,設NDA為其鄰接矩陣,NDA的列表示疾病,行代表lncRNA+miRNA,其中前156行代表lncRNA,后495行代表miRNA。如果NANAcR)(+lnimiR與疾病)(j相關(guān),則jiNDA1=),(,否則jiNDA0=),(。即:1()()(,)0lncRNA+miRNAijNDAij,當與與疾病有關(guān)聯(lián),否則(2-1)將列中重復的疾病項合并后,最終得到651行535列的鄰接矩陣。圖2-2關(guān)聯(lián)網(wǎng)絡融合過程
第二章基于矩陣完成的miRNA與疾病關(guān)聯(lián)預測15數(shù)據(jù)集,將其中1組用作預測的測試集合,并將其他K-1組用作訓練數(shù)據(jù)以建立預測模型。重復此過程K次,并在所有樣本都被預測一次后結(jié)束。2.6.2預測結(jié)果分析本章節(jié)使用5-fold交叉驗證對矩陣完成算法進行評估,即K=5,根據(jù)不同的閾值,通過計算真陽性率(TPR,靈敏度)和假陽性率(FPR,1-特異性)繪制了ROC曲線進行性能評估。為了評估矩陣完成算法對于預測miRNAs與疾病潛在關(guān)聯(lián)的性能,本小節(jié)對數(shù)據(jù)以及算法使用Matlab語言實現(xiàn)。秩r3,結(jié)果顯示,當10.1,21,30.5時,AUC的值最大,此時AUC=0.8884。為了更好地評價基于矩陣完成的模型對于預測miRNAs與疾病潛在關(guān)聯(lián)的性能,將其與近年來研究miRNAs與疾病關(guān)聯(lián)的其他算法進行對比,分別是NCPMDA[47]和RLSMDA[15]。NCPMDA通過整合miRNAs功能相似網(wǎng)絡、疾病語義相似網(wǎng)絡、已知的miRNA-疾病關(guān)聯(lián)以及miRNAs家族信息來計算每個miRNA-疾病節(jié)點對的得分,從而發(fā)現(xiàn)潛在的關(guān)聯(lián)。用相同的數(shù)據(jù)集與驗證方法對上述兩種預測算法進行比較,繪制了三種方法的ROC曲線如圖2-3所示:圖2-3三種算法的ROC曲線對比圖ROC曲線圖顯示,矩陣完成算法在預測miRNAs與疾病關(guān)聯(lián)的性能方面有了明顯提高。2.6.3案例研究
本文編號:2927392
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2927392.html
最近更新
教材專著