多組學(xué)缺失數(shù)據(jù)聯(lián)合填補方法評價及其應(yīng)用
發(fā)布時間:2017-12-16 03:30
本文關(guān)鍵詞:多組學(xué)缺失數(shù)據(jù)聯(lián)合填補方法評價及其應(yīng)用
更多相關(guān)文章: 多組學(xué)數(shù)據(jù) 塊缺失 統(tǒng)計學(xué)填補 機器學(xué)習(xí)填補 效果評價
【摘要】:2003年,人類全基因組計劃(human genoome project,HGP)宣告結(jié)束,由此,與人類疾病相關(guān)的遺傳研究進入后GWAS時代。多組學(xué)數(shù)據(jù)(基因組、轉(zhuǎn)錄組、表觀遺傳組等)一般來自于不同的平臺,這使得多組學(xué)數(shù)據(jù)挖掘新生了很多困難。如"塊缺失"(bulked missing data)的情況在多組學(xué)數(shù)據(jù)中經(jīng)常出現(xiàn)。保證在數(shù)據(jù)結(jié)構(gòu)(方差-協(xié)方差結(jié)構(gòu))盡量不變或變化幅度相對較小時,提高缺失數(shù)據(jù)填補的精確度,對于后期數(shù)據(jù)挖掘有重要的意義。本研究致力于多組學(xué)(轉(zhuǎn)錄組、表觀遺傳組)中"塊缺失"數(shù)據(jù)填補方法的評價。并將優(yōu)勢方法應(yīng)用于WNT信號通路相關(guān)變量,對缺失數(shù)據(jù)進行填補,對早期非小細胞肺癌(non-small cell lung cancer,NSCLC)患者的預(yù)后狀況進行建模預(yù)測,并比較填補前后模型的預(yù)測效果。下載癌癥基因組圖譜(the cancer genome atlas,TCGA)數(shù)據(jù)庫中非小細胞肺癌數(shù)據(jù)(包括:甲基化數(shù)據(jù)、基因表達數(shù)據(jù)),通過構(gòu)造不同缺失比例的缺失數(shù)據(jù)集(缺失比例分別為5%、20%、35%、50%和65%),評價填補方法在數(shù)據(jù)集中的填補效果(WNT通路數(shù)據(jù)集和隨機變量數(shù)據(jù)集)。采用統(tǒng)計學(xué)填補方法[均值法,馬爾科夫蒙特卡洛法(Markov Chain Monte Carlo,MCMC)]和機器學(xué)習(xí)填補法[鄰近法(k-Nearest Neighbor,KNN),隨機森林法(Random Forest,RF),多層感知機法(Multi-layer perceptron,MLP)]對缺失數(shù)據(jù)進行填補,填補后的數(shù)據(jù)集與原數(shù)據(jù)集進行綜合比較。評價指標(biāo):①估計偏差,②矩陣-2-范數(shù)。再根據(jù)評價指標(biāo)和填補時間,比較出填補效果最優(yōu)、填補時間較短的方法。選擇WNT通路數(shù)據(jù)集,對MLP方法進行填補。填補前后的數(shù)據(jù)集,分別用(I)SIS降維方法進行降維,經(jīng)過降維壓縮后,保留下來的變量納入Cox比例回歸模型,并對第5年的預(yù)后情況進行風(fēng)險預(yù)測。Bootstrap進行1000次,計算AUC的可信區(qū)間,比較填補前后預(yù)測模型中AUC的大小。MLP和KNN算法在各種缺失比例下均比其他填補方法有更優(yōu)的效果,填補時間也相對較短。均值法的時間最短,在數(shù)據(jù)集缺失比例較小時(≤5%),填補效果與其他填補方法相當(dāng),但在高比例缺失情況下表現(xiàn)較差。在數(shù)據(jù)集高比例缺失情況下,RF和MCMC的填補效果優(yōu)于均值法,但填補時間過長,不適用于實際工作。在實際數(shù)據(jù)分析中,MLP方法填補后的數(shù)據(jù)集,經(jīng)過降維后建立的Cox模型預(yù)測效果優(yōu)于未進行填補的數(shù)據(jù)集,其中AUCimp-0.7431[0.7215,0.7647],AUCunimp=0.6945[0.6729,0.7161]。綜合比較,機器學(xué)習(xí)填補方法中的MLP和kNN兩法適合于甲基化數(shù)據(jù)和表達數(shù)據(jù)的填補,且具有實際應(yīng)用價值。
【學(xué)位授予單位】:南京醫(yī)科大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:R195.1
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 茅群霞,李曉松;多重填補法Markov Chain Monte Carlo模型在有缺失值的婦幼衛(wèi)生縱向數(shù)據(jù)中的應(yīng)用[J];四川大學(xué)學(xué)報(醫(yī)學(xué)版);2005年03期
,本文編號:1294554
本文鏈接:http://www.sikaile.net/shoufeilunwen/mpalunwen/1294554.html
最近更新
教材專著