天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 基因論文 >

高維基因數(shù)據(jù)中的統(tǒng)計(jì)方法

發(fā)布時(shí)間:2018-02-15 10:32

  本文關(guān)鍵詞: 掃描統(tǒng)計(jì)量 全基因組關(guān)聯(lián)分析 漸近性質(zhì) 廣義線性模型 變量選擇 出處:《清華大學(xué)》2016年博士論文 論文類型:學(xué)位論文


【摘要】:人類遺傳學(xué)研究的一個(gè)重要目標(biāo)是發(fā)現(xiàn)和識(shí)別人類疾病的遺傳基礎(chǔ),F(xiàn)有的檢驗(yàn)方法是檢驗(yàn)表型和指定區(qū)域中遺傳變異體的關(guān)聯(lián)性,例如檢驗(yàn)疾病和基因間的相關(guān)性。然而由于全基因組測(cè)序數(shù)據(jù)中包含大量的基因間區(qū)段,因此序列中的分析單位并沒(méi)有很清晰的界定。鑒于此,我們提出了一種基于二次掃描統(tǒng)計(jì)量的檢驗(yàn)方法。該方法通過(guò)連續(xù)掃描全基因組序列來(lái)檢驗(yàn)信號(hào)區(qū)域的存在和位置。我們提出的方法考慮到了以下三種情況:由連鎖不平衡引起的單核苷酸多態(tài)性間的相關(guān)性,在信號(hào)區(qū)域中同時(shí)出現(xiàn)致病性和非致病性突變,以及在信號(hào)區(qū)域中同時(shí)出現(xiàn)正效應(yīng)和負(fù)效應(yīng)致病性突變。本文給出了所提出掃描方法的漸近性質(zhì)。我們得到了可以漸近控制族錯(cuò)誤率的理論閾值并表明在一定的正則性條件下,所提出的方法能以趨于1的概率選擇出確切的信號(hào)區(qū)間。我們通過(guò)模擬研究來(lái)評(píng)估上述方法的有限樣本性質(zhì)。模擬結(jié)果顯示,我們的方法在以下三種情況下優(yōu)于現(xiàn)有的其他方法:信號(hào)區(qū)域中的突變相關(guān),信號(hào)區(qū)域中出現(xiàn)非致病性突變,信號(hào)區(qū)域中同時(shí)出現(xiàn)正效應(yīng)和負(fù)效應(yīng)致病性突變。我們將所提出的方法應(yīng)用到一組肺癌全基因組關(guān)聯(lián)研究中,得到了與肺癌相關(guān)的遺傳變異區(qū)域。在遺傳學(xué)研究中,人們關(guān)心的另一個(gè)重要問(wèn)題是估計(jì)所選變量的效應(yīng)量。從高維基因數(shù)據(jù)中選擇出一組與疾病相關(guān)的變量同時(shí)基于這些變量建立合理的預(yù)測(cè)模型是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。合理的變量選擇和準(zhǔn)確的效應(yīng)量估計(jì)可以幫助我們建立易于解釋且有效的預(yù)測(cè)模型。懲罰似然法提供了一種可以同時(shí)進(jìn)行變量選擇和參數(shù)估計(jì)的統(tǒng)計(jì)方法。受此啟發(fā),本文提出了一種在廣義線性模型中利用SELO懲罰來(lái)進(jìn)行變量選擇和參數(shù)估計(jì)的方法,我們稱之為SELO-GLM。SELO懲罰是一種近似非光滑L0懲罰的光滑懲罰函數(shù)。在文章中,我們給出SELOGLM的高效算法,同時(shí)證明了SELO-GLM估計(jì)的Oracle性質(zhì)。在較寬泛的正則性條件下,我們指出應(yīng)用BIC選擇調(diào)整參數(shù),SELO-GLM/BIC能以趨于1的概率選擇出正確的模型。文章中應(yīng)用數(shù)值模擬的方法比較了SELO-GLM和現(xiàn)有的幾種似然懲罰方法。模擬結(jié)果指出,在變量個(gè)數(shù)較多和信號(hào)較弱的情況下,SELO-GLM的有限樣本性質(zhì)要優(yōu)于現(xiàn)有的其他方法。最后我們應(yīng)用SELO-GLM分析了一組乳腺癌基因數(shù)據(jù)并從中選出了與乳腺癌發(fā)生率相關(guān)的SNPs。
[Abstract]:An important objective of human genetics research is to identify and identify the genetic basis of human diseases. Existing testing methods examine the association of phenotypes with genetic variants in designated regions. For example, testing the correlation between disease and genes. However, because the whole genome sequencing data contain a large number of intergenic segments, the units of analysis in the sequence are not clearly defined. We propose a test method based on quadratic scan statistics. This method checks the existence and location of the signal region by continuously scanning the whole genome sequence. The proposed method takes into account the following three situations:. The association of single nucleotide polymorphisms caused by linkage disequilibrium, Both pathogenicity and non-pathogenicity mutations occur in the signal region. In this paper, the asymptotic properties of the proposed scanning method are given. The theoretical threshold of error rate of asymptotically controlled families is obtained and it is shown that under certain regularity conditions, The proposed method can select the exact signal interval with the probability of approaching 1. We evaluate the finite sample properties of the above method by simulation study. The simulation results show that, Our method is superior to other existing methods in three cases: mutation correlation in the signal region, non-pathogenic mutation in the signal region, Both positive and negative mutations occur in the signal region. We applied the proposed method to a whole genome association study of lung cancer and obtained genetic variation regions associated with lung cancer. Another important concern is to estimate the effect of selected variables. It is highly selective to select a set of disease-related variables from high-dimensional genetic data and to build a reasonable prediction model based on these variables. Reasonable variable selection and accurate estimation of effect quantities can help us to establish an easily explained and effective prediction model. The penalty likelihood method provides a system for variable selection and parameter estimation at the same time. Method of calculation. Inspired by this, In this paper, we propose a method of variable selection and parameter estimation using SELO penalty in generalized linear model. We call SELO-GLM.SELO penalty a smooth penalty function that approximates non-smooth L0 penalty. We give an efficient algorithm for SELOGLM and prove the Oracle property of SELO-GLM estimator. We point out that the correct model can be selected with the probability of approaching 1 by using BIC to select the adjustment parameter. In this paper, we use numerical simulation to compare SELO-GLM with several existing likelihood penalty methods. The simulation results show that, The finite sample properties of SELO-GLM are superior to those of other methods when the number of variables and signals are weak. Finally, we use SELO-GLM to analyze a group of breast cancer gene data and select the SNPs related to the incidence of breast cancer.
【學(xué)位授予單位】:清華大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:O212

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 戴伯新;;回歸變量選擇中的數(shù)據(jù)診斷[J];應(yīng)用概率統(tǒng)計(jì);1992年04期

2 楊麗霞;魏立力;;基于粗糙集方法的有序尺度變量選擇[J];寧夏大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年02期

3 趙宇;黃思明;;帶有變量選擇過(guò)程的分類模型誤差分析[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2010年17期

4 樊亞莉;徐群芳;;穩(wěn)健的變量選擇方法及其應(yīng)用[J];上海理工大學(xué)學(xué)報(bào);2013年03期

5 陶靖軒;多元分析中的變量選擇問(wèn)題研究[J];中國(guó)計(jì)量學(xué)院學(xué)報(bào);2001年01期

6 李樹(shù)軍,紀(jì)宏金;對(duì)應(yīng)聚類分析與變量選擇[J];地球物理學(xué)進(jìn)展;2005年03期

7 陳黎明;趙永紅;;轉(zhuǎn)換函數(shù)未知時(shí)轉(zhuǎn)換模型的變量選擇[J];四川大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年05期

8 劉民千,張潤(rùn)楚;超飽和設(shè)計(jì)的變量選擇[J];南開(kāi)大學(xué)學(xué)報(bào)(自然科學(xué)版);2000年03期

9 王進(jìn);;聚類分析中的距離與變量選擇[J];山西財(cái)經(jīng)大學(xué)學(xué)報(bào);2007年S1期

10 張波;方國(guó)斌;;高維面板數(shù)據(jù)降維與變量選擇方法研究[J];統(tǒng)計(jì)與信息論壇;2012年06期

相關(guān)會(huì)議論文 前6條

1 張俊華;方偉武;;調(diào)查表分析中變量選擇的一些方法(英文)[A];中國(guó)運(yùn)籌學(xué)會(huì)第六屆學(xué)術(shù)交流會(huì)論文集(下卷)[C];2000年

2 李洪東;梁逸曾;;高維數(shù)據(jù)變量選擇新方法研究[A];中國(guó)化學(xué)會(huì)第27屆學(xué)術(shù)年會(huì)第15分會(huì)場(chǎng)摘要集[C];2010年

3 李慷;席裕庚;;復(fù)雜過(guò)程系統(tǒng)中操作變量選擇與定位的方法研究[A];1993年控制理論及其應(yīng)用年會(huì)論文集[C];1993年

4 云永歡;王為婷;梁逸曾;;迭代的保留有信息變量來(lái)篩選最佳變量子集的一種多元校正變量選擇方法[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年

5 徐登;范偉;梁逸曾;;紫外光譜結(jié)合變量選擇和偏最小二乘回歸同時(shí)測(cè)定水中重金屬鎘、鋅、鈷[A];中國(guó)化學(xué)會(huì)第29屆學(xué)術(shù)年會(huì)摘要集——第19分會(huì):化學(xué)信息學(xué)與化學(xué)計(jì)量學(xué)[C];2014年

6 梁逸曾;李洪東;許青松;曹東升;張志敏;;灰色化學(xué)建模與模型集群分析——兼論過(guò)擬合、穩(wěn)健估計(jì)、變量選擇與模型評(píng)價(jià)[A];中國(guó)化學(xué)會(huì)第27屆學(xué)術(shù)年會(huì)第15分會(huì)場(chǎng)摘要集[C];2010年

相關(guān)博士學(xué)位論文 前10條

1 呂晶;幾類半?yún)?shù)回歸模型的穩(wěn)健估計(jì)與變量選擇[D];重慶大學(xué);2015年

2 王康寧;幾類高維復(fù)雜數(shù)據(jù)半?yún)?shù)模型的結(jié)構(gòu)識(shí)別、變量選擇及穩(wěn)健估計(jì)[D];山東大學(xué);2016年

3 李子林;高維基因數(shù)據(jù)中的統(tǒng)計(jì)方法[D];清華大學(xué);2016年

4 王大榮;分散度量模型中的變量選擇[D];北京工業(yè)大學(xué);2009年

5 王明秋;高維數(shù)據(jù)下若干回歸模型的變量選擇問(wèn)題研究[D];大連理工大學(xué);2012年

6 劉吉彩;生存數(shù)據(jù)統(tǒng)計(jì)模型的變量選擇方法[D];華東師范大學(xué);2014年

7 樊亞莉;穩(wěn)健變量選擇方法的若干問(wèn)題研究[D];復(fù)旦大學(xué);2013年

8 唐凱臨;變量選擇和變換的新方法研究[D];同濟(jì)大學(xué);2008年

9 董瑩;高維共線性統(tǒng)計(jì)模型的參數(shù)估計(jì)與變量選擇[D];大連理工大學(xué);2014年

10 葉飛;相對(duì)誤差準(zhǔn)則下的估計(jì)理論和變量選擇方法的研究[D];清華大學(xué);2013年

相關(guān)碩士學(xué)位論文 前10條

1 趙冬琦;基于變量選擇的股指期貨對(duì)股票市場(chǎng)影響的實(shí)證研究[D];蘭州大學(xué);2015年

2 程勇;多水平模型的變量選擇在農(nóng)戶人均收入數(shù)據(jù)中的應(yīng)用[D];云南財(cái)經(jīng)大學(xué);2015年

3 鄧秋玲;SCAD和ADS方法在比例風(fēng)險(xiǎn)模型中的應(yīng)用[D];廣西大學(xué);2015年

4 韋新星;幾種變量選擇方法在Cox模型中的應(yīng)用[D];廣西大學(xué);2015年

5 王唯;部分線性模型的變量選擇問(wèn)題研究[D];湘潭大學(xué);2015年

6 潘玉婷;含多元非線性結(jié)構(gòu)的高維Logistic模型的同時(shí)變量選擇及半?yún)?shù)估計(jì)[D];中國(guó)科學(xué)技術(shù)大學(xué);2016年

7 劉丹;Cox模型及變系數(shù)Cox模型中的變量選擇問(wèn)題研究[D];暨南大學(xué);2016年

8 羅昊;基于自適應(yīng)LASSO變量選擇的Logistic信用評(píng)分模型研究[D];東南大學(xué);2016年

9 王雙寶;基于變量選擇偏差的變量選擇過(guò)程[D];電子科技大學(xué);2016年

10 溫征;縱向和生存數(shù)據(jù)聯(lián)合模型的一個(gè)變量選擇問(wèn)題[D];云南師范大學(xué);2016年

,

本文編號(hào):1513063

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/1513063.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶9189e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com