全基因組單核苷酸多態(tài)性交互作用識別方法研究
發(fā)布時間:2020-05-10 07:27
【摘要】:全基因組關(guān)聯(lián)研究(GWAS)已廣泛應(yīng)用于人類疾病的遺傳機(jī)制研究中,然而目前GWAS識別出的單個的與疾病相關(guān)的單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)位點(diǎn)僅能解釋復(fù)雜疾病的部分遺傳特性。大量研究表明SNP交互作用可能是“丟失的遺傳性”的主要成因。為了進(jìn)一步加深對復(fù)雜疾病遺傳機(jī)理的了解,研究者在SNP交互作用識別問題上展開了較為深入的研究,面向無關(guān)人群和家系人群兩類不同數(shù)據(jù),提出了大量SNP交互作用識別方法。然而現(xiàn)有方法仍舊面臨計(jì)算復(fù)雜度較高、難以識別高階SNP交互作用、容易受強(qiáng)邊際效應(yīng)影響等問題。因此,本文針對現(xiàn)有方法存在的不足,面向全基因組SNP交互作用識別問題展開較為深入的理論分析和方法研究,主要研究內(nèi)容包括以下兩個方面:(1)基于病例對照組(case-control)的高階SNP交互作用識別方法研究。現(xiàn)有基于無關(guān)人群的交互作用研究主要集中在基于病例對照組的SNP交互作用識別方面,但現(xiàn)有大部分識別方法主要關(guān)注于二階交互作用識別,忽略了對疾病發(fā)展有著重要影響的高階SNP交互作用識別。盡管有少量方法能夠檢測高階交互作用,但卻面臨識別能力較低、時間復(fù)雜度較高等問題。因此,本文提出了基于兩階段識別策略的高階SNP交互作用識別方法HiSeeker。在篩選階段,HiSeeker結(jié)合卡方檢驗(yàn)及邏輯回歸方法對兩位點(diǎn)組合進(jìn)行快速分析以篩選出與疾病具有較強(qiáng)或適中的相關(guān)性的兩位點(diǎn)組合,在有效降低搜索空間的同時,保留了更多有效遺傳信息。在搜索階段,在篩選出的兩位點(diǎn)組合上,根據(jù)考察位點(diǎn)集合大小,設(shè)計(jì)利用窮舉搜索策略或基于蟻群算法的啟發(fā)式搜索策略進(jìn)行高階SNP交互作用組合識別,這一機(jī)制使得HiSeeker在確保計(jì)算效率的同時能盡可能的識別出更多的交互作用。模擬實(shí)驗(yàn)結(jié)果表明,相比于現(xiàn)有典型識別方法,HiSeeker對高階交互作用具有更高的識別能力,也具有較高的計(jì)算效率。在兩個真實(shí)GWAS數(shù)據(jù)集上的實(shí)驗(yàn)表明,HiSeeker能夠識別出對比方法難以識別的高階交互作用,證明了HiSeeker在大規(guī)模真實(shí)遺傳數(shù)據(jù)中進(jìn)行交互作用識別的可行性和有效性。(2)基于三元家庭(trio families)的SNP交互作用識別方法研究。相比于基于無關(guān)人群的交互作用識別方法,基于家系的方法面對人群分層問題魯棒性更高。但由于家系數(shù)據(jù)收集難度較大及結(jié)構(gòu)更為復(fù)雜,現(xiàn)有基于家系的交互作用識別研究還比較少,現(xiàn)有識別方法也存在識別能力較低、計(jì)算效率較低及易受到強(qiáng)邊際效應(yīng)影響等不足。針對已有方法的不足,本文整合多因子降維法(Multifactor Dimensionality Reduction,MDR)和回歸分析策略提出了面向三元家庭數(shù)據(jù)的SNP交互作用識別方法TrioMDR。TrioMDR一方面將MDR與邏輯回歸方法相結(jié)合,在回歸分析過程加入對邊際效應(yīng)的估計(jì),降低了SNP交互作用識別過程中邊際效應(yīng)的不利影響,提高了識別精度;另一方面,相比于傳統(tǒng)基于MDR的方法利用計(jì)算復(fù)雜度極高的置換檢驗(yàn)策略去控制I型錯誤率,TrioMDR引入了半?yún)?shù)P-value校正機(jī)值,該校正機(jī)制僅需進(jìn)行少量的置換即可對互作效應(yīng)的顯著性進(jìn)行評估,這一校正機(jī)制在保證交互作用識別能力的同時,使得TrioMDR的計(jì)算效率得到顯著提升。在大量不同場景下的模擬實(shí)驗(yàn)結(jié)果表明TrioMDR相比于一些典型方法能夠更好的控制I型錯誤率、能夠更好的識別SNP交互作用以及具有較高的計(jì)算效率。
【圖文】:
子含有大約 30 億個堿基對,提供了主要的遺傳括腺嘌呤 A、胸腺嘧啶 T、鳥嘌呤 G 和胞嘧啶,不同個體的 DNA 序列是極為相似的,不同個同的,只有約 0.1%左右的堿基發(fā)生了變異是致了個體之間的遺傳信息的差異,使得個體身。個體中的遺傳變異根據(jù)在人群中變異發(fā)生的Mutation)和多態(tài)性(Polymorphisms)[3]。當(dāng) 1%時,該變異被稱為多態(tài)性;反之,,則稱為le Nucleotide Polymorphism,SNP)則是指 DN化而導(dǎo)致的多態(tài)性。SNP 位點(diǎn)(SNP site,SNP置上的基因和變化信息。圖 2-1 所示即一個 SN組中大約有 15,000,000 個常見的 SNP 位點(diǎn)0%的差異變化類型[51,52]。這些 SNP 位點(diǎn)表示了的遺傳變異,因此常常作為研究人與人之間特的遺傳因素。
圖 4-2 在不同情況下 TrioMDR、MDR-PDT、GCORE 與 TC 識別二位點(diǎn)交互作用的能力對比。Figure 4-2 The power comparison between TrioMDR, MDR-PDT, GCORE and TC for testingtwo SNPs having interaction effects on disease under different scenarios.
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP18;Q811.4
本文編號:2656957
【圖文】:
子含有大約 30 億個堿基對,提供了主要的遺傳括腺嘌呤 A、胸腺嘧啶 T、鳥嘌呤 G 和胞嘧啶,不同個體的 DNA 序列是極為相似的,不同個同的,只有約 0.1%左右的堿基發(fā)生了變異是致了個體之間的遺傳信息的差異,使得個體身。個體中的遺傳變異根據(jù)在人群中變異發(fā)生的Mutation)和多態(tài)性(Polymorphisms)[3]。當(dāng) 1%時,該變異被稱為多態(tài)性;反之,,則稱為le Nucleotide Polymorphism,SNP)則是指 DN化而導(dǎo)致的多態(tài)性。SNP 位點(diǎn)(SNP site,SNP置上的基因和變化信息。圖 2-1 所示即一個 SN組中大約有 15,000,000 個常見的 SNP 位點(diǎn)0%的差異變化類型[51,52]。這些 SNP 位點(diǎn)表示了的遺傳變異,因此常常作為研究人與人之間特的遺傳因素。
圖 4-2 在不同情況下 TrioMDR、MDR-PDT、GCORE 與 TC 識別二位點(diǎn)交互作用的能力對比。Figure 4-2 The power comparison between TrioMDR, MDR-PDT, GCORE and TC for testingtwo SNPs having interaction effects on disease under different scenarios.
【學(xué)位授予單位】:西南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2018
【分類號】:TP18;Q811.4
【參考文獻(xiàn)】
相關(guān)碩士學(xué)位論文 前1條
1 景鵬杰;基于多目標(biāo)蟻群優(yōu)化算法的全基因組關(guān)聯(lián)分析研究[D];上海交通大學(xué);2015年
本文編號:2656957
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2656957.html
最近更新
教材專著