一種利用機(jī)器學(xué)習(xí)策略提高復(fù)雜性狀全基因組預(yù)測準(zhǔn)確性及計(jì)算效率的方法開發(fā)
發(fā)布時(shí)間:2022-01-06 05:21
全基因組預(yù)測是一種利用覆蓋全基因組標(biāo)記預(yù)測未知表型的新興技術(shù),隨著測序技術(shù)的不斷更新和日趨成熟,基因分型成本越來越低,全基因組預(yù)測逐漸被推廣應(yīng)用于動植物選育以及人類疾病風(fēng)險(xiǎn)評分。統(tǒng)計(jì)方法在全基因組預(yù)測中起到至關(guān)重要的作用,直接影響表型的預(yù)測效果;谟H緣關(guān)系的BLUP系列方法計(jì)算過程簡單,具有較高的計(jì)算效率,但由于其模型假設(shè)粗糙,預(yù)測準(zhǔn)確性往往不理想;基于標(biāo)記效應(yīng)的Bayes系列方法模型假設(shè)靈活,具有較高的預(yù)測準(zhǔn)確性,但由于其復(fù)雜的參數(shù)求解過程,計(jì)算效率低下。如何兼顧高準(zhǔn)確性及高計(jì)算效率的雙重優(yōu)勢,開發(fā)出快、準(zhǔn)、穩(wěn)的全基因組預(yù)測方法,是當(dāng)前的研究熱點(diǎn)和難點(diǎn)。本研究提出了一種利用機(jī)器學(xué)習(xí)過程提高復(fù)雜性狀預(yù)測準(zhǔn)確性及計(jì)算效率的方法,名為“Kinship Adjusted Multiple Loci Best Linear Unbaised Prediction”,簡稱KAML。其機(jī)器學(xué)習(xí)過程整合了交叉驗(yàn)證、多元回歸、網(wǎng)格搜索和二分法迭代等算法,能夠準(zhǔn)確地將大效應(yīng)標(biāo)記納入線性混合模型作為協(xié)變量,并同時(shí)將標(biāo)記貢獻(xiàn)進(jìn)行權(quán)重,構(gòu)建性狀特異的基因組親緣關(guān)系矩陣作為隨機(jī)效應(yīng)項(xiàng)。通過模型選擇過程自動切換...
【文章來源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:博士
【部分圖文】:
全基因組選擇在實(shí)際應(yīng)用的一般流程
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文20圖2KAML算法設(shè)計(jì)圖Fig.2TheroadmapofdesignedalgorithminKAMLKAML預(yù)測過程主要分為兩部分:一部分為參數(shù)優(yōu)化過程,此過程中將群體中具有表型的個體劃分為訓(xùn)練群和驗(yàn)證群,利用訓(xùn)練群體表型記錄訓(xùn)練模型,采用不同參數(shù)組合預(yù)測驗(yàn)證群,并計(jì)算預(yù)測值與真實(shí)表型的相關(guān)程度作為模型選擇指標(biāo),查找和確定驗(yàn)證群預(yù)測準(zhǔn)確性最高的參數(shù)組合;另一部分為預(yù)測未知表型個體,直接采用第一部分確定的相關(guān)參數(shù),利用所有有表型個體預(yù)測未知表型個體。2.5.1協(xié)變量QTNs的選擇全基因組關(guān)聯(lián)分析(GWAS)作為一種目標(biāo)性狀候選基因篩選的有力工具,其關(guān)聯(lián)分析結(jié)果能夠?qū)δ繕?biāo)性狀的遺傳構(gòu)建提供一定的先驗(yàn)信息,因此KAML在性狀的GWAS結(jié)果基礎(chǔ)上進(jìn)行參數(shù)優(yōu)化。首先,將群體中具有表型的個體分為N個組,隨機(jī)組合其中N-1個組進(jìn)行全基因組關(guān)聯(lián)分析,重復(fù)N次,即得到N組關(guān)聯(lián)分析結(jié)果。對每組關(guān)聯(lián)分析結(jié)果進(jìn)行LD篩選(LDclumping),在設(shè)定LD閾值下(默認(rèn)設(shè)置為0.3),從最顯著的標(biāo)記依次篩選,挑取前n個標(biāo)記(默認(rèn)設(shè)置為20),N組關(guān)聯(lián)分析結(jié)果篩選之后得到N組長度為n的候選QTNs向量。對所有組的候選QTNs進(jìn)行計(jì)數(shù),在計(jì)數(shù)過程中需要注意的是,當(dāng)不同交叉驗(yàn)證組的QTNs相關(guān)系數(shù)大于設(shè)定閾值時(shí),以p值小的QTN計(jì)數(shù),采用Bootstrap思想,挑取計(jì)數(shù)大于等于N*0.9的QTNs作為priorQTNs。其次,將priorQTNs在每個交叉驗(yàn)證組
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文22圖3KAML算法中網(wǎng)格搜索及二分法迭代優(yōu)化權(quán)重關(guān)系矩陣圖示Fig.3IllustrationofiterationprocessesofgridsearchandbisectionalgorithmtooptimizeweightedkinshipmatrixinKAML網(wǎng)格搜索全部計(jì)算完成后,比較所有交點(diǎn)的值大小,確定最大值(圖中實(shí)線相交的空心紅圈),然后啟動二分法迭代過程,為了避免最大值附近存在多個峰的情況,我們在最大值組合, 兩邊各取一個值|,A,取值規(guī)則如下:a|,Ab∈~()=}#2,#+#-2 ;=1}#G-+#2,#+#-2 ;1<<}#G-+#2,3##G-2 ;= 這樣構(gòu)成了4個新的組合,如圖3中虛線所示,虛線交點(diǎn)為二分法選取的新組合,計(jì)算4個交點(diǎn)預(yù)測準(zhǔn)確性之后,同樣取最大值點(diǎn)(圖中虛線相交的空心紅圈),以同樣的方式進(jìn)入下一次二分法迭代,如此實(shí)現(xiàn)二分法迭代過程,當(dāng)?shù)螖?shù)達(dá)到設(shè)置的最大迭代次數(shù)(默認(rèn)設(shè)置為10)或者當(dāng)前后兩次迭代預(yù)測值的差值小于設(shè)定精度(默認(rèn)設(shè)置為0.0001),二分法自動迭代結(jié)束。最后,比較最終確定的組合下預(yù)測準(zhǔn)確性與GBLUP準(zhǔn)確性:當(dāng)最佳組合下的預(yù)測準(zhǔn)確性小于GBLUP時(shí),直接放棄最佳組合,采用標(biāo)準(zhǔn)的Kinship,此時(shí)最終模型可為Ks或pQ+Ks;當(dāng)最佳組合下的預(yù)測準(zhǔn)確性大于GBLUP時(shí),采用最佳組合,此時(shí)最終模型可為Kw或pQ+Kw。需要注意的是,在交叉驗(yàn)證過程中,訓(xùn)練群預(yù)測驗(yàn)證群的預(yù)測準(zhǔn)確性在KAML中存在兩種情況:當(dāng)性狀定義為2水平0、1的表型時(shí),KMAL自動轉(zhuǎn)換利用AUROC指標(biāo)計(jì)算預(yù)測準(zhǔn)確性;當(dāng)性狀非2水平0、1的表型時(shí),KAML采用Pearson相關(guān)系數(shù)計(jì)算預(yù)測準(zhǔn)確性。
【參考文獻(xiàn)】:
期刊論文
[1]基因組選擇在豬雜交育種中的應(yīng)用[J]. 楊岸奇,陳斌,冉茂良,楊廣民,曾誠. 遺傳. 2020(02)
本文編號:3571814
【文章來源】:華中農(nóng)業(yè)大學(xué)湖北省 211工程院校 教育部直屬院校
【文章頁數(shù)】:83 頁
【學(xué)位級別】:博士
【部分圖文】:
全基因組選擇在實(shí)際應(yīng)用的一般流程
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文20圖2KAML算法設(shè)計(jì)圖Fig.2TheroadmapofdesignedalgorithminKAMLKAML預(yù)測過程主要分為兩部分:一部分為參數(shù)優(yōu)化過程,此過程中將群體中具有表型的個體劃分為訓(xùn)練群和驗(yàn)證群,利用訓(xùn)練群體表型記錄訓(xùn)練模型,采用不同參數(shù)組合預(yù)測驗(yàn)證群,并計(jì)算預(yù)測值與真實(shí)表型的相關(guān)程度作為模型選擇指標(biāo),查找和確定驗(yàn)證群預(yù)測準(zhǔn)確性最高的參數(shù)組合;另一部分為預(yù)測未知表型個體,直接采用第一部分確定的相關(guān)參數(shù),利用所有有表型個體預(yù)測未知表型個體。2.5.1協(xié)變量QTNs的選擇全基因組關(guān)聯(lián)分析(GWAS)作為一種目標(biāo)性狀候選基因篩選的有力工具,其關(guān)聯(lián)分析結(jié)果能夠?qū)δ繕?biāo)性狀的遺傳構(gòu)建提供一定的先驗(yàn)信息,因此KAML在性狀的GWAS結(jié)果基礎(chǔ)上進(jìn)行參數(shù)優(yōu)化。首先,將群體中具有表型的個體分為N個組,隨機(jī)組合其中N-1個組進(jìn)行全基因組關(guān)聯(lián)分析,重復(fù)N次,即得到N組關(guān)聯(lián)分析結(jié)果。對每組關(guān)聯(lián)分析結(jié)果進(jìn)行LD篩選(LDclumping),在設(shè)定LD閾值下(默認(rèn)設(shè)置為0.3),從最顯著的標(biāo)記依次篩選,挑取前n個標(biāo)記(默認(rèn)設(shè)置為20),N組關(guān)聯(lián)分析結(jié)果篩選之后得到N組長度為n的候選QTNs向量。對所有組的候選QTNs進(jìn)行計(jì)數(shù),在計(jì)數(shù)過程中需要注意的是,當(dāng)不同交叉驗(yàn)證組的QTNs相關(guān)系數(shù)大于設(shè)定閾值時(shí),以p值小的QTN計(jì)數(shù),采用Bootstrap思想,挑取計(jì)數(shù)大于等于N*0.9的QTNs作為priorQTNs。其次,將priorQTNs在每個交叉驗(yàn)證組
華中農(nóng)業(yè)大學(xué)2020屆博士研究生學(xué)位(畢業(yè))論文22圖3KAML算法中網(wǎng)格搜索及二分法迭代優(yōu)化權(quán)重關(guān)系矩陣圖示Fig.3IllustrationofiterationprocessesofgridsearchandbisectionalgorithmtooptimizeweightedkinshipmatrixinKAML網(wǎng)格搜索全部計(jì)算完成后,比較所有交點(diǎn)的值大小,確定最大值(圖中實(shí)線相交的空心紅圈),然后啟動二分法迭代過程,為了避免最大值附近存在多個峰的情況,我們在最大值組合, 兩邊各取一個值|,A,取值規(guī)則如下:a|,Ab∈~()=}#2,#+#-2 ;=1}#G-+#2,#+#-2 ;1<<}#G-+#2,3##G-2 ;= 這樣構(gòu)成了4個新的組合,如圖3中虛線所示,虛線交點(diǎn)為二分法選取的新組合,計(jì)算4個交點(diǎn)預(yù)測準(zhǔn)確性之后,同樣取最大值點(diǎn)(圖中虛線相交的空心紅圈),以同樣的方式進(jìn)入下一次二分法迭代,如此實(shí)現(xiàn)二分法迭代過程,當(dāng)?shù)螖?shù)達(dá)到設(shè)置的最大迭代次數(shù)(默認(rèn)設(shè)置為10)或者當(dāng)前后兩次迭代預(yù)測值的差值小于設(shè)定精度(默認(rèn)設(shè)置為0.0001),二分法自動迭代結(jié)束。最后,比較最終確定的組合下預(yù)測準(zhǔn)確性與GBLUP準(zhǔn)確性:當(dāng)最佳組合下的預(yù)測準(zhǔn)確性小于GBLUP時(shí),直接放棄最佳組合,采用標(biāo)準(zhǔn)的Kinship,此時(shí)最終模型可為Ks或pQ+Ks;當(dāng)最佳組合下的預(yù)測準(zhǔn)確性大于GBLUP時(shí),采用最佳組合,此時(shí)最終模型可為Kw或pQ+Kw。需要注意的是,在交叉驗(yàn)證過程中,訓(xùn)練群預(yù)測驗(yàn)證群的預(yù)測準(zhǔn)確性在KAML中存在兩種情況:當(dāng)性狀定義為2水平0、1的表型時(shí),KMAL自動轉(zhuǎn)換利用AUROC指標(biāo)計(jì)算預(yù)測準(zhǔn)確性;當(dāng)性狀非2水平0、1的表型時(shí),KAML采用Pearson相關(guān)系數(shù)計(jì)算預(yù)測準(zhǔn)確性。
【參考文獻(xiàn)】:
期刊論文
[1]基因組選擇在豬雜交育種中的應(yīng)用[J]. 楊岸奇,陳斌,冉茂良,楊廣民,曾誠. 遺傳. 2020(02)
本文編號:3571814
本文鏈接:http://www.sikaile.net/projectlw/swxlw/3571814.html
最近更新
教材專著