基于non-local先驗(yàn)的貝葉斯變量選擇方法及其在高維數(shù)據(jù)分析中的應(yīng)用
發(fā)布時(shí)間:2020-11-14 19:13
目的對高維數(shù)據(jù)進(jìn)行變量篩選并構(gòu)建預(yù)測模型是組學(xué)數(shù)據(jù)分析的研究熱點(diǎn)之一。本研究旨在為結(jié)局為二分類變量的高維組學(xué)數(shù)據(jù)篩選自變量并構(gòu)建預(yù)測結(jié)局的稀疏統(tǒng)計(jì)模型。方法本研究通過模擬研究和實(shí)例分析闡釋基于non-local先驗(yàn)的貝葉斯變量選擇方法——乘積逆矩先驗(yàn)(product inverse moment,piMOM)相較于懲罰類方法ISIS-光滑平切絕對偏差(iterative sure independence screening-smoothly clipped absolute deviation,ISIS-SCAD)和ISIS-最小最大凹懲罰(iterative sure independence screening-minimax concave penalty,ISIS-MCP)在高維數(shù)據(jù)中變量篩選及其預(yù)測效果的性能優(yōu)劣。結(jié)果模擬研究發(fā)現(xiàn):在高維的情況下,經(jīng)piMOM、ISIS-SCAD和ISIS-MCP方法篩選所得變量的平均真陽性數(shù)和受試者工作特征曲線下面積(AUC,area under curve)基本相等,ISIS-SCAD、ISIS-MCP的平均假陽性數(shù)、回歸系數(shù)均方誤差以及預(yù)測均方誤差明顯高于基于non-local先驗(yàn)的貝葉斯變量方法所獲得的對應(yīng)值。piMOM方法分析彌漫大B細(xì)胞淋巴瘤實(shí)例數(shù)據(jù)共識(shí)別5個(gè)有意義的基因,AUC為0.996;ISIS-SCAD識(shí)別7個(gè)基因,AUC為0.975;ISIS-MCP識(shí)別7個(gè)基因,AUC為0.968。結(jié)論在模型選擇相合性和預(yù)測準(zhǔn)確性方面,piMOM方法與ISIS-SCAD和ISIS-MCP相比,具有優(yōu)勢,在一定意義上可有效控制假陽性率。
【部分圖文】:
方案二的模擬結(jié)果
本文首先闡釋基于non-local先驗(yàn)的貝葉斯變量篩選方法——piMOM,繼而通過模擬研究和實(shí)例分析探究其在高維數(shù)據(jù)中的應(yīng)用,從而比較piMOM、ISIS-SCAD、ISIS-MCP方法在高維數(shù)據(jù)中進(jìn)行變量篩選的性能優(yōu)劣。原理與方法
其中,τ,γ>0為piMOM的兩個(gè)超參數(shù)。τ為尺度參數(shù),γ為形狀參數(shù)。上述兩個(gè)超參數(shù)分別決定先驗(yàn)函數(shù)0附近和兩端尾部的分布情況。某種意義上,所構(gòu)建模型中參數(shù)的最小值由尺度參數(shù)τ決定。針對“如何對τ值進(jìn)行合理選擇”這一問題,Nikooienejad[8]于2016年給出相關(guān)建議:數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化后,能使原假設(shè)下和備擇假設(shè)下概率密度函數(shù)交叉面積低于一定閾值(p-α)的最大τ值,即為合理τ值。合理選取該值能在有效控制模型的假陽性率(兩者密度函數(shù)交叉部分)的同時(shí),保證模型具有較高的靈敏度,見圖2。(2)模型空間先驗(yàn)
【相似文獻(xiàn)】
本文編號:2883859
【部分圖文】:
方案二的模擬結(jié)果
本文首先闡釋基于non-local先驗(yàn)的貝葉斯變量篩選方法——piMOM,繼而通過模擬研究和實(shí)例分析探究其在高維數(shù)據(jù)中的應(yīng)用,從而比較piMOM、ISIS-SCAD、ISIS-MCP方法在高維數(shù)據(jù)中進(jìn)行變量篩選的性能優(yōu)劣。原理與方法
其中,τ,γ>0為piMOM的兩個(gè)超參數(shù)。τ為尺度參數(shù),γ為形狀參數(shù)。上述兩個(gè)超參數(shù)分別決定先驗(yàn)函數(shù)0附近和兩端尾部的分布情況。某種意義上,所構(gòu)建模型中參數(shù)的最小值由尺度參數(shù)τ決定。針對“如何對τ值進(jìn)行合理選擇”這一問題,Nikooienejad[8]于2016年給出相關(guān)建議:數(shù)據(jù)經(jīng)標(biāo)準(zhǔn)化后,能使原假設(shè)下和備擇假設(shè)下概率密度函數(shù)交叉面積低于一定閾值(p-α)的最大τ值,即為合理τ值。合理選取該值能在有效控制模型的假陽性率(兩者密度函數(shù)交叉部分)的同時(shí),保證模型具有較高的靈敏度,見圖2。(2)模型空間先驗(yàn)
【相似文獻(xiàn)】
相關(guān)期刊論文 前4條
1 孫紅衛(wèi);楊文越;王慧;羅文海;胡乃寶;王彤;;懲罰logistic回歸用于高維變量選擇的模擬評價(jià)[J];中國衛(wèi)生統(tǒng)計(jì);2016年04期
2 何曉霞;徐偉;吳傳菊;;分位數(shù)回歸在醫(yī)療消費(fèi)影響因素研究中的應(yīng)用[J];數(shù)學(xué)的實(shí)踐與認(rèn)識(shí);2017年18期
3 榮雯雯;張奇;劉艷;;基于正則化回歸的變量選擇方法在高維數(shù)據(jù)中的應(yīng)用[J];實(shí)用預(yù)防醫(yī)學(xué);2018年06期
4 張秀秀;王慧;田雙雙;喬楠;閆麗娜;王彤;;高維數(shù)據(jù)回歸分析中基于LASSO的自變量選擇[J];中國衛(wèi)生統(tǒng)計(jì);2013年06期
相關(guān)碩士學(xué)位論文 前1條
1 田舒;基于邊際參數(shù)混合治愈模型的變量選擇[D];大連理工大學(xué);2019年
本文編號:2883859
本文鏈接:http://www.sikaile.net/yixuelunwen/yiyuanguanlilunwen/2883859.html
最近更新
教材專著