天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于截尾的穩(wěn)健懲罰Logistic回歸和穩(wěn)健懲罰Cox回歸及在組學數(shù)據(jù)分析中的應用

發(fā)布時間:2020-11-01 04:44
   目的:以前的研究表明,樣本標記錯誤在組學數(shù)據(jù)中并不少見。樣本標記錯誤是由于漏診或誤診,樣本的異質(zhì)性,實驗中的技術(shù)問題等造成。這些潛在的異常點會導致病人接受不適合的治療,且會影響可靠地篩選疾病相關(guān)的生物標記物。對這些錯分樣本進行識別,以及從錯分高維組學數(shù)據(jù)中進行正確地特征選擇是一個亟待解決的問題。本文第一部分提出了基于截尾的穩(wěn)健懲罰Logistic回歸,探討了理論性質(zhì),提出算法來求解估計,并與其它解決錯分高維組學數(shù)據(jù)的方法進行比較,便于實際中選用合適的方法。類似的異常點會也會降低懲罰Cox回歸變量選擇的準確性。如果這些異常點不是因為實驗或記錄誤差造成,這可能意味著這些患者的生存時間相對于其協(xié)變量有不同的關(guān)聯(lián)模式。通過對這些異常值的識別和分析,有可能找到新的預后因素并對其進行個體化治療。本文第二部分提出了基于截尾的穩(wěn)健懲罰Cox回歸,并提出算法來求解估計,以便可靠地進行變量篩選和異常點識別。方法:本文第一部分提出了基于截尾的LASSO類型的懲罰Logistic回歸(LASSO-type maximum trimmed likelihood estimator,MTL-LASSO),并擴展到彈性網(wǎng)懲罰(EN-type maximum trimmed likelihood estimator,MTL-EN)。其中探討了MTL-LASSO的理論性質(zhì),提出結(jié)合接受-拒絕算法和C-step(Concentration steps)算法的AR-Cstep(C-step based on acceptance-rejection)算法來求解MTL-LASSO估計和MTL-EN估計,并將MTL-EN與其他三種解決錯分高維變量選擇問題的方法,即采用C-step算法的基于截尾的彈性網(wǎng)類型懲罰Logistic回歸(enetLTS),稀疏標簽噪聲穩(wěn)健Logistic回歸(Rlogreg),和將彈性網(wǎng)、稀疏偏最小二乘估計進行綜合的Ensemble方法,在特征選擇、異常值識別以及預測的準確性方面進行模擬評價。將四種方法應用于包含有不一致標簽樣本的三陰性乳腺癌(Triple Negative Breast Cancer,TNBC)RNA-seq數(shù)據(jù)集中,對其識別的錯分樣本和篩選的基因進行比較。本文第二部分提出了基于截尾的彈性網(wǎng)類型懲罰Cox回歸(ElasticNet-type maximum trimmed partial likelihood estimato,MPTL-EN),并提出結(jié)合接受-拒絕算法和C-step算法的AR-Cstep算法求解MPTL-EN,通過重加權(quán)步后得到估計Rwt MTPL-EN(Reweighted MTPL-EN)。通過模擬實驗來比較MPTL-EN與非穩(wěn)健的彈性網(wǎng)的在變量選擇、異常點識別以及預測方面的性能。對膠質(zhì)瘤患者的基因表達數(shù)據(jù)進行實例分析,以說明其應用。結(jié)果:第一部分:(1)對MTL-LASSO的理論性質(zhì)的探討得出,LASSO類型的懲罰Logistic回歸估計是存在且有界的,當一個可以取任意值的異常點替換原來數(shù)據(jù)時,LASSO估計值會趨向于0,導致模型無效。本文給出了不同于一般模型的、適合于懲罰Logistic回歸崩潰點(Breakdown point,BDP)的定義,給出并證明了MTL-LASSO的BDP,指出MTL-LASSO能抵抗的異常點比例,即是其截尾比例。通過LASSO與MTL-LASSO的模擬實驗得出,在沒有錯分樣本時,MTL-LASSO的結(jié)果與LASSO相近,而當存在異常點時,LASSO受異常點的影響非常大,而MTL-LASSO的卻保持穩(wěn)定。重加權(quán)后的Rwt MTL-LASSO進一步提高了性能。(2)MTL-EN,enetLTS,Rlogreg和Ensemble四種方法比較的模擬實驗得出,當只有y異常時,Ensemble在變量選擇方面綜合指標最高,但是其PSR要低于MTL-EN。當異常點比例增大Ensemble變量選擇的準確性下降幅度較大,特別當x也存在異常時,Ensemble變量選擇的準確性在四種方法中處于最低,而MTL-EN變量選擇準確性最高。異常點識別方面,MTL-EN在四種方法中表現(xiàn)最好,敏感性Sn較高,且假陽性FPR控制在2%以內(nèi)。就預測準確性而言,MTL-EN錯分率較低。且MTL-EN運算時間也遠遠小于enetLTS和Ensemble,說明采用AR-Cstep算法能夠讓迭代收斂較快,且收斂到不含異常點的子集上,從而能夠更準確地篩選變量或識別異常點。(3)通過實例分析發(fā)現(xiàn),MTL-EN和enetLTS分別在47個和43個檢測到的異常值中都識別出了7個不一致標簽的可疑個體,這一結(jié)果優(yōu)于其他兩種方法。enetLTS識別的錯分樣本全是非TNBC患者,而MTL-EN分別識別的錯分樣本中還有13個TNBC患者,其中包含1個是不一致標簽的可疑樣本。就篩選的基因方面,MTL-EN和enetLTS篩選的基因較多,其效應量較小,根據(jù)模擬實驗的結(jié)果,其敏感度高,也就是盡量包含與TNBC有關(guān)的基因,所以可以作為初步篩選的基因。Rlogreg和Ensemble篩選的基因較少,雖然Ensemble發(fā)現(xiàn)的基因都與TNBC有關(guān),但數(shù)量太少,敏感度太低,沒有發(fā)掘更多與TNBC有關(guān)的基因。第二部分模擬研究表明,有異常值的高維數(shù)據(jù)集中,穩(wěn)健的MPTL-EN在變量選擇、異常值檢測和預測方面表現(xiàn)優(yōu)于非穩(wěn)健的彈性網(wǎng)懲罰的Cox回歸,而且重加權(quán)的Rwt MTPL-EN估計要好于沒有進行重加權(quán)的Raw MTPL-EN。(1)當沒有異常點時,Rwt MTPL-EN(Reweighted MTPL-EN)的結(jié)果與彈性網(wǎng)接近。當存在異常點時,穩(wěn)健的Rwt MPTL-EN在變量選擇、異常值檢測和預測方面表現(xiàn)優(yōu)于非穩(wěn)健的彈性網(wǎng)。相對于其預后指數(shù)“失效太早”的異常點,“活得太久”的異常點會使得彈性網(wǎng)表現(xiàn)更差,而Rwt MTPL-EN更易于將“活得太久”的異常點識別出來,且無論在對稱還是非對稱異常點下,準確性保持穩(wěn)定。(2)當刪失比例增大,彈性網(wǎng)和Rwt MTPL-EN的性能都有下降,但Rwt MTPL-EN的性能一直高于彈性網(wǎng)。相對于截尾比例低于異常點比例時,當截尾比例等于或高于異常點比例時Rwt MTPL-EN的結(jié)果要更好。(3)當y方向異常偏離增大時,使得彈性網(wǎng)選擇的變量變少,當x方向也出現(xiàn)異常時,即異常觀測的自變量也偏離主體時,彈性網(wǎng)選擇的變量遠遠大于真實的非零變量個數(shù),這兩種情況都使得彈性網(wǎng)選擇的變量準確性下降。而Rwt MTPL-EN在各種情況下均保持穩(wěn)定,說明Rwt MTPL-EN能夠同時抵抗x方向和y方向的異常點。(4)通過膠質(zhì)瘤基因表達數(shù)據(jù)的分析可以看到,Rwt MTPL-EN篩選的變量與彈性網(wǎng)有差異,識別了更高比例的報道與膠質(zhì)瘤有關(guān)的基因。在去除異常點后,其預測準確性高于彈性網(wǎng),且識別了更多相對于預后指數(shù)“活得太久”的異常點。結(jié)論:本文探討了基于截尾的LASSO類型(MTL-LASSO)和彈性網(wǎng)類型的穩(wěn)健懲罰Logistic回歸(MTL-EN)。對懲罰Logistic回歸和MTL-LASSO的理論性質(zhì)進行探討和證明,給出MTL-LASSO穩(wěn)健性與截尾比例的關(guān)系。本文還提出了求解MTL-LASSO和MTL-EN估計的AR-Cstep算法,通過與采用C-step算法的enetLTS比較的模擬實驗可以看到,采用AR-Cstep算法的收斂更快,變量選擇和異常點識別的準確性更高。MTL-EN在識別錯分異常點方面是最為推薦的方法,識別的敏感性最高,且能控制假陽性率在較低的范圍內(nèi)。在變量選擇方面,如果不存在x方向異常,且要求變量選擇的FDR較低,推薦的方法是Ensemble。如果x方向存在異常,特別是要求變量選擇的敏感度較高時,則應該選擇MTL-EN。本文建立的基于截尾的穩(wěn)健懲罰Cox模型Rwt MPTL-EN,能夠在異常點存在時,相比非穩(wěn)健的彈性網(wǎng)模型,能夠更加準確地進行變量選擇。它能夠同時抵抗比例很大的x方向和y方向的異常點。Rwt MPTL-EN能夠更準確地識別異常點,特別是在識別“活得太久”異常點方面,而“活得太久”的異常點對彈性網(wǎng)變量選擇準確性影響更大。本文建立的基于殘差的AR-Cstep算法,使得算法不再依賴于從模型的似然函數(shù)中分離出個體的貢獻,而且解決懲罰回歸中懲罰參數(shù)改變導致C-step不收斂的問題,這種改進可以使得AR-Cstep算法推廣到更多的模型。
【學位單位】:山西醫(yī)科大學
【學位級別】:博士
【學位年份】:2020
【中圖分類】:R195.1
【部分圖文】:

散點圖,正常點,異常點,散點圖


山西醫(yī)科大學博士學位論文16的含義是沒有用重加權(quán)的基于截尾的懲罰Logistic回歸。而RwtMTL-LASSO表示在RawMTL-LASSO的基礎(chǔ)上考慮了重加權(quán)。對于LASSO,調(diào)整參數(shù)λ的選擇基于100個交叉驗證數(shù)據(jù)集。MTL-LASSO中子集的樣本量設(shè)定為h=0.75n。所有的交叉驗證都是10折交叉驗證。圖5-1模擬情形(2)只有y異常時y與=′時的散點圖(注:黑色實心是正常點,紅色空心是異常點)圖5-2模擬情形(3)x和y都異常時y與PI=′時的散點圖

散點圖,散點圖,情形,交叉驗證


山西醫(yī)科大學博士學位論文16的含義是沒有用重加權(quán)的基于截尾的懲罰Logistic回歸。而RwtMTL-LASSO表示在RawMTL-LASSO的基礎(chǔ)上考慮了重加權(quán)。對于LASSO,調(diào)整參數(shù)λ的選擇基于100個交叉驗證數(shù)據(jù)集。MTL-LASSO中子集的樣本量設(shè)定為h=0.75n。所有的交叉驗證都是10折交叉驗證。圖5-1模擬情形(2)只有y異常時y與=′時的散點圖(注:黑色實心是正常點,紅色空心是異常點)圖5-2模擬情形(3)x和y都異常時y與PI=′時的散點圖

方向圖,準確性,變量,異常點


山西醫(yī)科大學博士學位論文28異常點比例增大,對Ensemble的結(jié)果影響最大,變量選擇的準確性下降幅度較大(GM0.673vs0.562),異常點識別的敏感度也下降幅度較大(Sn0.520vs0.393)。而MTL-EN變量選擇準確性下降幅度較小(GM0.424vs0.380),異常點識別的敏感度也下降較。⊿n0.600vs0.534)。表6-2Rlogreg,enetLTS,MTL-EN,Ensemble四種方法結(jié)果比較(n=100,p=1000)*MethodsVariablesselectionOutliersdetectionPredictionModelsizePSRFDRGMNumSnFPRMRRlogreg17.970.2000.6710.2563.080.4050.0160.1480.05enetLTS92.990.6360.6830.4223.330.4680.0150.134MTL-EN73.280.6460.6990.4243.90.6000.0160.131Ensemble14.910.4910.0220.6732.380.5200.003-Rlogreg18.210.1310.7820.2063.010.2300.0100.1690.1enetLTS105.030.5850.7180.3695.420.4070.0190.163MT-EN77.480.5960.7320.3806.580.5340.0190.166Ensemble11.260.3550.0520.5623.630.3930.001-*:,異常點比例圖6-1Rlogreg,enetLTS,MTL-EN和Ensemble四種方法在y方向異常時的變量選擇準確性(n=100,p=200)
【相似文獻】

相關(guān)期刊論文 前10條

1 魯立剛,丁錕,楊文泉,張輝,丁元欣;Cox線性Logistic模型在新生兒窒息原因回顧性分析中的應用[J];黑龍江醫(yī)藥科學;2002年05期

2 彭崇基,守山正樹,齋藤寬,黃陽葵;用形態(tài)發(fā)育指標預測月經(jīng)初潮年齡的研究──Cox線性Logistic模型的應用[J];中國學校衛(wèi)生;1994年06期

3 楊江琳;隗伏冰;韋哲;;新生兒窒息原因的定量分析及判別模型——Cox線性Logistic模型的應用[J];數(shù)理醫(yī)藥學雜志;1992年02期

4 孫昌盛;田俊;許大荷;;應用Cox—Logistic線性回歸方法探討福州市低體重兒發(fā)生因素[J];福建醫(yī)學院學報;1991年04期

5 趙瓊暉;高二偉;趙旭;謝宗良;林起輝;潘清;劉建軍;;基于LASSO方法的logistic回歸模型在城市老年人群金屬暴露與高尿酸血癥相關(guān)性研究中的應用[J];環(huán)境與健康雜志;2019年07期

6 王娉;郭鵬江;夏志明;;Logistic模型中參數(shù)的自適應Lasso估計[J];西北大學學報(自然科學版);2012年05期

7 孫中華,王梅;Cox模型處理條件Logistic回歸考察升主動脈壓力波谷峰值與冠心病的相關(guān)性[J];數(shù)理醫(yī)藥學雜志;2004年01期

8 王小燕;方匡南;謝邦昌;;Logistic回歸的雙層變量選擇研究[J];統(tǒng)計研究;2014年09期

9 陳丙文;陳斌斌;陳彩平;;肺炎支原體感染并發(fā)消化系統(tǒng)損害患兒的有關(guān)特征及發(fā)病因素的Logistic回歸分析[J];中國中西醫(yī)結(jié)合消化雜志;2019年12期

10 李杰;段光友;曾義;段振馨;吳卓熙;楊貴英;李洪;;人工神經(jīng)網(wǎng)絡、極端梯度提升和Logistic回歸用于預測再次剖宮產(chǎn)術(shù)中輸血的比較分析[J];第三軍醫(yī)大學學報;2019年24期


相關(guān)博士學位論文 前10條

1 孫紅衛(wèi);基于截尾的穩(wěn)健懲罰Logistic回歸和穩(wěn)健懲罰Cox回歸及在組學數(shù)據(jù)分析中的應用[D];山西醫(yī)科大學;2020年

2 張百紅;多因素Cox回歸分析構(gòu)建肝癌分期系統(tǒng)[D];第二軍醫(yī)大學;2005年

3 程莉;Logistic回歸模型在附件包塊良惡性鑒別診斷中的應用[D];復旦大學;2009年

4 張鵬;體外沖擊波治療上尿路結(jié)石的療效預測:人工神經(jīng)網(wǎng)絡和Logistic回歸模型的建立與比較[D];南方醫(yī)科大學;2012年

5 李云鵬;模擬高原缺氧和氰化鈉中毒對大鼠COX的影響機制研究[D];第三軍醫(yī)大學;2008年

6 錢俊;生存分析中刪失數(shù)據(jù)比例對Cox回歸模型影響的研究[D];南方醫(yī)科大學;2009年

7 曲道煒;桂枝芍藥知母湯對AA大鼠COX信號通路介導的免疫調(diào)控研究[D];遼寧中醫(yī)藥大學;2016年

8 邊云;基于因子分析多元有序Logistic回歸對慢性胰腺炎分級診斷模型的研究[D];第二軍醫(yī)大學;2016年

9 楊興海;脊柱轉(zhuǎn)移癌預后相關(guān)因子篩選及Cox模型構(gòu)建[D];第二軍醫(yī)大學;2007年

10 彭愉康(Pang Peter);針灸在香港的歷史、現(xiàn)狀、發(fā)展展望及香港社會人口與針灸使用的關(guān)系的Logistic回歸分析[D];南京中醫(yī)藥大學;2014年


相關(guān)碩士學位論文 前10條

1 顏霞;基于Cox和Logistic模型的家庭背景對教育機會影響的問題研究[D];華北電力大學(北京);2011年

2 趙仕佳;影響前列腺癌預后的多因素Cox回歸分析及穿刺點數(shù)選擇的Logistic回歸模型的建立[D];廣州醫(yī)學院;2011年

3 陳德強;基于COX比例風險模型探討經(jīng)皮椎間孔鏡治療單節(jié)段LDH的2年預后分析[D];廣西中醫(yī)藥大學;2019年

4 李金花;基于Logistic模型的行人過街使用手機對交通安全影響研究[D];重慶大學;2017年

5 符崇垚;基于診斷比值的Logistic回歸分析對中東原油的鑒別[D];大連海事大學;2017年

6 原續(xù)菲;利用Logistic模型對預約掛號爽約行為的研究[D];昆明理工大學;2016年

7 孟婷;基于Logistic模型的供應鏈金融信用風險研究[D];湖南大學;2016年

8 崔瑞娟;應用Cox比例風險回歸模型分析上皮性卵巢癌的預后因素[D];新疆醫(yī)科大學;2016年

9 馮偉;Logistic回歸和決策樹在數(shù)據(jù)庫營銷響應中的應用[D];蘭州財經(jīng)大學;2015年

10 杜鵬鵬;基于Logistic模型的產(chǎn)能過剩行業(yè)財務風險研究[D];上海社會科學院;2015年



本文編號:2865031

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/yxlbs/2865031.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶3d98b***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com