左截?cái)鄶?shù)據(jù)下條件分位數(shù)和線性模型的估計(jì)以及變量選擇
發(fā)布時(shí)間:2020-02-29 04:39
【摘要】:在數(shù)據(jù)分析中,我們常常碰到右刪失或者左截?cái)鄶?shù)據(jù)問題,它們?cè)谏娣治觥⑨t(yī)學(xué)統(tǒng)計(jì)、天文學(xué)、經(jīng)濟(jì)學(xué)以及工程可靠性統(tǒng)計(jì)中具有重要應(yīng)用。過去的大部分文獻(xiàn)討論的是右刪失數(shù)據(jù),而近十幾年來左截?cái)鄶?shù)據(jù)越來越受到大家的關(guān)注。左截?cái)鄶?shù)據(jù)下,有很多文獻(xiàn)都構(gòu)造了條件分布函數(shù)、條件分位數(shù)和回歸函數(shù)的估計(jì)量,建立了它們的大樣本性質(zhì)。本文在左截?cái)鄶?shù)據(jù)下,分別研究了條件分位數(shù)的估計(jì)方法和線性回歸模型中的參數(shù)估計(jì)和變量選擇方法,以便進(jìn)一步補(bǔ)充和完善相關(guān)的方法和理論。具體涉及以下幾個(gè)方面。本文的第二章在左截?cái)嗒?dú)立數(shù)據(jù)下,構(gòu)造了條件分布函數(shù)、條件概率密度函數(shù)和條件分位數(shù)函數(shù)的加權(quán)雙核局部線性估計(jì)量,建立了這些估計(jì)量的漸近正態(tài)性。YuJones(1998)構(gòu)造了條件分布函數(shù)的雙核局部線性(DKLL)估計(jì)量,并在完全數(shù)據(jù)下,研究了條件分位數(shù)的雙核局部線性(DKLL)估計(jì)量的大樣本性質(zhì)。由于雙核局部線性DKLL估計(jì)方法是用局部線性方法得到的,因此它和核估計(jì)方法Nadaraya-Watson(N-W)相比,具有一些局部多項(xiàng)式估計(jì)方法的良好的性質(zhì),比如邊界點(diǎn)估計(jì)上的自動(dòng)調(diào)節(jié)等特性。然而,到目前為止,即使對(duì)獨(dú)立樣本,也沒有看到相關(guān)文獻(xiàn)在左截?cái)鄶?shù)據(jù)下,研究條件分布函數(shù)和條件分位數(shù)的雙核局部線性DKLL估計(jì)量,因此受YuJones(1998)文章的啟發(fā),本論文的第二章在左截?cái)嗒?dú)立樣本下,利用雙核局部線性方法構(gòu)造了條件分布函數(shù)、條件概率密度函數(shù)和條件分位數(shù)的非參估計(jì)量,進(jìn)而建立了它們的漸近正態(tài)性質(zhì)。在左截?cái)嗒?dú)立數(shù)據(jù)下,設(shè){(Xk,Yk,Tk,),k≥ 1}來自總體(X,Y,T)的一列隨機(jī)向量,這里T為截?cái)嘧兞。我們假設(shè)T和(X,Y)是相互獨(dú)立的,并且T有連續(xù)的分布函數(shù)。在左截?cái)嗄P椭?對(duì)于i= 1,2,...,N,生存時(shí)間Yi被截?cái)嘧兞縏i干擾,當(dāng)Yi ≥ Ti時(shí),Yi和Ti都能觀察到,而當(dāng)YiTi時(shí),Yi和Ti都不能觀察到。由于截?cái)嗟陌l(fā)生,N是未知的,n是實(shí)際觀察到的樣本容量,設(shè)θ = P(Y ≥T)表示隨機(jī)變量Y被觀測(cè)到的概率。根據(jù)YuJones提出的條件分布函數(shù)的雙核局部線性估計(jì)方法,我們知道F(y|x)的WDKLL估計(jì)量Fh1,h2(y|x)=β0是下列優(yōu)化問題的解從而ζp(x)的加權(quán)雙核局部線性估計(jì)量為通過代數(shù)化簡(jiǎn),得進(jìn)而條件概率密度函數(shù)f(y|x)的估計(jì)為其中于是我們可以分別建立Fh1,h2(y|x),fh1,h2(y|x),ξp,n(x)的漸近正態(tài)性,即此外,有限樣本下的數(shù)值模擬得出的結(jié)論也與我們的理論結(jié)果一致。第二章的結(jié)果已發(fā)表于《Communications in Statistics-Theory and Methods》。左截?cái)嗒?dú)立樣本的假設(shè)在某些情況下可能是合理的,例如,生存分析中的數(shù)據(jù)來自一個(gè)互不相干的群體時(shí)。然而,在生存分析中,我們碰到的數(shù)據(jù)結(jié)構(gòu)很多是相依的。例如,從從家庭成員中采取的樣本數(shù)據(jù),還有對(duì)同一個(gè)體反復(fù)地測(cè)量得到的樣本數(shù)據(jù),更常見的是隨著時(shí)間記錄獲取的樣本數(shù)據(jù),集群內(nèi)部個(gè)體的壽命通常也是相關(guān)的(見KangKoehler(1997),Cai et al(2000))。由此可見,在相依假設(shè)下,研究左截?cái)嗄P偷慕y(tǒng)計(jì)推斷問題有著十分深刻的理論和實(shí)際意義。本論文的第三章在左截?cái)鄶?shù)據(jù)下,利用雙核局部線性估計(jì)方法構(gòu)造了條件分布函數(shù),條件分位數(shù)的WKDLL估計(jì)量,并且在觀察樣本為α混合序列的情況下,利用混合序列的相關(guān)概率不等式和Bernstein分塊方法,建立上述估計(jì)量的漸近正態(tài)性質(zhì),得到Fh1,h2(y|x),ξp,n(x)的如下結(jié)果此外,有限樣本下的數(shù)值模擬結(jié)果顯示,我們的估計(jì)比一般的核估計(jì)更好,從而也證實(shí)了我們方法的有效性。第三章的內(nèi)容已投稿到《數(shù)學(xué)學(xué)報(bào)》(中文版),目前在審稿中。分位數(shù)回歸方法最初由KoenkerBassett(1978)提出,之后在計(jì)量經(jīng)濟(jì)學(xué)、社會(huì)科學(xué)以及生物醫(yī)藥等各個(gè)領(lǐng)域中都有廣泛的應(yīng)用。Koenker(2005)的專著對(duì)QR方法進(jìn)行了詳細(xì)的討論。QR方法的不足之處是估計(jì)的效率有時(shí)會(huì)很低,于是ZouYuan(2008)在線性模型的背景下,提出了綜合不同點(diǎn)處的分位數(shù)的復(fù)合分位數(shù)回歸(CQR)方法,來估計(jì)線性模型的系數(shù)。CQR方法一方面繼承了QR方法的穩(wěn)健性,另一方面顯著的改進(jìn)了QR估計(jì)的效率,是一種有效且穩(wěn)健的參數(shù)估計(jì)方法。近年來,國(guó)內(nèi)外關(guān)于QR和CQR方法的研究非常熱門。但是,就我們所知,很少有文獻(xiàn)研究左截?cái)鄶?shù)據(jù)下的復(fù)合分位數(shù)問題。受ZouYuan(2008)文章的啟發(fā),本文的第四章在左截?cái)鄶?shù)據(jù)下,構(gòu)造了線性回歸模型的回歸系數(shù)的復(fù)合分位數(shù)估計(jì)量,然后我們利用適應(yīng)性Lasso懲罰方法,來建立穩(wěn)健的模型,從而得到適應(yīng)性Lasso懲罰復(fù)合分位數(shù)回歸估計(jì)量的Oracle性質(zhì)。在左截?cái)鄶?shù)據(jù)下,我們考慮下面的線性回歸模型:其中X是一個(gè)p ×1的協(xié)變量隨機(jī)向量,β是p ×1的未知參數(shù)的向量,ε是一個(gè)隨機(jī)誤差項(xiàng),它與協(xié)變量X是相互獨(dú)立。則回歸系數(shù)β的復(fù)合分位數(shù)估計(jì)量βCQR是下列優(yōu)化問題的解基于參數(shù)的復(fù)合分位數(shù)回歸估計(jì)βCQR,結(jié)合適應(yīng)性的lasso懲罰函數(shù)來進(jìn)行變量選擇和參數(shù)估計(jì),則適應(yīng)性的lasso懲罰復(fù)合分位數(shù)回歸估計(jì)可以記作βACQR,它是下列優(yōu)化問題的解在一定的條件下,我們建立了βCQR的漸近性質(zhì)并且建立了βACQR的收斂速度和Oracle性質(zhì)((?)-相合性)(?)(變量選擇相合性)(?)(漸近正態(tài)性)(?)最后,我們通過有限樣本下的數(shù)值模擬研究,展示了我們提出的方法的優(yōu)點(diǎn)。第四章的內(nèi)容已投稿到《Statistical Papers》,已經(jīng)小修,等待接受。由于左截?cái)鄶?shù)據(jù)及其他不完全數(shù)據(jù)下還有許多統(tǒng)計(jì)推斷問題等待我們進(jìn)一步探討和研究。本文的第五章對(duì)未來的工作做了如下的展望。一、左截?cái)嘞嘁罃?shù)據(jù)下線性回歸模型和半?yún)?shù)變系數(shù)部分線性模型的復(fù)合分位數(shù)回歸問題;二、左截?cái)嘤覄h失同時(shí)發(fā)生數(shù)據(jù)下條件分布函數(shù)和條件分位數(shù)的雙核局部線性估計(jì),以及分位數(shù)回歸問題。
【圖文】:
§3.4.2正態(tài)性驗(yàn)證逡逑在這一小節(jié)中,我們通過正態(tài)Q-Q圖來比較兩個(gè)估計(jì)量的漸近正態(tài)性效果。在逡逑圖3.3中,。绣澹藉澹埃,邋0邋?邋60%以及n邋=邋500,在:r邋=邋1和p邋=邋0.5下,分別畫出N-W估逡逑計(jì)量以及WDKLL估計(jì)量的正態(tài)Q-Q圖;在圖3.4中,取p邋=邋0.5和n邋=邋500,分別逡逑在6/邋30%和。90%下,畫出了邋6.5(1)的WDKLL估計(jì)量的正態(tài)Q-Q圖;圖3.5中,逡逑取P邋=邋0.5和0邋60%,分別在n邋=邋200和=邋800下,畫出了N希擔(dān)ǎ保┑模祝模耍蹋坦厘義霞屏康惱眩淹跡煌跡常常跡常抵械氖荻際腔冢灣澹藉澹擔(dān)埃暗鬧馗礎(chǔ)e義洗油跡常撤⑾鄭諳嗤南亂約埃邢攏祝模耍蹋坦蘭屏康慕ソ緣膩義閑Ч齲危墜蘭屏康慕ソ緣男Ч;从哇E常床荒芽闖觶保釹嗤保霸藉義洗,,WDKLL固m屏康慕ソ緣男Ч膠茫淮油跡常悼闖觶繃夏客,WDKLL估辶x霞屏康慕ソ孕Ч孀牛鈐醬,效果阅z謾e義希矗靛義
本文編號(hào):2583662
【圖文】:
§3.4.2正態(tài)性驗(yàn)證逡逑在這一小節(jié)中,我們通過正態(tài)Q-Q圖來比較兩個(gè)估計(jì)量的漸近正態(tài)性效果。在逡逑圖3.3中,。绣澹藉澹埃,邋0邋?邋60%以及n邋=邋500,在:r邋=邋1和p邋=邋0.5下,分別畫出N-W估逡逑計(jì)量以及WDKLL估計(jì)量的正態(tài)Q-Q圖;在圖3.4中,取p邋=邋0.5和n邋=邋500,分別逡逑在6/邋30%和。90%下,畫出了邋6.5(1)的WDKLL估計(jì)量的正態(tài)Q-Q圖;圖3.5中,逡逑取P邋=邋0.5和0邋60%,分別在n邋=邋200和=邋800下,畫出了N希擔(dān)ǎ保┑模祝模耍蹋坦厘義霞屏康惱眩淹跡煌跡常常跡常抵械氖荻際腔冢灣澹藉澹擔(dān)埃暗鬧馗礎(chǔ)e義洗油跡常撤⑾鄭諳嗤南亂約埃邢攏祝模耍蹋坦蘭屏康慕ソ緣膩義閑Ч齲危墜蘭屏康慕ソ緣男Ч;从哇E常床荒芽闖觶保釹嗤保霸藉義洗,,WDKLL固m屏康慕ソ緣男Ч膠茫淮油跡常悼闖觶繃夏客,WDKLL估辶x霞屏康慕ソ孕Ч孀牛鈐醬,效果阅z謾e義希矗靛義
本文編號(hào):2583662
本文鏈接:http://www.sikaile.net/shoufeilunwen/jckxbs/2583662.html
最近更新
教材專著