線性約束高維模型的穩(wěn)健變量選擇和異分布條件下的分類方法
發(fā)布時間:2021-04-07 05:55
變量選擇和分類問題是統(tǒng)計分析和機器學習的熱點,二者廣泛應用于諸多科學研究和應用領域,諸如醫(yī)學診斷,基因組研究,金融風險和無線通信等.高維模型通常假設具有稀疏性,即只有少數(shù)預測變量對于響應變量有影響.變量選擇旨在選擇出重要的預測變量,并對相應的系數(shù)進行估計.分類方法是根據(jù)已知類別的歷史數(shù)據(jù)建立分類準則,用此對新的觀測值進行分類.盡管現(xiàn)如今存在許多變量選擇和分類的方法,但它們對于具有厚尾誤差,異常值和異分布的數(shù)據(jù)并不適用或者無效.此外,在實際應用中可能存在關于響應變量和預測變量之間關系的假設條件或者專業(yè)信息,可以利用這些先驗知識對回歸參數(shù)進行約束.本論文研究了兩類問題,一是針對厚尾分布數(shù)據(jù)的帶有參數(shù)線性約束的穩(wěn)健變量選擇;二是當一個類別中數(shù)據(jù)異分布時的分類問題.論文內容共分為五個章節(jié):第一章簡單介紹一些基礎知識,包括常用的變量選擇方法Lasso及其變型,自由度,分位數(shù)回歸,Huber回歸和經(jīng)典的分類方法.第二章和第三章討論帶有線性約束高維模型的穩(wěn)健變量選擇.其中,第二章介紹了線性約束的廣義l1-懲罰分位數(shù)回歸,第三章提出了線性約束的Huber正則化回歸.第四章研究了異分布數(shù)據(jù)的最小模糊度分...
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:102 頁
【學位級別】:博士
【部分圖文】:
圖2.1:?ASA汽車發(fā)動機輸出對燃油效率的函數(shù).左圖:帶約束的BP估計,TV?=?5.右??圖:無約束的BP估計,iV?=?5.??
用訓練數(shù)據(jù)估計參數(shù)/5,并通過最小化CV,AIC和BIC來選擇最優(yōu)的調和參數(shù).驗證集??用于選擇GOLD標準準則的調和參數(shù),即最小化預測誤差-??圖3.1,3.2和3.3的左側分別展示誤差服從正態(tài)分布,混合正態(tài)分布和t分布時,四??種不同模型選擇準則所選的最優(yōu)A的密度,其中,密度曲線通過核密度估計獲得.從圖??像可以看出,通過AIC,BIC準則選擇的A密度曲線的形狀和GOLD標準準則相似.相比??于CV,AIC和GOLD標準準則,BIC傾向于選擇更大的A.通過CV選擇的A的方差小??于AIC,?BIC和GOLD準則.??Norm?error?Norm?error??¥?-?I?by?AIC?°??fi?—?by?BIC?^?*?〇??w?—?byCV?0??J??????-?by?GOLD?o??5-?i??f?§?0??s?2?——?二??u>?;?!??d?-丄?????-乂?''?T"-?::一“?一-?? ̄I?I?I?I?I ̄?I?I?I?I??0?2?4?6?8?AIC?BIC?CV?GOLD??lambda??圖3.1:誤差服從正態(tài)分布時,左圖為由CV,?AIC,?BIC和GOLD準則選出的A密度曲線.??右圖為由CV,?AIC,?BIC和GOLD準則選擇的模型的MAD箱線圖.??我們從預測性質和變量選擇這兩個方面比較由不同模型選擇準則選出的A和相應??的估計值.對于每一個數(shù)據(jù)集,用訓練數(shù)據(jù)估計出參數(shù)久然后用測試數(shù)據(jù)丨#,=??1
圖3.2:誤差服從混合正態(tài)分布時,左圖為由CV,?AIC,?BIC和GOLD準則選出的A密度曲??線.右圖為由CV,?AIC,?BIC和GOLD準則選擇的模型的MAD箱線圖.??圖3.1,?3.2和3.3的右側分別展示了誤差服從正態(tài)分布,混合正態(tài)分布和t分布時,??由CV,AIC,BIC和GOLD準則選擇模型的MAD箱線圖.如圖所示,由AIC和BIC準??則選擇模型的MAD值與GOLD準則是可比的,并且都低于由CV準則選擇模型的MAD值.??這說明了利用我們所提出的自由度公式構造的AIC和BIC準則具有很好的預測效率.同??時,由GOLD準則選擇的模型具有最小的MAD值,因為它是標準的準則.??為了比較變量選擇的效果,我們在表格3.1中計算了?FPR?(False?Positive?Rate),?FN-??R?(False?Negative?Rate)和?SER?(Selection?Error?Rate)的平均值.其中,FPFl?是零系數(shù)估??計為非零的百分比,FNR是非零系數(shù)估計為零的百分比,SER是所有估計錯誤的系數(shù)個??數(shù)除以P.表格3.1顯示,CV,AIC,?BIC和GOLD準則能包含所有的重要變量,因為它們??的FNR近似為零.從表格中可以看出
本文編號:3122935
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:102 頁
【學位級別】:博士
【部分圖文】:
圖2.1:?ASA汽車發(fā)動機輸出對燃油效率的函數(shù).左圖:帶約束的BP估計,TV?=?5.右??圖:無約束的BP估計,iV?=?5.??
用訓練數(shù)據(jù)估計參數(shù)/5,并通過最小化CV,AIC和BIC來選擇最優(yōu)的調和參數(shù).驗證集??用于選擇GOLD標準準則的調和參數(shù),即最小化預測誤差-??圖3.1,3.2和3.3的左側分別展示誤差服從正態(tài)分布,混合正態(tài)分布和t分布時,四??種不同模型選擇準則所選的最優(yōu)A的密度,其中,密度曲線通過核密度估計獲得.從圖??像可以看出,通過AIC,BIC準則選擇的A密度曲線的形狀和GOLD標準準則相似.相比??于CV,AIC和GOLD標準準則,BIC傾向于選擇更大的A.通過CV選擇的A的方差小??于AIC,?BIC和GOLD準則.??Norm?error?Norm?error??¥?-?I?by?AIC?°??fi?—?by?BIC?^?*?〇??w?—?byCV?0??J??????-?by?GOLD?o??5-?i??f?§?0??s?2?——?二??u>?;?!??d?-丄?????-乂?''?T"-?::一“?一-?? ̄I?I?I?I?I ̄?I?I?I?I??0?2?4?6?8?AIC?BIC?CV?GOLD??lambda??圖3.1:誤差服從正態(tài)分布時,左圖為由CV,?AIC,?BIC和GOLD準則選出的A密度曲線.??右圖為由CV,?AIC,?BIC和GOLD準則選擇的模型的MAD箱線圖.??我們從預測性質和變量選擇這兩個方面比較由不同模型選擇準則選出的A和相應??的估計值.對于每一個數(shù)據(jù)集,用訓練數(shù)據(jù)估計出參數(shù)久然后用測試數(shù)據(jù)丨#,=??1
圖3.2:誤差服從混合正態(tài)分布時,左圖為由CV,?AIC,?BIC和GOLD準則選出的A密度曲??線.右圖為由CV,?AIC,?BIC和GOLD準則選擇的模型的MAD箱線圖.??圖3.1,?3.2和3.3的右側分別展示了誤差服從正態(tài)分布,混合正態(tài)分布和t分布時,??由CV,AIC,BIC和GOLD準則選擇模型的MAD箱線圖.如圖所示,由AIC和BIC準??則選擇模型的MAD值與GOLD準則是可比的,并且都低于由CV準則選擇模型的MAD值.??這說明了利用我們所提出的自由度公式構造的AIC和BIC準則具有很好的預測效率.同??時,由GOLD準則選擇的模型具有最小的MAD值,因為它是標準的準則.??為了比較變量選擇的效果,我們在表格3.1中計算了?FPR?(False?Positive?Rate),?FN-??R?(False?Negative?Rate)和?SER?(Selection?Error?Rate)的平均值.其中,FPFl?是零系數(shù)估??計為非零的百分比,FNR是非零系數(shù)估計為零的百分比,SER是所有估計錯誤的系數(shù)個??數(shù)除以P.表格3.1顯示,CV,AIC,?BIC和GOLD準則能包含所有的重要變量,因為它們??的FNR近似為零.從表格中可以看出
本文編號:3122935
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3122935.html
最近更新
教材專著