回歸模型中的非局部相似性研究
發(fā)布時間:2021-07-14 23:39
線性模型是用來描述多個變量之間線性關(guān)系的模型,在成分研究中應(yīng)用得十分廣泛.模型選擇理論可以用于確定真實線性模型中的變量.目前,常用的模型選擇方法,如逐步回歸,AIC信息準則,以及貝葉斯方法等,都是假設(shè)數(shù)據(jù)集的特征是局部的,即僅僅利用單個變量值來構(gòu)建模型.然而,在許多實際問題中,單個變量的變異性以及變量之間較大的相似性普遍存在,導致這些方法存在決策精度低,小系數(shù)變量和相似偽變量無法識別,甚至無法解決變量的決策.主要的原因是這些方法都是基于擬合優(yōu)度,沒有充分地挖掘數(shù)據(jù)的特征,受到變異性和相似性的嚴重干擾,從而使得在模型中確定合適的閾值達以到理想的目標函數(shù)變得非常困難,甚至不可能.為了解決這一問題,在向前逐步回歸模型的基礎(chǔ)上,本文提出回歸自變量和殘差的非局部特征相似性分析模型.向前逐步回歸模型的一個重要原則是追求最優(yōu)的擬合優(yōu)度缺失(Lack of Fitness),簡稱為LOF原則.基于該原則,本文提出窗口調(diào)整的擬合優(yōu)度缺失原則(Window-Adjusted Lack of Fitness),簡稱為WALOF原則.在考慮回歸擬合優(yōu)度缺失的同時,還考慮了回歸殘差在變量特征片段上的擬合優(yōu)度缺失...
【文章來源】:蘭州大學甘肅省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【部分圖文】:
LOF方法流程圖
收到強度變異性的干擾比較大,所以利用特征的相似性去判斷成分的真實性就變得非常重要.圖(3-2)給出了錯誤擬合曲線和正確擬合曲線的比較,以及錯誤識別的第五種鎮(zhèn)靜劑頻譜.可以看到,復合物的絕大多數(shù)特征都被擬合出來了.然而,在第一個圖中,可以看到大約波長1240處,藍色曲線出現(xiàn)了一個明顯的突起,這一特征在復合物曲線上是不存在的.在第二個圖中,可以看到第五種鎮(zhèn)靜劑Lorazepam在該區(qū)域也存在一個明顯突起.盡管該鎮(zhèn)靜劑導致了最優(yōu)的相對誤差平方和,但是很大可能不是真實的成分.因為其在這個區(qū)域帶來了在復合物上不存在的特征.圖3-2錯誤擬合曲線和正確擬合曲線的比較同樣的分析,一個真實成分必定能夠擬合復合物中的某些特征,因此在其獨特特征的區(qū)域,該成分與擬合前的誤差應(yīng)該存在相似度較高的性質(zhì).回歸系數(shù)小的變量,即使出現(xiàn)在復合物中,往往在LOF提升的貢獻不大.圖(3-3)給出了某復合物在最后一個出現(xiàn)的鎮(zhèn)靜劑的識別.該復合物包含五種鎮(zhèn)靜劑Estazolam,Oxazepam,Alprazolam,Triazolam和Lorazepam.除了第二種Oxazepam,其它均已正確識別.此鎮(zhèn)靜劑的擬合系數(shù)為0.1185,其它四種鎮(zhèn)靜劑回歸系數(shù)分別為(0.5142,0.3621,0.6940,0.4132),可見此鎮(zhèn)靜劑在復合物中的濃度較低.由它計算出來的LOF提升,最大LOF提升和平均LOF提升分別為(0.0799,0.2650,0.0786),均比較小,由優(yōu)度擬合原則,很容易因為對LOF的提升不夠拒絕該鎮(zhèn)靜劑的出現(xiàn).然而,考察其頻譜和回歸前殘差,很明顯在許多特征區(qū)域中存在相似,有四個特征區(qū)域的相關(guān)系數(shù)大于0.7,最大為0.8535.因此,該鎮(zhèn)靜劑很可能出現(xiàn)在復合物中.綜合以上分析,分析殘差和成分在特征區(qū)域的相似性是非常必要的.在成分變量存在大量相似特征的時候,以及變量存在變異性時,僅僅依靠擬合優(yōu)度,很難13
蘭州大學碩士學位論文回歸模型中的非局部相似性研究圖3-3較小回歸系數(shù)變量的檢測原理示意圖給出一個合理的目標來識別變量是否出現(xiàn)在真實模型中.而相似性分析能夠提取殘差中的特征,并且和待測變量進行比較,通過統(tǒng)計學習來判斷其是否出現(xiàn),這種原理極大地提高了復合物中出現(xiàn)變量的識別精度.在實驗結(jié)果部分可以看到其優(yōu)秀的表現(xiàn).3.2.2窗口的確定WALOF方法的首要的任務(wù)是特征分離,這些特征在頻譜上往往有峰值和峰的形狀等因素來決定,這需要我們將各個成分光譜分成一個一個小的窗口,每個窗口都包含一個峰值,這里我們給出定義窗口的算法:1.識別波峰:對于每一條成分光譜,首先要將它的波峰都識別出來,這里我們認為波譜上某一點比它左側(cè)N個點高并且比它右邊N個點也高時,這個點就是波峰.我們需要找出每條光譜上符合這個條件的點,將它的位置記錄下來,即P={p|Sp=max{SpN,SpN+1,...,Sp,Sp+1,Sp+2,...,Sp+N}},集合P表示的是波峰位置的集合,Si,i=pN,pN+1,...,p,p+1,...,p+N表示的是每條成分光譜上的點.2.識別波谷:波谷的識別比較簡單,對于步驟一中尋找出來的波峰,每兩個相鄰波峰之間的最低點就是波谷,同樣把波谷的位置記錄下來,即B={b|Sb=min{SPi,SPi+1,SPi+2...,SPi+1}},集合B表示的是波谷的位置的集合.3.初始窗口:兩個相鄰的波谷及它們中間的點形成一個窗口,窗口的左,右端點都是波谷,分別記為B1...B2,B1...B2之間只包含一個波峰記為P,則窗口就被定義為WB1PB2,每個窗口只包含一個波峰,注意:對于每條成分光譜第一個窗口,它的左端點為整個成分光譜最左端的點與第一個峰值點之間的最低點,即SB11=min{S1,S2,...,SP1},而對于每條成分光譜的最后一個窗口,它的右端點為最后一個波峰到整條光譜的最后一個點之間的最低點,即14
本文編號:3285125
【文章來源】:蘭州大學甘肅省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【部分圖文】:
LOF方法流程圖
收到強度變異性的干擾比較大,所以利用特征的相似性去判斷成分的真實性就變得非常重要.圖(3-2)給出了錯誤擬合曲線和正確擬合曲線的比較,以及錯誤識別的第五種鎮(zhèn)靜劑頻譜.可以看到,復合物的絕大多數(shù)特征都被擬合出來了.然而,在第一個圖中,可以看到大約波長1240處,藍色曲線出現(xiàn)了一個明顯的突起,這一特征在復合物曲線上是不存在的.在第二個圖中,可以看到第五種鎮(zhèn)靜劑Lorazepam在該區(qū)域也存在一個明顯突起.盡管該鎮(zhèn)靜劑導致了最優(yōu)的相對誤差平方和,但是很大可能不是真實的成分.因為其在這個區(qū)域帶來了在復合物上不存在的特征.圖3-2錯誤擬合曲線和正確擬合曲線的比較同樣的分析,一個真實成分必定能夠擬合復合物中的某些特征,因此在其獨特特征的區(qū)域,該成分與擬合前的誤差應(yīng)該存在相似度較高的性質(zhì).回歸系數(shù)小的變量,即使出現(xiàn)在復合物中,往往在LOF提升的貢獻不大.圖(3-3)給出了某復合物在最后一個出現(xiàn)的鎮(zhèn)靜劑的識別.該復合物包含五種鎮(zhèn)靜劑Estazolam,Oxazepam,Alprazolam,Triazolam和Lorazepam.除了第二種Oxazepam,其它均已正確識別.此鎮(zhèn)靜劑的擬合系數(shù)為0.1185,其它四種鎮(zhèn)靜劑回歸系數(shù)分別為(0.5142,0.3621,0.6940,0.4132),可見此鎮(zhèn)靜劑在復合物中的濃度較低.由它計算出來的LOF提升,最大LOF提升和平均LOF提升分別為(0.0799,0.2650,0.0786),均比較小,由優(yōu)度擬合原則,很容易因為對LOF的提升不夠拒絕該鎮(zhèn)靜劑的出現(xiàn).然而,考察其頻譜和回歸前殘差,很明顯在許多特征區(qū)域中存在相似,有四個特征區(qū)域的相關(guān)系數(shù)大于0.7,最大為0.8535.因此,該鎮(zhèn)靜劑很可能出現(xiàn)在復合物中.綜合以上分析,分析殘差和成分在特征區(qū)域的相似性是非常必要的.在成分變量存在大量相似特征的時候,以及變量存在變異性時,僅僅依靠擬合優(yōu)度,很難13
蘭州大學碩士學位論文回歸模型中的非局部相似性研究圖3-3較小回歸系數(shù)變量的檢測原理示意圖給出一個合理的目標來識別變量是否出現(xiàn)在真實模型中.而相似性分析能夠提取殘差中的特征,并且和待測變量進行比較,通過統(tǒng)計學習來判斷其是否出現(xiàn),這種原理極大地提高了復合物中出現(xiàn)變量的識別精度.在實驗結(jié)果部分可以看到其優(yōu)秀的表現(xiàn).3.2.2窗口的確定WALOF方法的首要的任務(wù)是特征分離,這些特征在頻譜上往往有峰值和峰的形狀等因素來決定,這需要我們將各個成分光譜分成一個一個小的窗口,每個窗口都包含一個峰值,這里我們給出定義窗口的算法:1.識別波峰:對于每一條成分光譜,首先要將它的波峰都識別出來,這里我們認為波譜上某一點比它左側(cè)N個點高并且比它右邊N個點也高時,這個點就是波峰.我們需要找出每條光譜上符合這個條件的點,將它的位置記錄下來,即P={p|Sp=max{SpN,SpN+1,...,Sp,Sp+1,Sp+2,...,Sp+N}},集合P表示的是波峰位置的集合,Si,i=pN,pN+1,...,p,p+1,...,p+N表示的是每條成分光譜上的點.2.識別波谷:波谷的識別比較簡單,對于步驟一中尋找出來的波峰,每兩個相鄰波峰之間的最低點就是波谷,同樣把波谷的位置記錄下來,即B={b|Sb=min{SPi,SPi+1,SPi+2...,SPi+1}},集合B表示的是波谷的位置的集合.3.初始窗口:兩個相鄰的波谷及它們中間的點形成一個窗口,窗口的左,右端點都是波谷,分別記為B1...B2,B1...B2之間只包含一個波峰記為P,則窗口就被定義為WB1PB2,每個窗口只包含一個波峰,注意:對于每條成分光譜第一個窗口,它的左端點為整個成分光譜最左端的點與第一個峰值點之間的最低點,即SB11=min{S1,S2,...,SP1},而對于每條成分光譜的最后一個窗口,它的右端點為最后一個波峰到整條光譜的最后一個點之間的最低點,即14
本文編號:3285125
本文鏈接:http://www.sikaile.net/shoufeilunwen/benkebiyelunwen/3285125.html
最近更新
教材專著