調(diào)查數(shù)據(jù)缺失值常用插補(bǔ)方法比較的實(shí)證分析
本文關(guān)鍵詞:調(diào)查數(shù)據(jù)缺失值常用插補(bǔ)方法比較的實(shí)證分析
更多相關(guān)文章: 調(diào)查數(shù)據(jù) 缺失率 變量缺失 CART模型 插補(bǔ)效果比較
【摘要】:由于調(diào)查受到各種已知或者未知因素的影響,往往會出現(xiàn)調(diào)查數(shù)據(jù)的缺失。在統(tǒng)計(jì)中,調(diào)查數(shù)據(jù)的缺失值問題是目前普遍存在而且難處理的問題。近年來,隨著大數(shù)據(jù)時(shí)代的到來,這一問題越來越受到國內(nèi)外學(xué)者的關(guān)注。數(shù)據(jù)缺失,尤其是高缺失率很容易引起數(shù)據(jù)本身的可用性的缺失,,增加了數(shù)據(jù)分析的難度,使得統(tǒng)計(jì)分析出現(xiàn)很大的偏差,從而會降低研究者工作效率。對于含有缺失值的調(diào)查數(shù)據(jù),事前預(yù)防是最有效的方法,即在調(diào)查過程中把無回答率降到最低,提高被調(diào)查者的回答率。但是由于各種因素的影響,現(xiàn)實(shí)中的無回答總是無法避免的,所以,對于調(diào)查數(shù)據(jù)無回答的事后處理顯得尤為重要。 調(diào)查中出現(xiàn)的問題不同,得到的含有缺失值的調(diào)查數(shù)據(jù)的特點(diǎn)也就不一樣,所以采取的處理這些缺失值的方法也是不相同的。本文選取統(tǒng)計(jì)學(xué)上常用的缺失值插補(bǔ)方法,包括EM算法插補(bǔ)、多重插補(bǔ)法、回歸插補(bǔ)法、均值插補(bǔ)法這四種插補(bǔ)方法,分別通過構(gòu)建統(tǒng)計(jì)學(xué)模型來進(jìn)一步探索這四種插補(bǔ)方法的插補(bǔ)效果。含有缺失值的數(shù)據(jù)集是利用SPSS隨機(jī)生成。所研究的條件分別為:變量缺失的模式,即單一變量缺失和多變量缺失;不同的缺失率分別為10%、20%、30%、40%、50%;不同缺失率下的輔助變量的個(gè)數(shù)不同,分別為4個(gè)、7個(gè)及10個(gè)輔助變量的模擬比較分析。 全文首先介紹了選題背景和研究意義,以及國內(nèi)外對缺失值處理方法的文獻(xiàn)綜述和國內(nèi)外文獻(xiàn)評述。第2章介紹了缺失數(shù)據(jù)問題相關(guān)的理論,包括缺失數(shù)據(jù)產(chǎn)生的原因以及缺失值的缺失機(jī)制和模式。第3章詳細(xì)總結(jié)了統(tǒng)計(jì)上常用的缺失數(shù)據(jù)插補(bǔ)方法。第4章利用缺失值插補(bǔ)常用方法對調(diào)查數(shù)據(jù)進(jìn)行實(shí)證分析。利用均值插補(bǔ)、回歸插補(bǔ)、EM算法、多重插補(bǔ)這四種插補(bǔ)方法,分別在單一變量缺失和多變量缺失的情況下,結(jié)合數(shù)據(jù)挖掘技術(shù)分析這些方法在不同的數(shù)據(jù)缺失率(10%、20%、30%、40%、50%)的插補(bǔ)效果分析。第5章是對全文的總結(jié)及展望。
【關(guān)鍵詞】:調(diào)查數(shù)據(jù) 缺失率 變量缺失 CART模型 插補(bǔ)效果比較
【學(xué)位授予單位】:河北經(jīng)貿(mào)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:C81
【目錄】:
- 摘要4-5
- Abstract5-8
- 1 緒論8-14
- 1.1 選題背景和研究意義8-9
- 1.2 文獻(xiàn)綜述9-13
- 1.3 文章創(chuàng)新點(diǎn)13-14
- 2 調(diào)查中缺失數(shù)據(jù)的介紹14-22
- 2.1 缺失數(shù)據(jù)產(chǎn)生的原因14-15
- 2.2 缺失數(shù)據(jù)的缺失機(jī)制和缺失模式15-21
- 2.3 本章小結(jié)21-22
- 3 缺失值處理方法22-29
- 3.1 基于插補(bǔ)技術(shù)的處理方法22-23
- 3.2 統(tǒng)計(jì)常用的插補(bǔ)方法23-29
- 4 調(diào)查中缺失數(shù)據(jù)不同插補(bǔ)方法的實(shí)證分析29-66
- 4.1 單一變量缺失值插補(bǔ)29-54
- 4.1.1 利用 4 個(gè)輔助變量的各個(gè)插補(bǔ)方法的比較30-39
- 4.1.2 利用 7 個(gè)輔助變量的各個(gè)插補(bǔ)方法的比較39-47
- 4.1.3 利用 10 個(gè)輔助變量的各個(gè)插補(bǔ)方法的比較47-54
- 4.2 多變量缺失值插補(bǔ)54-64
- 4.3 本章小結(jié)64-66
- 5 全文總結(jié)與展望66-67
- 參考文獻(xiàn)67-70
- 后記70-71
- 攻讀碩士學(xué)位期間科研成果71
【參考文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 游曉鋒;丁樹良;劉紅云;;缺失數(shù)據(jù)的估計(jì)方法及應(yīng)用[J];江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版);2011年03期
2 花琳琳;施念;楊永利;趙天儀;施學(xué)忠;;不同缺失值處理方法對隨機(jī)缺失數(shù)據(jù)處理效果的比較[J];鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版);2012年03期
3 楊基棟;;缺失數(shù)據(jù)的插補(bǔ)方法及其統(tǒng)計(jì)分析[J];華北水利水電學(xué)院學(xué)報(bào);2010年02期
4 金勇進(jìn),朱琳;不同差補(bǔ)方法的比較[J];數(shù)理統(tǒng)計(jì)與管理;2000年04期
5 金勇進(jìn);缺失數(shù)據(jù)的插補(bǔ)調(diào)整[J];數(shù)理統(tǒng)計(jì)與管理;2001年06期
6 楊軍;趙宇;丁文興;;抽樣調(diào)查中缺失數(shù)據(jù)的插補(bǔ)方法[J];數(shù)理統(tǒng)計(jì)與管理;2008年05期
7 潘淑清;抽樣調(diào)查中無回答的統(tǒng)計(jì)影響及控制誤區(qū)[J];統(tǒng)計(jì)與決策;2002年10期
8 龐新生;多重插補(bǔ)處理缺失數(shù)據(jù)方法的理論基礎(chǔ)探析[J];統(tǒng)計(jì)與決策;2005年04期
9 龐新生;;缺失數(shù)據(jù)處理方法的比較[J];統(tǒng)計(jì)與決策;2010年24期
10 龐新生;;缺失數(shù)據(jù)多重插補(bǔ)處理方法的算法實(shí)現(xiàn)[J];統(tǒng)計(jì)與決策;2012年11期
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 楊利華;缺失數(shù)據(jù)的處理方法研究及應(yīng)用[D];景德鎮(zhèn)陶瓷學(xué)院;2011年
2 茅群霞;缺失值處理統(tǒng)計(jì)方法的模擬比較研究及應(yīng)用[D];四川大學(xué);2005年
3 梁霞;缺失數(shù)據(jù)的多重插補(bǔ)及其改進(jìn)[D];中南大學(xué);2007年
4 張香云;缺失數(shù)據(jù)的借補(bǔ)方法及在林分生長模型中的應(yīng)用研究[D];蘇州大學(xué);2006年
5 袁中萸;多元線性回歸模型中缺失數(shù)據(jù)填補(bǔ)方法的效果比較[D];中南大學(xué);2008年
6 石麗;多重插補(bǔ)在成分?jǐn)?shù)據(jù)缺失值補(bǔ)全中的應(yīng)用[D];山西大學(xué);2012年
本文編號:1121949
本文鏈接:http://www.sikaile.net/shekelunwen/shgj/1121949.html