天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 數(shù)學(xué)論文 >

九種常用缺失值插補(bǔ)方法的比較

發(fā)布時(shí)間:2018-06-17 02:09

  本文選題:兩類缺失模式 + 隨機(jī)缺失數(shù)據(jù)集 ; 參考:《云南師范大學(xué)》2017年碩士論文


【摘要】:數(shù)據(jù)集中缺失值的存在是一個(gè)常見但難于處理的問題,它會(huì)增大統(tǒng)計(jì)分析的復(fù)雜性和難度,導(dǎo)致分析結(jié)果的偏倚,降低統(tǒng)計(jì)工作的效率。雖然事前預(yù)防是避免缺失值最簡(jiǎn)單有效的方法,但是由于種種常規(guī)原因和現(xiàn)實(shí)條件,事前預(yù)防并不能完善地解決問題。因此,對(duì)缺失值的事后處理顯得尤為重要,也越來越受到研究者們的高度重視。常見的缺失值的處理方法主要有直接刪除法和數(shù)據(jù)插補(bǔ)法兩種,鑒于直接刪除法會(huì)導(dǎo)致數(shù)據(jù)信息的再次損失,所以本文主要從數(shù)據(jù)插補(bǔ)方面入手,先對(duì)統(tǒng)計(jì)學(xué)中常用的九種缺失值的插補(bǔ)方法——均值插補(bǔ)、隨機(jī)插補(bǔ)、回歸插補(bǔ)、多重插補(bǔ)、k最近鄰插補(bǔ)、決策樹插補(bǔ)、支持向量機(jī)插補(bǔ)和神經(jīng)網(wǎng)絡(luò)插補(bǔ)等方法的插補(bǔ)原理作了介紹;接著按數(shù)據(jù)量從小到大的順序選取3個(gè)數(shù)據(jù)集salary、iris和Airfoil,以10%的樣本量缺失率,在R中按單個(gè)變量隨機(jī)缺失和多個(gè)變量隨機(jī)缺失兩種模式生成相應(yīng)的缺失數(shù)據(jù)集(這里隨機(jī)缺失的含義是將其中隨機(jī)抽取的10%的數(shù)據(jù)替換為缺失值),然后用上述九種插補(bǔ)方法對(duì)兩種缺失模式的數(shù)據(jù)集進(jìn)行插補(bǔ)。為評(píng)價(jià)和比較各種插補(bǔ)方法的插補(bǔ)效果,本文從兩方面進(jìn)行比較:(1)從數(shù)據(jù)插補(bǔ)誤差的角度,把單個(gè)變量缺失模式下的3個(gè)數(shù)據(jù)集的九種插補(bǔ)方法生成的諸插補(bǔ)值與對(duì)應(yīng)的數(shù)據(jù)真值(隨機(jī)缺失前)進(jìn)行比較,計(jì)算對(duì)應(yīng)的平均絕對(duì)誤差(MAE)和均方誤差(MSE),按這兩個(gè)指標(biāo)的大小評(píng)價(jià)比較這九種插補(bǔ)方法的優(yōu)劣。(2)從模型的角度,用缺失前的完整數(shù)據(jù)集和先缺失再插補(bǔ)后的諸數(shù)據(jù)集各自建立多元線性回歸模型,估計(jì)相應(yīng)的回歸系數(shù)(向量),計(jì)算出相應(yīng)的判定系數(shù),再進(jìn)行比較和評(píng)價(jià)。最后指出了各插補(bǔ)方法的特點(diǎn)和異同,對(duì)本文的研究結(jié)果進(jìn)行歸納總結(jié),并說明有待改進(jìn)之處和可以進(jìn)一步研究的內(nèi)容。
[Abstract]:The existence of missing values in data sets is a common but difficult problem, which will increase the complexity and difficulty of statistical analysis, lead to the bias of analysis results and reduce the efficiency of statistical work. Although pre-prevention is the simplest and most effective method to avoid missing value, due to various conventional reasons and practical conditions, pre-prevention can not solve the problem perfectly. Therefore, the post-processing of missing values is particularly important and has been paid more and more attention by researchers. There are two common methods to deal with missing values: direct deletion method and data interpolation method. In view of the fact that the direct deletion method will lead to the loss of data information again, so this paper mainly starts from the aspect of data interpolation. First, the interpolation methods of nine kinds of missing values commonly used in statistics are mean interpolation, random interpolation, regression interpolation, multi-interpolation nearest neighbor interpolation, decision tree interpolation, This paper introduces the interpolation principle of support vector machine interpolation and neural network interpolation, and then selects three data sets, Salarymiris and Airfoil, according to the order of data from small to large, and takes 10% sample loss rate. Generate the corresponding missing data set in R according to the two patterns of random deletion of single variable and random deletion of multiple variables (here the meaning of random deletion is to replace 10% of the randomly sampled data with the missing value), and then use the above. Nine interpolation methods are used to interpolate the data sets of two missing patterns. In order to evaluate and compare the interpolation effect of various interpolation methods, this paper compares the error of data interpolation from two aspects. The interpolation values generated by nine interpolation methods for three data sets in a single variable deletion mode are compared with the corresponding true values (before random deletion). Calculate the corresponding mean absolute error (mae) and mean square error (MSE), evaluate and compare the advantages and disadvantages of these nine interpolation methods according to the size of these two indexes) from the point of view of the model, The multivariate linear regression models are established by using the complete data sets before deletion and those before deletion and interpolation respectively. The corresponding regression coefficients (vectors) are estimated and the corresponding decision coefficients are calculated and compared and evaluated. Finally, the characteristics and similarities and differences of the interpolation methods are pointed out, the research results of this paper are summarized, and the points for improvement and the contents that can be further studied are explained.
【學(xué)位授予單位】:云南師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類號(hào)】:O212.1

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 周家斌;一種氣象資料插補(bǔ)方法[J];科學(xué)通報(bào);1987年15期

2 張時(shí)釗;;氣象哨溫度資料的插補(bǔ)[J];陜西氣象;1981年08期

3 曹宗智;利用電子計(jì)算機(jī)實(shí)現(xiàn)水文資料的自動(dòng)插補(bǔ)[J];干旱區(qū)地理;1987年04期

4 蔣勇敏,邱士安;無誤差插補(bǔ)方法初探[J];機(jī)械;2000年S1期

5 喬麗華;傅德印;;缺失數(shù)據(jù)的多重插補(bǔ)方法[J];統(tǒng)計(jì)教育;2006年12期

6 楊偉東;朱紅春;劉麗冰;;計(jì)算機(jī)數(shù)據(jù)課程中插補(bǔ)原理教學(xué)方法的探討[J];實(shí)驗(yàn)室科學(xué);2009年02期

7 屠其璞;一種氣溫場(chǎng)序列的延長(zhǎng)插補(bǔ)方法[J];南京氣象學(xué)院學(xué)報(bào);1986年01期

8 黃蓉;胡澤勇;關(guān)婷;孫根厚;楊耀先;劉火霖;;藏北高原氣溫資料插補(bǔ)及其變化的初步分析[J];高原氣象;2014年03期

9 龐新生;;分層隨機(jī)抽樣條件下缺失數(shù)據(jù)的多重插補(bǔ)方法[J];統(tǒng)計(jì)與信息論壇;2009年05期

10 楊軍;趙宇;丁文興;;抽樣調(diào)查中缺失數(shù)據(jù)的插補(bǔ)方法[J];數(shù)理統(tǒng)計(jì)與管理;2008年05期

相關(guān)會(huì)議論文 前5條

1 余予;李俊;任芝花;張志富;;標(biāo)準(zhǔn)序列法在日平均氣溫缺測(cè)數(shù)據(jù)插補(bǔ)中的應(yīng)用[A];第八屆全國優(yōu)秀青年氣象科技工作者學(xué)術(shù)研討會(huì)論文匯編[C];2014年

2 呂強(qiáng);;編寫數(shù)控車、銑床加工多邊形插補(bǔ)程序的方法[A];數(shù)控技術(shù)學(xué)術(shù)研討會(huì)論文集[C];1999年

3 安金剛;;離線插補(bǔ)技術(shù)在運(yùn)動(dòng)控制中的應(yīng)用[A];全國第十二屆空間及運(yùn)動(dòng)體控制技術(shù)學(xué)術(shù)會(huì)議論文集[C];2006年

4 鄭金興;張銘鈞;孟慶鑫;;變插補(bǔ)周期的數(shù)控進(jìn)給速度控制算法研究[A];先進(jìn)制造技術(shù)論壇暨第五屆制造業(yè)自動(dòng)化與信息化技術(shù)交流會(huì)論文集[C];2006年

5 谷永山;王銳;韋穗;;基于兩幅視圖的縱向插補(bǔ)方法[A];第十五屆全國圖象圖形學(xué)學(xué)術(shù)會(huì)議論文集[C];2010年

相關(guān)博士學(xué)位論文 前8條

1 王允森;基于樣條插補(bǔ)的高質(zhì)量加工關(guān)鍵技術(shù)的研究[D];中國科學(xué)院研究生院(沈陽計(jì)算技術(shù)研究所);2015年

2 金永喬;微小線段高速加工的軌跡優(yōu)化建模及前瞻插補(bǔ)技術(shù)研究[D];上海交通大學(xué);2015年

3 葉偉;數(shù)控系統(tǒng)納米插補(bǔ)及控制研究[D];北京交通大學(xué);2010年

4 梅鵬;中國群死群傷火災(zāi)數(shù)據(jù)插補(bǔ)及快速損失評(píng)估研究[D];中國科學(xué)技術(shù)大學(xué);2013年

5 孟書云;高精度開放式數(shù)控系統(tǒng)復(fù)雜曲線曲面插補(bǔ)關(guān)鍵技術(shù)研究[D];南京航空航天大學(xué);2006年

6 劉巍;ARGO稀損數(shù)據(jù)插補(bǔ)與三維海洋要素場(chǎng)重構(gòu)研究[D];西南交通大學(xué);2012年

7 周勇;高速進(jìn)給驅(qū)動(dòng)系統(tǒng)動(dòng)態(tài)特性分析及其運(yùn)動(dòng)控制研究[D];華中科技大學(xué);2008年

8 郝永江;復(fù)雜參數(shù)曲線曲面加工控制與狀態(tài)監(jiān)測(cè)技術(shù)研究[D];天津大學(xué);2011年

相關(guān)碩士學(xué)位論文 前10條

1 廖祥超;九種常用缺失值插補(bǔ)方法的比較[D];云南師范大學(xué);2017年

2 劉艷玲;調(diào)查數(shù)據(jù)無回答的插補(bǔ)方法及模擬比較[D];天津財(cái)經(jīng)大學(xué);2012年

3 余威;氣象相似性網(wǎng)絡(luò)構(gòu)建及缺失氣象要素?cái)?shù)據(jù)的插補(bǔ)[D];西南大學(xué);2015年

4 李玲雪;缺失偏態(tài)數(shù)據(jù)下異方差模型的統(tǒng)計(jì)推斷[D];昆明理工大學(xué);2015年

5 李永杰;基于PH曲線五軸數(shù)控插補(bǔ)策略的研究[D];遼寧科技大學(xué);2015年

6 趙偉;針對(duì)回歸模型的缺失數(shù)據(jù)插補(bǔ)方法模擬分析[D];天津財(cái)經(jīng)大學(xué);2014年

7 駱新珍;基于DA插補(bǔ)法的線性回歸模型系數(shù)估計(jì)量的模擬研究[D];天津財(cái)經(jīng)大學(xué);2014年

8 肖哲;基于STM32的嵌入式數(shù)控插補(bǔ)控制器的研究與實(shí)現(xiàn)[D];湖北工業(yè)大學(xué);2016年

9 李珍;不完全測(cè)量信息系統(tǒng)的辨識(shí)研究[D];安徽工程大學(xué);2016年

10 紀(jì)忠光;缺失數(shù)據(jù)的非參數(shù)插補(bǔ)[D];華中師范大學(xué);2016年



本文編號(hào):2029136

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/yysx/2029136.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01a2f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com