天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計算機論文 >

基于Hadoop的數(shù)理統(tǒng)計功能集的研究與實現(xiàn)

發(fā)布時間:2019-05-30 13:09
【摘要】:當(dāng)前,許多企業(yè)盡可能詳細地收集數(shù)據(jù),使用的數(shù)據(jù)倉庫的大小從TB級到PB級,企業(yè)能否對這些海量數(shù)據(jù)進行分析是市場競爭力的關(guān)鍵所在。數(shù)理統(tǒng)計分析是一種運用數(shù)理統(tǒng)計學(xué)的知識來分析數(shù)據(jù)的經(jīng)典方法,借助于數(shù)理統(tǒng)計分析,用戶可以直觀地了解被分析數(shù)據(jù)的數(shù)量特征,這些特征包括:集中趨勢、離散趨勢和分布趨勢。此外,使用數(shù)理統(tǒng)計方法分析樣本數(shù)據(jù)(sample)能夠?qū)?shù)據(jù)總體(population)進行推斷。 傳統(tǒng)單機版本的數(shù)理統(tǒng)計算法由于受到機器內(nèi)存的限制,處理的數(shù)據(jù)規(guī)模有限。為了擴大處理數(shù)據(jù)的規(guī)模,本文基于Hadoop設(shè)計并實現(xiàn)了一套并行的數(shù)理統(tǒng)計功能集,該功能集是“基于云平臺的數(shù)據(jù)挖掘工具’'(BC-PDM)的一個重要模塊,基于云平臺以SaaS (software-as-a-service)的方式為用戶提供數(shù)理統(tǒng)計分析服務(wù)。 論文的主要工作包括: 首先,作者調(diào)研了當(dāng)前流行的數(shù)理統(tǒng)計軟件(SAS、IBM SPSS等),根據(jù)調(diào)研結(jié)果,將本數(shù)理統(tǒng)計功能集分為描述統(tǒng)計功能和推斷統(tǒng)計功能兩個子集。描述統(tǒng)計功能集包含一個分析數(shù)據(jù)數(shù)量特征的功能。推斷統(tǒng)計功能集功能較多,包括:單因素方差分析、一元線性回歸、單個正態(tài)總體均值的檢驗、兩個正態(tài)總體均值差的檢驗、基于成對數(shù)據(jù)的檢驗、單變量分析和多變量分析。 然后,作者研究了各擬實現(xiàn)功能的原理并給出單機算法的設(shè)計與實現(xiàn),在此基礎(chǔ)上,進一步給出了基于MapReduce匡架的并行算法的設(shè)計與實現(xiàn)。 最后,作者通過大量實驗檢驗了各并行算法的功能和性能。實驗結(jié)果表明:各并行算法功能正確,處理小規(guī)模數(shù)據(jù)時,相對于單機算法并行算法性能并不占優(yōu),但隨著數(shù)據(jù)規(guī)模的擴大,并行算法的性能優(yōu)勢就越來越明顯,證明了論文設(shè)計實現(xiàn)的并行算法是合理、高效的。
[Abstract]:......
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2013
【分類號】:TP338.6

【參考文獻】

相關(guān)期刊論文 前4條

1 陸冬梅;;數(shù)理統(tǒng)計在客觀現(xiàn)實中的意義與作用分析[J];赤峰學(xué)院學(xué)報(科學(xué)教育版);2011年08期

2 許春玲;張廣泉;;分布式文件系統(tǒng)Hadoop HDFS與傳統(tǒng)文件系統(tǒng)Linux FS的比較與分析[J];蘇州大學(xué)學(xué)報(工科版);2010年04期

3 羅軍舟;金嘉暉;宋愛波;東方;;云計算:體系架構(gòu)與關(guān)鍵技術(shù)[J];通信學(xué)報;2011年07期

4 盧益陽;;NoSQL數(shù)據(jù)管理系統(tǒng)綜述[J];企業(yè)科技與發(fā)展;2011年17期

,

本文編號:2488871

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2488871.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d4ef1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com