基于Hadoop的SQL查詢引擎性能研究

發(fā)布時間：2017-08-16 11:40

本文關(guān)鍵詞：基于Hadoop的SQL查詢引擎性能研究

【摘要】：Apache Hadoop處理超大規(guī)模數(shù)據(jù)集有非常出色的表現(xiàn),相比較于傳統(tǒng)的數(shù)據(jù)倉庫和關(guān)系型數(shù)據(jù)庫有不少優(yōu)勢.為了讓原有業(yè)務(wù)能夠充分利用Hadoop的優(yōu)勢,SQL-on-Hadoop系統(tǒng)越來越受到工業(yè)界和學(xué)術(shù)界的關(guān)注.基于Hadoop的SQL查詢引擎種類繁多,各有優(yōu)勢,其運算引擎主要包括三種:1傳統(tǒng)的Map/Reduce引擎;2新興的Spark引擎;3基于shared-nothing架構(gòu)的MPP引擎.本文選取了其中最有代表性的三種SQL查詢引擎—Hive、Spark SQL、Impala,并使用了一種類TPC-H的測試基準(zhǔn)對它們的決策支持能力進(jìn)行測試及評估.從實驗結(jié)果來看,Impala和Spark SQL相對于傳統(tǒng)的Hive都有較大的提高,其中Impala的部分查詢比Hive快了10倍以上,并且Impala在完成查詢所占用的集群資源也是最少的.然而若從穩(wěn)定性、易用性、兼容性和性能等多個方面進(jìn)行對比,并不存在各方面均最優(yōu)的查詢引擎,因此在構(gòu)建基于Hadoop的數(shù)據(jù)倉庫系統(tǒng)時,推薦采用Hive+Impala或者Hive+Spark SQL的混合架構(gòu).
【作者單位】：武漢大學(xué)計算機(jī)學(xué)院;英特爾英特爾亞太研發(fā)中心;
【關(guān)鍵詞】： 大數(shù)據(jù) SQL-on-Hadoop 數(shù)據(jù)倉庫 Spark SQL Impala Hive
【基金】：國家自然科學(xué)基金項目(61272112;61472287) 湖北省自然科學(xué)基金重點項目(2015CFA068)
【分類號】：TP311.13
【正文快照】： 隨著數(shù)據(jù)量的急劇增長,傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用已經(jīng)難以滿足聯(lián)機(jī)分析處理(On-line AnalyticalProcessing,OLAP)對數(shù)據(jù)倉庫提出的新需求,特別是大數(shù)據(jù)4V特性中,大規(guī)模(Volume)、高復(fù)雜度(Variety)兩座大山讓擴(kuò)展性不足的傳統(tǒng)數(shù)據(jù)倉庫不堪重負(fù),尋求新型的高可擴(kuò)展性數(shù)據(jù)倉庫成為了當(dāng)

【相似文獻(xiàn)】

中國期刊全文數(shù)據(jù)庫前10條

1 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期

2 劉爾凱;崔振東;;基于HADOOP技術(shù) 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期

3 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設(shè)計方案[J];黑龍江史志;2014年01期

4 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費數(shù)據(jù)處理模型[J];計算機(jī)系統(tǒng)應(yīng)用;2014年05期

5 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期

6 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機(jī)與網(wǎng)絡(luò);2013年08期

7 蘇小會;何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計工程;2012年22期

8 黃德才;陳歡;;Hadoop平臺下海量數(shù)據(jù)排行榜過濾算法[J];計算機(jī)系統(tǒng)應(yīng)用;2012年03期

9 周航;申秋慧;王迤冉;;基于Hadoop平臺的任務(wù)調(diào)度方案分析[J];周口師范學(xué)院學(xué)報;2013年02期

10 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計算機(jī)工程與科學(xué);2013年10期

中國重要報紙全文數(shù)據(jù)庫前3條

1 本報記者郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國計算機(jī)報;2013年

2 樂天　編譯;Hadoop：打開大數(shù)據(jù)之門的金鑰匙[N];計算機(jī)世界;2012年

3 范范　編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年

中國碩士學(xué)位論文全文數(shù)據(jù)庫前10條

1 白亮;基于Hadoop的民航高價值旅客發(fā)現(xiàn)方法研究[D];中國民航大學(xué);2015年

2 張麗云;基于Hadoop的企業(yè)知識管理系統(tǒng)的主要功能的研究與實現(xiàn)[D];東北師范大學(xué);2014年

3 夏志剛;基于Hadoop的數(shù)字大棚云系統(tǒng)的設(shè)計和實現(xiàn)[D];大連理工大學(xué);2014年

4 張興平;基于Hadoop的微博用戶情感分類研究與實現(xiàn)[D];西安電子科技大學(xué);2014年

5 楊寧;基于Hadoop平臺的廣告檢測系統(tǒng)研究與實現(xiàn)[D];復(fù)旦大學(xué);2012年

6 丁青松;基于Hadoop平臺的大數(shù)據(jù)增量處理技術(shù)的研究[D];東北大學(xué);2014年

7 湯艷;基于Hadoop架構(gòu)的移動終端云資源訪問模式研究與應(yīng)用[D];北京工業(yè)大學(xué);2013年

8 丁鴻凱;基于Hadoop的交通視頻異常事件檢測系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2015年

9 陸藝達(dá);基于Hadoop分布式計算框架的垃圾短信群發(fā)檢測系統(tǒng)[D];復(fù)旦大學(xué);2013年

10 李金朋;基于Hadoop平臺的重疊社區(qū)發(fā)現(xiàn)算法研究[D];吉林大學(xué);2014年

，

本文編號：683108

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/683108.html

上一篇：基于稠密光流軌跡和稀疏編碼算法的行為識別方法
下一篇：方向字典子圖的初始鄰域嵌入重構(gòu)

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的SQL查詢引擎性能研究