基于Hadoop的SQL查詢引擎性能研究
本文關(guān)鍵詞:基于Hadoop的SQL查詢引擎性能研究
更多相關(guān)文章: 大數(shù)據(jù) SQL-on-Hadoop 數(shù)據(jù)倉庫 Spark SQL Impala Hive
【摘要】:Apache Hadoop處理超大規(guī)模數(shù)據(jù)集有非常出色的表現(xiàn),相比較于傳統(tǒng)的數(shù)據(jù)倉庫和關(guān)系型數(shù)據(jù)庫有不少優(yōu)勢.為了讓原有業(yè)務(wù)能夠充分利用Hadoop的優(yōu)勢,SQL-on-Hadoop系統(tǒng)越來越受到工業(yè)界和學(xué)術(shù)界的關(guān)注.基于Hadoop的SQL查詢引擎種類繁多,各有優(yōu)勢,其運算引擎主要包括三種:1傳統(tǒng)的Map/Reduce引擎;2新興的Spark引擎;3基于shared-nothing架構(gòu)的MPP引擎.本文選取了其中最有代表性的三種SQL查詢引擎—Hive、Spark SQL、Impala,并使用了一種類TPC-H的測試基準(zhǔn)對它們的決策支持能力進(jìn)行測試及評估.從實驗結(jié)果來看,Impala和Spark SQL相對于傳統(tǒng)的Hive都有較大的提高,其中Impala的部分查詢比Hive快了10倍以上,并且Impala在完成查詢所占用的集群資源也是最少的.然而若從穩(wěn)定性、易用性、兼容性和性能等多個方面進(jìn)行對比,并不存在各方面均最優(yōu)的查詢引擎,因此在構(gòu)建基于Hadoop的數(shù)據(jù)倉庫系統(tǒng)時,推薦采用Hive+Impala或者Hive+Spark SQL的混合架構(gòu).
【作者單位】: 武漢大學(xué)計算機(jī)學(xué)院;英特爾英特爾亞太研發(fā)中心;
【關(guān)鍵詞】: 大數(shù)據(jù) SQL-on-Hadoop 數(shù)據(jù)倉庫 Spark SQL Impala Hive
【基金】:國家自然科學(xué)基金項目(61272112;61472287) 湖北省自然科學(xué)基金重點項目(2015CFA068)
【分類號】:TP311.13
【正文快照】: 隨著數(shù)據(jù)量的急劇增長,傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用已經(jīng)難以滿足聯(lián)機(jī)分析處理(On-line AnalyticalProcessing,OLAP)對數(shù)據(jù)倉庫提出的新需求,特別是大數(shù)據(jù)4V特性中,大規(guī)模(Volume)、高復(fù)雜度(Variety)兩座大山讓擴(kuò)展性不足的傳統(tǒng)數(shù)據(jù)倉庫不堪重負(fù),尋求新型的高可擴(kuò)展性數(shù)據(jù)倉庫成為了當(dāng)
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 鄭瑋;;Hadoop釋放大數(shù)據(jù)潛能[J];軟件和信息服務(wù);2012年10期
2 劉爾凱;崔振東;;基于HADOOP技術(shù) 實現(xiàn)銀行歷史數(shù)據(jù)線上化研究[J];金融電子化;2014年01期
3 鄒群;;一種基于Hadoop的數(shù)字圖書存儲系統(tǒng)設(shè)計方案[J];黑龍江史志;2014年01期
4 諶章義;畢偉;向萬紅;王國安;吳愛國;;基于Hadoop的海量電費數(shù)據(jù)處理模型[J];計算機(jī)系統(tǒng)應(yīng)用;2014年05期
5 ;大數(shù)據(jù)不等于Hadoop[J];辦公自動化;2014年06期
6 ;保障Hadoop數(shù)據(jù)安全的十大措施[J];計算機(jī)與網(wǎng)絡(luò);2013年08期
7 蘇小會;何婧媛;;Hadoop中任務(wù)調(diào)度算法的改進(jìn)[J];電子設(shè)計工程;2012年22期
8 黃德才;陳歡;;Hadoop平臺下海量數(shù)據(jù)排行榜過濾算法[J];計算機(jī)系統(tǒng)應(yīng)用;2012年03期
9 周航;申秋慧;王迤冉;;基于Hadoop平臺的任務(wù)調(diào)度方案分析[J];周口師范學(xué)院學(xué)報;2013年02期
10 陳吉榮;樂嘉錦;;基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J];計算機(jī)工程與科學(xué);2013年10期
中國重要報紙全文數(shù)據(jù)庫 前3條
1 本報記者 郭濤;機(jī)器大數(shù)據(jù)也離不開Hadoop[N];中國計算機(jī)報;2013年
2 樂天 編譯;Hadoop:打開大數(shù)據(jù)之門的金鑰匙[N];計算機(jī)世界;2012年
3 范范 編譯;Hadoop用戶可以使用多種搜索引擎[N];網(wǎng)絡(luò)世界;2013年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 白亮;基于Hadoop的民航高價值旅客發(fā)現(xiàn)方法研究[D];中國民航大學(xué);2015年
2 張麗云;基于Hadoop的企業(yè)知識管理系統(tǒng)的主要功能的研究與實現(xiàn)[D];東北師范大學(xué);2014年
3 夏志剛;基于Hadoop的數(shù)字大棚云系統(tǒng)的設(shè)計和實現(xiàn)[D];大連理工大學(xué);2014年
4 張興平;基于Hadoop的微博用戶情感分類研究與實現(xiàn)[D];西安電子科技大學(xué);2014年
5 楊寧;基于Hadoop平臺的廣告檢測系統(tǒng)研究與實現(xiàn)[D];復(fù)旦大學(xué);2012年
6 丁青松;基于Hadoop平臺的大數(shù)據(jù)增量處理技術(shù)的研究[D];東北大學(xué);2014年
7 湯艷;基于Hadoop架構(gòu)的移動終端云資源訪問模式研究與應(yīng)用[D];北京工業(yè)大學(xué);2013年
8 丁鴻凱;基于Hadoop的交通視頻異常事件檢測系統(tǒng)的設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2015年
9 陸藝達(dá);基于Hadoop分布式計算框架的垃圾短信群發(fā)檢測系統(tǒng)[D];復(fù)旦大學(xué);2013年
10 李金朋;基于Hadoop平臺的重疊社區(qū)發(fā)現(xiàn)算法研究[D];吉林大學(xué);2014年
,本文編號:683108
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/683108.html