基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng)設(shè)計與實現(xiàn)
本文關(guān)鍵詞:基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng)設(shè)計與實現(xiàn)
更多相關(guān)文章: 大數(shù)據(jù)存儲 HBase 嵌套式存儲 Dremel
【摘要】:隨著互聯(lián)網(wǎng)時代的來臨,數(shù)據(jù)量迅猛增長,如何合理有效地存儲和利用大數(shù)據(jù)顯得尤為重要。針對大數(shù)據(jù)對于擴(kuò)展能力及數(shù)據(jù)格式的需求,業(yè)界提出了NoSQL數(shù)據(jù)庫的解決方案。NoSQL采用了分布式的存儲架構(gòu)和無模式的存儲格式,以滿足存儲過程中容量不斷增長的需求,同時更加靈活地為用戶業(yè)務(wù)變更提供方便。但是正是由于NoSQL數(shù)據(jù)庫在這些方面的設(shè)計調(diào)整,減弱了數(shù)據(jù)在存儲過程中的關(guān)聯(lián)性。導(dǎo)致使用NoSQL數(shù)據(jù)庫進(jìn)行大數(shù)據(jù)分析時,數(shù)據(jù)讀取速度慢,查詢過程更為復(fù)雜。針對NoSQL關(guān)于數(shù)據(jù)分析能力的不足,結(jié)合Dremel論文提出的嵌套式數(shù)據(jù)存儲格式的思想,本文提出了基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng),來解決大數(shù)據(jù)存儲和分析過程中遇到的問題。本文主要工作如下:1)基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng)采用了HBase原有的分布式存儲架構(gòu)。繼承HBase擴(kuò)展性好、可用性高的特點(diǎn)。使用HMaster對于數(shù)據(jù)存儲系統(tǒng)進(jìn)行管理操作,利用HRegionServer對于每個子節(jié)點(diǎn)上的數(shù)據(jù)存儲進(jìn)行管理。2)對于HBase按列存儲格式進(jìn)行格式轉(zhuǎn)換。重構(gòu)HRegion類,添加數(shù)據(jù)轉(zhuǎn)換模塊,將HBase原有列式存儲格式轉(zhuǎn)換為嵌套式數(shù)據(jù)存儲格式。利用基于Dremel實現(xiàn)的嵌套式數(shù)據(jù)存儲文件格式Parquet對于數(shù)據(jù)進(jìn)行持久化工作。3)實現(xiàn)基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng)的存儲和讀取模塊。完成基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng)的讀寫功能。并強(qiáng)化了讀取模塊中的查詢功能。4)通過數(shù)據(jù)分析實驗驗證基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng)在數(shù)據(jù)分析過程中的性能提升。利用MapReduce計算框架對存儲數(shù)據(jù)進(jìn)行分析,其結(jié)果顯示基于HBase的嵌套式存儲系統(tǒng)按列查詢性能比原HBase存儲系統(tǒng)提升三分之一左右。當(dāng)存儲表中列數(shù)目增加時,基于HBase的嵌套式存儲系統(tǒng)耗時增加更少;贖Base的嵌套式數(shù)據(jù)存儲系統(tǒng)可以滿足對于大數(shù)據(jù)讀寫性能的要求,同時在進(jìn)行大數(shù)據(jù)分析的過程中,減少了對于不必要數(shù)據(jù)的讀取開銷,降低了磁盤和CPU的損耗,加快了大數(shù)據(jù)的分析速度。
【關(guān)鍵詞】:大數(shù)據(jù)存儲 HBase 嵌套式存儲 Dremel
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要4-6
- Abstract6-14
- 第1章 緒論14-24
- 1.1 課題背景14-15
- 1.2 研究目的及意義15-19
- 1.2.1 大數(shù)據(jù)存儲特點(diǎn)15-16
- 1.2.2 NoSQL數(shù)據(jù)庫特點(diǎn)16
- 1.2.3 NoSQL數(shù)據(jù)庫中存儲結(jié)構(gòu)問題16-17
- 1.2.4 NoSQL數(shù)據(jù)庫數(shù)據(jù)查詢中的問題17-19
- 1.2.5 數(shù)據(jù)存儲結(jié)構(gòu)優(yōu)化的作用19
- 1.3 研究內(nèi)容19-21
- 1.3.1 研究目的19-20
- 1.3.2 本文工作及創(chuàng)新點(diǎn)20-21
- 1.4 文章結(jié)構(gòu)21-22
- 1.5 本章小結(jié)22-24
- 第2章 大數(shù)據(jù)存儲與應(yīng)用綜述24-40
- 2.1 大數(shù)據(jù)存儲技術(shù)24-29
- 2.1.1 NoSQL24-25
- 2.1.2 CAP理論25-27
- 2.1.3 數(shù)據(jù)存儲模型27-29
- 2.2 大數(shù)據(jù)應(yīng)用技術(shù)29-32
- 2.2.1 離線數(shù)據(jù)處理29-31
- 2.2.2 即時數(shù)據(jù)處理31
- 2.2.3 流式數(shù)據(jù)處理31-32
- 2.3 HBase32-34
- 2.3.1 HBase架構(gòu)32-34
- 2.3.2 HBase存儲34
- 2.4 Google交互式分析系統(tǒng)Dremel34-39
- 2.4.1 嵌套式數(shù)據(jù)35-37
- 2.4.2 嵌套式數(shù)據(jù)存儲格式37-38
- 2.4.3 嵌套式數(shù)據(jù)讀取原理38-39
- 2.5 本章小結(jié)39-40
- 第3章 基于HBase嵌套式數(shù)據(jù)存儲系統(tǒng)架構(gòu)設(shè)計40-48
- 3.1 分布式集群架構(gòu)40-42
- 3.1.1 主從式分布式集群架構(gòu)40-41
- 3.1.2 環(huán)狀式分布式集群架構(gòu)41-42
- 3.2 基于HBase嵌套式數(shù)據(jù)存儲系統(tǒng)架構(gòu)42
- 3.3 數(shù)據(jù)管理類HRegion重構(gòu)42-47
- 3.3.1 HRegion重構(gòu)相關(guān)類的設(shè)計43-46
- 3.3.2 HRegion重構(gòu)初始化過程設(shè)計46-47
- 3.4 本章小結(jié)47-48
- 第4章 基于HBase嵌套式數(shù)據(jù)存儲系統(tǒng)格式轉(zhuǎn)化48-55
- 4.1 HBase表結(jié)構(gòu)48-49
- 4.2 HFile文件格式49-50
- 4.3 Parquet文件格式50-51
- 4.4 存儲數(shù)據(jù)格式轉(zhuǎn)換實現(xiàn)51-53
- 4.5 存儲數(shù)據(jù)格式轉(zhuǎn)換實驗53-54
- 4.6 本章小結(jié)54-55
- 第5章 基于HBase嵌套式數(shù)據(jù)存儲系統(tǒng)設(shè)計與實現(xiàn)55-74
- 5.1 嵌套式數(shù)據(jù)存儲模塊重構(gòu)55-64
- 5.1.1 HBase寫入過程中關(guān)鍵類55-58
- 5.1.2 HBase寫入數(shù)據(jù)流程58-59
- 5.1.3 Parquet存儲數(shù)據(jù)過程59-60
- 5.1.4 嵌套式數(shù)據(jù)存儲模塊類設(shè)計60-63
- 5.1.5 嵌套式數(shù)據(jù)存儲流程63-64
- 5.2 嵌套式數(shù)據(jù)讀取模塊設(shè)計64-72
- 5.2.1 HBase讀取數(shù)據(jù)過程中關(guān)鍵類64-65
- 5.2.2 HBase讀取數(shù)據(jù)流程65-67
- 5.2.3 Parquet讀取數(shù)據(jù)過程67
- 5.2.4 嵌套式數(shù)據(jù)存儲系統(tǒng)讀取格式模塊設(shè)計67-69
- 5.2.5 嵌套式數(shù)據(jù)讀取模塊類設(shè)計69-71
- 5.2.6 嵌套式數(shù)據(jù)讀取流程71-72
- 5.3 本章小結(jié)72-74
- 第6章 基于HBase嵌套式存儲系統(tǒng)性能測試74-85
- 6.1 基于HBase嵌套式數(shù)據(jù)存儲系統(tǒng)讀寫性能分析74-79
- 6.1.1 實驗?zāi)康?/span>74
- 6.1.2 實驗環(huán)境準(zhǔn)備74-76
- 6.1.3 測試工具76-77
- 6.1.4 實驗過程77
- 6.1.5 實驗結(jié)果分析77-79
- 6.2 基于HBase嵌套式數(shù)據(jù)存儲系統(tǒng)數(shù)據(jù)分析性能分析79-84
- 6.2.1 實驗環(huán)境準(zhǔn)備80-81
- 6.2.2 實驗?zāi)康?/span>81
- 6.2.3 實驗過程81-82
- 6.2.4 實驗結(jié)果分析82-84
- 6.3 本章小結(jié)84-85
- 第7章 總結(jié)與展望85-88
- 7.1 本文工作總結(jié)85-86
- 7.2 未來工作展望86-88
- 7.2.1 嵌套式存儲結(jié)構(gòu)的擴(kuò)展86
- 7.2.2 嵌套式存儲結(jié)構(gòu)查詢應(yīng)用86-87
- 7.2.3 數(shù)據(jù)按需選擇CAP87-88
- 參考文獻(xiàn)88-91
- 攻讀碩士學(xué)位期間主要的研究成果91-92
- 致謝92
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;永久性數(shù)據(jù)存儲系統(tǒng)尋求合作[J];電腦與電信;2009年02期
2 楊則正;美國空軍人員數(shù)據(jù)存儲系統(tǒng)[J];管理科學(xué)文摘;1994年07期
3 李亮元;周銀珍;;數(shù)據(jù)存儲系統(tǒng)在銀行的應(yīng)用[J];金融電子化;2002年11期
4 陳端榮,裴先登,謝長生,讓光林;體全息數(shù)據(jù)存儲系統(tǒng)中的一種調(diào)制碼研究[J];小型微型計算機(jī)系統(tǒng);2003年01期
5 張展 ,何岷 ,徐廣毅;嵌入式電子飛行儀表系統(tǒng)(一)——數(shù)據(jù)通信和數(shù)據(jù)存儲系統(tǒng)設(shè)計[J];電子世界;2003年05期
6 楊光鎮(zhèn);中山電力數(shù)據(jù)存儲系統(tǒng)方案[J];電力信息化;2004年05期
7 邢笠;;數(shù)字圖書館數(shù)據(jù)存儲系統(tǒng)解決方案的探討[J];浙江萬里學(xué)院學(xué)報;2006年02期
8 沈兆龍;江兵;蔡建文;唐火紅;邢卉;徐敏;黃文浩;;共焦雙光頭多層數(shù)據(jù)存儲系統(tǒng)[J];光電工程;2007年07期
9 張李蓀;;信息化建設(shè)中的數(shù)據(jù)存儲系統(tǒng)建設(shè)[J];人民長江;2009年07期
10 李二補(bǔ);;數(shù)據(jù)存儲系統(tǒng)中可靠性及容錯性研究[J];山西科技;2010年01期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 江楊;;流數(shù)據(jù)存儲系統(tǒng)體系結(jié)構(gòu)研究[A];2007中國科協(xié)年會——通信與信息發(fā)展高層論壇論文集[C];2007年
2 章政海;;電廠數(shù)據(jù)存儲系統(tǒng)總體構(gòu)架研究[A];二○○九年全國電力企業(yè)信息化大會論文集[C];2009年
3 李非;邱天爽;遲戈;魏晶;;高速數(shù)據(jù)存儲在CT成像系統(tǒng)中的應(yīng)用研究[A];2008年醫(yī)療儀器學(xué)術(shù)年會暨理事會論文匯編[C];2008年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 惠聞;SAN應(yīng)用不再難[N];網(wǎng)絡(luò)世界;2000年
2 ;SAN——高瞻者的選擇[N];網(wǎng)絡(luò)世界;2001年
3 ;傳統(tǒng)存儲方式 面臨變革[N];中國計算機(jī)報;2004年
4 ;突破存儲的極限[N];中國電腦教育報;2004年
5 ;惠普簡化行業(yè)數(shù)據(jù)存儲系統(tǒng)[N];人民郵電;2005年
6 ;青島大學(xué)醫(yī)學(xué)院附屬醫(yī) Centera 應(yīng)用案例[N];中國電子報;2005年
7 陳旭兵;岳陽醫(yī)院“分級存儲”PACS構(gòu)建[N];網(wǎng)絡(luò)世界;2008年
8 程鴻;政府信息資源需層次化管理[N];計算機(jī)世界;2004年
9 劉燕;福建采購工商管理系統(tǒng)信息建設(shè)項目[N];政府采購信息報;2008年
10 IBM存儲事業(yè)部 張英偉;用邏輯卷鏡像安全備份[N];中國計算機(jī)報;2006年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前1條
1 陳海霞;計算機(jī)數(shù)據(jù)存儲系統(tǒng)中讀寫頭/盤間超薄氣膜動力穩(wěn)定性研究[D];華中科技大學(xué);2004年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 林潘榕;基于連接順序優(yōu)化的分布式能耗數(shù)據(jù)存儲系統(tǒng)的研究與實現(xiàn)[D];華南理工大學(xué);2015年
2 朱偉健;基于數(shù)據(jù)屬性的大數(shù)據(jù)存儲系統(tǒng)研究與實現(xiàn)[D];華南理工大學(xué);2015年
3 馬浩田;基于HBase的嵌套式數(shù)據(jù)存儲系統(tǒng)設(shè)計與實現(xiàn)[D];浙江大學(xué);2015年
4 鐘曉華;銀行操作數(shù)據(jù)存儲系統(tǒng)的分析與應(yīng)用[D];內(nèi)蒙古大學(xué);2009年
5 黃麗華;江西電信公司運(yùn)營數(shù)據(jù)存儲系統(tǒng)的升級方案設(shè)計[D];南昌大學(xué);2010年
6 張燦;云存儲中的數(shù)據(jù)動態(tài)平衡技術(shù)研究[D];上海交通大學(xué);2012年
7 王建光;大規(guī)模時間序列數(shù)據(jù)存儲系統(tǒng)的研究與實現(xiàn)[D];華中科技大學(xué);2013年
8 黃寅;高速數(shù)據(jù)存儲系統(tǒng)的設(shè)計與應(yīng)用[D];華中科技大學(xué);2009年
9 蘇文洲;容忍入侵的數(shù)據(jù)存儲系統(tǒng)研究與設(shè)計[D];蘭州大學(xué);2006年
10 祁軍;運(yùn)營數(shù)據(jù)存儲系統(tǒng)的設(shè)計與實現(xiàn)[D];南京郵電大學(xué);2012年
,本文編號:587413
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/587413.html