基于Hadoop的時態(tài)信息存儲與檢索策略的研究
發(fā)布時間:2017-08-18 09:26
本文關鍵詞:基于Hadoop的時態(tài)信息存儲與檢索策略的研究
更多相關文章: 時態(tài)信息 Hadoop HBase 存儲模型 關系演算 索引
【摘要】:隨著信息技術的深入發(fā)展,蜂擁而至的信息演變成了各個領域和行業(yè)分析、處理以及應用的關鍵,成為左右決策最重要的因素。幾乎所有信息都顯式或隱式地具備時態(tài)特征,探討時態(tài)信息的存儲與檢索技術成為是時態(tài)信息處理的核心之一。當前架構在傳統(tǒng)關系數(shù)據(jù)庫之上的時態(tài)數(shù)據(jù)模型在進行超大規(guī)模和高并發(fā)的時態(tài)數(shù)據(jù)存儲和處理時遭遇了性能瓶頸,暴露了諸多難以克服的問題,既無法滿足對時態(tài)數(shù)據(jù)的高并發(fā)讀寫需求,同時也難以處理大量存在的類型復雜的非結構化數(shù)據(jù),學者們開始逐步關注分布式系統(tǒng)基礎架構Hadoop下的應用。Hadoop是一個開源的云計算架構,具有大規(guī)模擴展和水平分布的特點,可以提供動態(tài)的存儲和計算能力,這就為海量時態(tài)數(shù)據(jù)的存儲和快速檢索提供了一個新思路。 針對海量非結構化時態(tài)信息,構建了在分布式環(huán)境下的數(shù)據(jù)存儲模型并在此基礎上提出一種基本的時態(tài)數(shù)據(jù)處理方法。使用Hadoop平臺下的分布式、非結構化數(shù)據(jù)庫HBase對時態(tài)數(shù)據(jù)進行存儲,構造以時態(tài)集合為時態(tài)存儲單元的時態(tài)數(shù)據(jù)存儲模型;對于時態(tài)信息的查詢需求,針對分布式處理特征和時態(tài)集合數(shù)據(jù)類型,提出一種在Map/Reduce編程計算模式下進行時態(tài)信息關系演算的實現(xiàn)方法;通過擴展時態(tài)區(qū)間關系運算,實現(xiàn)以時態(tài)集合為基本時態(tài)數(shù)據(jù)操作對象的交、并等關系運算,并以醫(yī)療時態(tài)數(shù)據(jù)作為研究實例,表明了所提出的時態(tài)數(shù)據(jù)存儲模型和關系演算方案在分布式應用系統(tǒng)下的適用性。對于時態(tài)信息的快速檢索需求,設計了多級分布式哈希索引表算法(tDHT),實現(xiàn)對時態(tài)列族的時態(tài)屬性值的高效、快速的檢索。通過將時態(tài)屬性值向二維空間映射,實現(xiàn)時態(tài)數(shù)據(jù)向空間對象的轉化,采用對空間數(shù)據(jù)的處理方法對時態(tài)數(shù)據(jù)區(qū)域進行劃分,生成多級時態(tài)數(shù)據(jù)子區(qū)域,利用分布式哈希表思想設計HBase存儲的多級索引表目錄。 論文的創(chuàng)新之處包括:(1)針對傳統(tǒng)的時態(tài)數(shù)據(jù)庫在存儲海量非結構化時態(tài)信息遭遇性能瓶頸,構建分布式存儲結構HBase下的海量時態(tài)信息存儲模型,設計了海量時態(tài)信息的存儲架構;(2)對于存儲體系中時態(tài)信息的查詢、分析操作,提出一種在Map/Reduce編程模式下進行海量時態(tài)信息關系演算的方案,實現(xiàn)了以時態(tài)集合為操作對象的并、交以及笛卡爾積等時態(tài)關系演算過程;(3)針對海量時態(tài)信息的快速、高效檢索需求,設計了多級分布式哈希索引表算法(tDHT),實現(xiàn)對時態(tài)列族的時態(tài)屬性值的高效、快速檢索。 根據(jù)設計方案,文章最后進行了相應的性能測試和數(shù)據(jù)分析,從實驗結果可以看出,本文提出的海量時態(tài)信息的存儲、查詢與檢索方案在云計算平臺下展現(xiàn)了良好的適用性,較大程度上提高了對海量時態(tài)數(shù)據(jù)的處理能力,表現(xiàn)出了較好的性能。
【關鍵詞】:時態(tài)信息 Hadoop HBase 存儲模型 關系演算 索引
【學位授予單位】:廣東工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP333;TP391.3
【目錄】:
- 摘要4-6
- ABSTRACT6-12
- 第一章 緒論12-17
- 1.1 課題研究背景及意義12-14
- 1.2 國內(nèi)外研究現(xiàn)狀14-15
- 1.3 本文的研究內(nèi)容和論文結構15-17
- 1.3.1 本文的研究內(nèi)容15-16
- 1.3.2 論文結構16-17
- 第二章 時態(tài)信息以及Hadoop相關技術概述17-31
- 2.1 時態(tài)信息的表示及時態(tài)關系17-18
- 2.2 時態(tài)數(shù)據(jù)庫的發(fā)展18-19
- 2.2.1 時態(tài)數(shù)據(jù)庫的發(fā)展現(xiàn)狀18-19
- 2.2.2 實現(xiàn)時態(tài)數(shù)據(jù)庫的方法19
- 2.3 Hadoop云計算框架19-24
- 2.3.1 Hadoop集群20-21
- 2.3.2 HDFS存儲體系21-22
- 2.3.3 Map/Reduce并行編程模式22-24
- 2.4 HBase分布式數(shù)據(jù)庫24-30
- 2.4.1 HBase概述24-25
- 2.4.2 HBase數(shù)據(jù)模型25-27
- 2.4.3 HBase系統(tǒng)架構27-30
- 2.5 本章小結30-31
- 第三章 海量時態(tài)信息的存儲架構與查詢方案31-48
- 3.1 HBase時態(tài)信息存儲模型的設計31-33
- 3.1.1 時態(tài)信息的重構31-32
- 3.1.2 時態(tài)信息存儲模型的構建32-33
- 3.2 時態(tài)信息存儲系統(tǒng)的架構設計33-38
- 3.2.1 配置模塊34-35
- 3.2.2 數(shù)據(jù)讀寫控制模塊35
- 3.2.3 數(shù)據(jù)寫入模塊35
- 3.2.4 數(shù)據(jù)刪除模塊35-36
- 3.2.5 數(shù)據(jù)查詢模塊36-38
- 3.2.6 時態(tài)數(shù)據(jù)檢索模塊38
- 3.3 時態(tài)關系演算的實現(xiàn)方案38-47
- 3.3.1 關系代數(shù)的運算擴展39-42
- 3.3.2 基于Map/Reduce的時態(tài)集合關系演算42-47
- 3.4 本章小結47-48
- 第四章 基于HBase時態(tài)信息的索引策略48-56
- 4.1 時態(tài)集合的聚類策略48-51
- 4.1.1 時態(tài)集合的空間映射48-50
- 4.1.2 時態(tài)數(shù)據(jù)區(qū)域的劃分策略50-51
- 4.2 基于HBase多級哈希索引表的設計51-55
- 4.2.1 一級索引表結構的設計53-54
- 4.2.2 多級索引表結構的設計54-55
- 4.3 本章小結55-56
- 第五章 仿真實驗及數(shù)據(jù)分析56-62
- 5.1 測試環(huán)境部署56-58
- 5.2 實驗方案及結果分析58-61
- 5.3 實驗小結61-62
- 結論62-64
- 參考文獻64-67
- 攻讀學位期間發(fā)表的論文67-69
- 致謝69
【引證文獻】
中國碩士學位論文全文數(shù)據(jù)庫 前1條
1 陳磊;不確定時態(tài)信息的粒度建模及其時態(tài)關系研究[D];廣東工業(yè)大學;2015年
,本文編號:693812
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/693812.html
最近更新
教材專著