基于Hadoop的時態(tài)信息存儲與檢索策略的研究

發(fā)布時間：2017-08-18 09:26

本文關鍵詞：基于Hadoop的時態(tài)信息存儲與檢索策略的研究

【摘要】：隨著信息技術的深入發(fā)展,蜂擁而至的信息演變成了各個領域和行業(yè)分析、處理以及應用的關鍵,成為左右決策最重要的因素。幾乎所有信息都顯式或隱式地具備時態(tài)特征,探討時態(tài)信息的存儲與檢索技術成為是時態(tài)信息處理的核心之一。當前架構在傳統(tǒng)關系數(shù)據(jù)庫之上的時態(tài)數(shù)據(jù)模型在進行超大規(guī)模和高并發(fā)的時態(tài)數(shù)據(jù)存儲和處理時遭遇了性能瓶頸,暴露了諸多難以克服的問題,既無法滿足對時態(tài)數(shù)據(jù)的高并發(fā)讀寫需求,同時也難以處理大量存在的類型復雜的非結構化數(shù)據(jù),學者們開始逐步關注分布式系統(tǒng)基礎架構Hadoop下的應用。Hadoop是一個開源的云計算架構,具有大規(guī)模擴展和水平分布的特點,可以提供動態(tài)的存儲和計算能力,這就為海量時態(tài)數(shù)據(jù)的存儲和快速檢索提供了一個新思路。針對海量非結構化時態(tài)信息,構建了在分布式環(huán)境下的數(shù)據(jù)存儲模型并在此基礎上提出一種基本的時態(tài)數(shù)據(jù)處理方法。使用Hadoop平臺下的分布式、非結構化數(shù)據(jù)庫HBase對時態(tài)數(shù)據(jù)進行存儲,構造以時態(tài)集合為時態(tài)存儲單元的時態(tài)數(shù)據(jù)存儲模型；對于時態(tài)信息的查詢需求,針對分布式處理特征和時態(tài)集合數(shù)據(jù)類型,提出一種在Map/Reduce編程計算模式下進行時態(tài)信息關系演算的實現(xiàn)方法；通過擴展時態(tài)區(qū)間關系運算,實現(xiàn)以時態(tài)集合為基本時態(tài)數(shù)據(jù)操作對象的交、并等關系運算,并以醫(yī)療時態(tài)數(shù)據(jù)作為研究實例,表明了所提出的時態(tài)數(shù)據(jù)存儲模型和關系演算方案在分布式應用系統(tǒng)下的適用性。對于時態(tài)信息的快速檢索需求,設計了多級分布式哈希索引表算法(tDHT),實現(xiàn)對時態(tài)列族的時態(tài)屬性值的高效、快速的檢索。通過將時態(tài)屬性值向二維空間映射,實現(xiàn)時態(tài)數(shù)據(jù)向空間對象的轉化,采用對空間數(shù)據(jù)的處理方法對時態(tài)數(shù)據(jù)區(qū)域進行劃分,生成多級時態(tài)數(shù)據(jù)子區(qū)域,利用分布式哈希表思想設計HBase存儲的多級索引表目錄。論文的創(chuàng)新之處包括：(1)針對傳統(tǒng)的時態(tài)數(shù)據(jù)庫在存儲海量非結構化時態(tài)信息遭遇性能瓶頸,構建分布式存儲結構HBase下的海量時態(tài)信息存儲模型,設計了海量時態(tài)信息的存儲架構；(2)對于存儲體系中時態(tài)信息的查詢、分析操作,提出一種在Map/Reduce編程模式下進行海量時態(tài)信息關系演算的方案,實現(xiàn)了以時態(tài)集合為操作對象的并、交以及笛卡爾積等時態(tài)關系演算過程；(3)針對海量時態(tài)信息的快速、高效檢索需求,設計了多級分布式哈希索引表算法(tDHT),實現(xiàn)對時態(tài)列族的時態(tài)屬性值的高效、快速檢索。根據(jù)設計方案,文章最后進行了相應的性能測試和數(shù)據(jù)分析,從實驗結果可以看出,本文提出的海量時態(tài)信息的存儲、查詢與檢索方案在云計算平臺下展現(xiàn)了良好的適用性,較大程度上提高了對海量時態(tài)數(shù)據(jù)的處理能力,表現(xiàn)出了較好的性能。
【關鍵詞】：時態(tài)信息 Hadoop HBase 存儲模型 關系演算 索引
【學位授予單位】：廣東工業(yè)大學
【學位級別】：碩士
【學位授予年份】：2014
【分類號】：TP333;TP391.3
【目錄】：

摘要4-6
ABSTRACT6-12
第一章緒論12-17
1.1 課題研究背景及意義12-14
1.2 國內(nèi)外研究現(xiàn)狀14-15
1.3 本文的研究內(nèi)容和論文結構15-17
1.3.1 本文的研究內(nèi)容15-16
1.3.2 論文結構16-17
第二章時態(tài)信息以及Hadoop相關技術概述17-31
2.1 時態(tài)信息的表示及時態(tài)關系17-18
2.2 時態(tài)數(shù)據(jù)庫的發(fā)展18-19
2.2.1 時態(tài)數(shù)據(jù)庫的發(fā)展現(xiàn)狀18-19
2.2.2 實現(xiàn)時態(tài)數(shù)據(jù)庫的方法19
2.3 Hadoop云計算框架19-24
2.3.1 Hadoop集群20-21
2.3.2 HDFS存儲體系21-22
2.3.3 Map/Reduce并行編程模式22-24
2.4 HBase分布式數(shù)據(jù)庫24-30
2.4.1 HBase概述24-25
2.4.2 HBase數(shù)據(jù)模型25-27
2.4.3 HBase系統(tǒng)架構27-30
2.5 本章小結30-31
第三章海量時態(tài)信息的存儲架構與查詢方案31-48
3.1 HBase時態(tài)信息存儲模型的設計31-33
3.1.1 時態(tài)信息的重構31-32
3.1.2 時態(tài)信息存儲模型的構建32-33
3.2 時態(tài)信息存儲系統(tǒng)的架構設計33-38
3.2.1 配置模塊34-35
3.2.2 數(shù)據(jù)讀寫控制模塊35
3.2.3 數(shù)據(jù)寫入模塊35
3.2.4 數(shù)據(jù)刪除模塊35-36
3.2.5 數(shù)據(jù)查詢模塊36-38
3.2.6 時態(tài)數(shù)據(jù)檢索模塊38
3.3 時態(tài)關系演算的實現(xiàn)方案38-47
3.3.1 關系代數(shù)的運算擴展39-42
3.3.2 基于Map/Reduce的時態(tài)集合關系演算42-47
3.4 本章小結47-48
第四章基于HBase時態(tài)信息的索引策略48-56
4.1 時態(tài)集合的聚類策略48-51
4.1.1 時態(tài)集合的空間映射48-50
4.1.2 時態(tài)數(shù)據(jù)區(qū)域的劃分策略50-51
4.2 基于HBase多級哈希索引表的設計51-55
4.2.1 一級索引表結構的設計53-54
4.2.2 多級索引表結構的設計54-55
4.3 本章小結55-56
第五章仿真實驗及數(shù)據(jù)分析56-62
5.1 測試環(huán)境部署56-58
5.2 實驗方案及結果分析58-61
5.3 實驗小結61-62
結論62-64
參考文獻64-67
攻讀學位期間發(fā)表的論文67-69
致謝69

【引證文獻】

中國碩士學位論文全文數(shù)據(jù)庫前1條

1 陳磊;不確定時態(tài)信息的粒度建模及其時態(tài)關系研究[D];廣東工業(yè)大學;2015年

，

本文編號：693812

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/693812.html

上一篇：韓國可穿戴運動管理設備
下一篇：華夏銀行數(shù)據(jù)中心災備體系建設實踐

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的時態(tài)信息存儲與檢索策略的研究