基于Hadoop的時(shí)空大數(shù)據(jù)的分布式檢索方法
發(fā)布時(shí)間:2018-02-03 04:14
本文關(guān)鍵詞: 時(shí)空大數(shù)據(jù) Hadoop 分布式檢索方法 出處:《中國(guó)科學(xué)院大學(xué)(中國(guó)科學(xué)院國(guó)家空間科學(xué)中心)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著空間任務(wù)變得越來(lái)越復(fù)雜和頻繁,科學(xué)衛(wèi)星產(chǎn)生的數(shù)據(jù)量級(jí)也呈現(xiàn)指數(shù)式增長(zhǎng)的趨勢(shì),并且一顆科學(xué)衛(wèi)星在軌運(yùn)行階段會(huì)產(chǎn)生數(shù)量龐大的數(shù)據(jù),這些海量數(shù)據(jù)具有種類繁多、異構(gòu)、實(shí)時(shí)、規(guī)模龐大和存儲(chǔ)分散、時(shí)間周期長(zhǎng)等大數(shù)據(jù)的特點(diǎn),遭遇到計(jì)算能力、存儲(chǔ)系統(tǒng)和通信速度三方面的挑戰(zhàn),基于關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)和文件系統(tǒng)開(kāi)發(fā)的傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)對(duì)于存儲(chǔ)海量結(jié)構(gòu)化數(shù)據(jù)的能力支持不夠,無(wú)法應(yīng)對(duì)高并發(fā)訪問(wèn)與高擴(kuò)展性的挑戰(zhàn),所以需要采用新方法對(duì)其進(jìn)行有效地管理。傳統(tǒng)上對(duì)空間數(shù)據(jù)的組織通常采用球體剖分的方式,它是基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)或者文件系統(tǒng),以空間剖分網(wǎng)格為基礎(chǔ),將空間數(shù)據(jù)按照空間區(qū)域位置進(jìn)行編碼,通過(guò)對(duì)編碼的檢索從而完成對(duì)數(shù)據(jù)的查詢過(guò)程。但是由于這種數(shù)據(jù)組織方式是基于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),因而對(duì)存儲(chǔ)海量結(jié)構(gòu)化數(shù)據(jù)的支持能力不足。Hadoop是當(dāng)前處理海量數(shù)據(jù)的分布式系統(tǒng)框架,在支持大規(guī)模數(shù)據(jù)方面表現(xiàn)出了巨大的優(yōu)勢(shì)。但是,由于Hadoop最初是基于處理一維非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)開(kāi)發(fā)的存儲(chǔ)和處理大數(shù)據(jù)的框架,因而無(wú)法直接用于組織和處理結(jié)構(gòu)化的空間科學(xué)大數(shù)據(jù)。本文針對(duì)傳統(tǒng)的數(shù)據(jù)管理無(wú)法支持海量數(shù)據(jù),并且分布式系統(tǒng)框架Hadoop無(wú)法直接用于組織和處理結(jié)構(gòu)化的空間科學(xué)大數(shù)據(jù)的問(wèn)題,提出了基于Hadoop的空間科學(xué)大數(shù)據(jù)的分布式區(qū)域檢索算法,以支持?jǐn)?shù)據(jù)的快速檢索,并用多組數(shù)據(jù)進(jìn)行了試驗(yàn)和分析。論文的主要研究?jī)?nèi)容如下:首先,系統(tǒng)闡述了當(dāng)前國(guó)內(nèi)外在時(shí)空數(shù)據(jù)的索引方法、二維空間科學(xué)大數(shù)據(jù)的組織方法這兩方面的國(guó)內(nèi)外的研究成果,以及對(duì)Hadoop相關(guān)組件,包括HDFS、MapReduce和Hive的工作機(jī)制做了詳細(xì)的闡述,為之后的研究提供了理論依據(jù)。其次,基于Hadoop基礎(chǔ)架構(gòu)設(shè)計(jì)了時(shí)空數(shù)據(jù)的索引方法,包括數(shù)據(jù)源索引、時(shí)間索引和兩級(jí)空間索引。其中,兩級(jí)空間索引包括用于分布式從節(jié)點(diǎn)間的數(shù)據(jù)塊Block查詢的空間全局索引和用于分布式從節(jié)點(diǎn)內(nèi)對(duì)數(shù)據(jù)塊Block進(jìn)行查詢的空間局部索引。提出了利用Hive組件建立數(shù)據(jù)源索引和時(shí)間索引的方法,以及提出了基于立方體的Block Grid三維網(wǎng)格剖分方法,設(shè)計(jì)了分布式環(huán)境下的數(shù)據(jù)查詢算法。第三,設(shè)計(jì)了數(shù)據(jù)源索引信息、時(shí)間索引信息、空間索引信息在分布式系統(tǒng)架構(gòu)Hadoop,即分布式主從節(jié)點(diǎn)中的分布策略,以及在進(jìn)行數(shù)據(jù)查詢操作時(shí)對(duì)數(shù)據(jù)進(jìn)行檢索的執(zhí)行流程。提出了目標(biāo)查詢區(qū)域覆蓋空間網(wǎng)格序列的計(jì)算方法,該方法能夠有效地提高數(shù)據(jù)的檢索效率。第四,基于Hadoop基礎(chǔ)架構(gòu),設(shè)計(jì)了能夠處理結(jié)構(gòu)化的空間科學(xué)數(shù)據(jù)的NSSC Hadoop分布式系統(tǒng)架構(gòu),詳細(xì)介紹了系統(tǒng)的整體結(jié)構(gòu),搭建分布式集群過(guò)程,集群配置過(guò)程,并進(jìn)行了多組試驗(yàn),對(duì)算法進(jìn)行驗(yàn)證并對(duì)試驗(yàn)結(jié)果進(jìn)行了分析。最后,對(duì)本文的研究工作進(jìn)行了總結(jié)和進(jìn)一步展望。
[Abstract]:闅忕潃絀洪棿浠誨姟鍙樺緱瓚婃潵瓚婂鏉傚拰棰戠箒,縐戝鍗槦浜х敓鐨勬暟鎹噺綰т篃鍛堢幇鎸囨暟寮忓闀跨殑瓚嬪娍,騫朵笖涓,
本文編號(hào):1486385
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1486385.html
最近更新
教材專著