基于大數(shù)據(jù)平臺的內(nèi)蒙古地閃時空分布特征分析研究
發(fā)布時間:2021-10-20 05:05
雷電對人們的日常生活有著嚴(yán)重的威脅,對雷電進(jìn)行時空規(guī)律分析,以及對雷暴進(jìn)行更高精度的預(yù)報(bào)具有重要的現(xiàn)實(shí)意義。隨著互聯(lián)網(wǎng)的高速發(fā)展和氣象監(jiān)測水平的不斷提高,產(chǎn)生了海量的雷電資料數(shù)據(jù)。在對雷電資料數(shù)據(jù)進(jìn)行分析或預(yù)報(bào)等業(yè)務(wù)時,需要進(jìn)行大量繁復(fù)的運(yùn)算,而大規(guī)模運(yùn)算存在耗時較長的問題,傳統(tǒng)的單機(jī)方式已經(jīng)越來越難以滿足海量雷電資料的存儲與處理。如何更好的對海量雷電資料數(shù)據(jù)進(jìn)行挖掘研究成為氣象部門工作的研究熱點(diǎn)。大數(shù)據(jù)技術(shù)的出現(xiàn),為海量雷電資料的處理提供了一個新的思路。課題針對內(nèi)蒙古地閃時空分布特征分析研究,主要研究內(nèi)容包括雷電時空規(guī)律分析和雷暴預(yù)報(bào)應(yīng)用研究。雷電時空規(guī)律分析主要采用Spark算子和K-means算法對地閃定位資料分析;雷暴預(yù)報(bào)主要采用樸素貝葉斯算法,進(jìn)一步對雷電時空規(guī)律分析,目的是對未來某一區(qū)域某一時段是否發(fā)生雷暴做出預(yù)測,主要工作如下。1.基于Hadoop+Spark平臺設(shè)計(jì)了雷電高發(fā)區(qū)域劃分算法SCK-means和雷電時間規(guī)律STime算法。針對K-means算法隨機(jī)選取初始聚類中心和K值的問題,采用Canopy對K-means算法進(jìn)行優(yōu)化,并將優(yōu)化的算法基于Spark平臺進(jìn)行...
【文章來源】:內(nèi)蒙古工業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
HDFS架構(gòu)
第二章相關(guān)理論與技術(shù)13HDFS分布式文件管理系統(tǒng)有很多優(yōu)點(diǎn),它不僅可以構(gòu)建在廉價(jià)機(jī)器上,而且可以通過多副本機(jī)制,大大的提高文件管理的可靠性;同時HDFS具有容錯性,即使某一個節(jié)點(diǎn)上的副本丟失,也可以通過其它節(jié)點(diǎn)上的相同副本進(jìn)行自動恢復(fù);HDFS適合處理大數(shù)據(jù),即使用戶不了解分布式底層架構(gòu)的基礎(chǔ),也能夠利用它處理數(shù)據(jù)規(guī)模達(dá)到GB、TB、甚至PB級別的數(shù)據(jù)。因?yàn)镠adoopHDFS分布式文件系統(tǒng)的諸多優(yōu)點(diǎn),本文采用HDFS存儲氣象數(shù)據(jù),對雷電資料進(jìn)行挖掘研究。2.3.2YARNApacheHadoopYARN(YetAnotherResourceNegotiator)[50]是一種新的Hadoop資源管理器,它是一個通用的作業(yè)調(diào)度與集群資源管理的框架,可為上層MapReduce、Spark應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。引入YARN極大地提高了集群的管理能力,在集群利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面有較大幫助,因此論文使用YARN管理資源。YARN原理如圖2-5所示。圖2-5YARN原理Fig.2-5YARNprincipleYARN主要包含三大模塊:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM),除此之外,還有一個重要的概念Container。(1)ResourceManager(RM)處理客戶端請求、啟動/監(jiān)控ApplicationMaster、監(jiān)控NodeManager、資源分配與調(diào)度。(2)NodeManager(NM)主要負(fù)責(zé)管理節(jié)點(diǎn)上的資源,同時對ResourceManager的命令、ApplicationMaster的命令進(jìn)行處理。
第二章相關(guān)理論與技術(shù)15它是一個分布式圖處理框架,使得Spark可以對大規(guī)模的圖進(jìn)行挖掘計(jì)算。圖2-6Spark體系架構(gòu)Fig.2-6Sparkarchitecture2.4.2SparkCoreSparkCore[51]實(shí)現(xiàn)了Spark的基本功能,其中彈性分布式數(shù)據(jù)集RDD(ResilientDistributedDatasets)是Spark中最核心的思想。RDD是一種并行數(shù)據(jù)結(jié)構(gòu),同時它也是只讀的不允許修改的。較Hadoop的MapReduce框架來說,它將計(jì)算的中間數(shù)據(jù)緩存在內(nèi)存中,而不是需要花費(fèi)大量的時間在硬盤讀寫的I/O上,理論上運(yùn)行速度可以提高100倍,大大的優(yōu)化了數(shù)據(jù)迭代時的負(fù)載。由于RDD是只讀的,所以創(chuàng)建它主要包含以下三種方式。(1)通過使用外部存儲系統(tǒng)(常用的有HDFS、HBase、Hive等分布式文件系統(tǒng),HDFS是最常用的生產(chǎn)環(huán)境處理方式。(2)通過已有的RDD進(jìn)行轉(zhuǎn)換操作,最后用行動操作生成新的RDD。(3)利用驅(qū)動程序中已存在的Scala集合創(chuàng)建RDD(主要用于測試)。RDD主要包括兩種操作,分別為轉(zhuǎn)換(Transformation)操作和行動(Action)操作。Transformation操作是將現(xiàn)有RDD通過轉(zhuǎn)換操作后返回一個新的RDD,轉(zhuǎn)換操作的輸入和輸出都是RDD,常見的Transformation操作如表2-1所示。表2-1常用轉(zhuǎn)換算子Table2-1Commontransformationoperators相關(guān)算子作用map將函數(shù)應(yīng)用到RDD中的每一個元素,返回值構(gòu)成新RDDfilter用于條件過濾,返回新的RDDgroupBykey對具有相同鍵的值進(jìn)行分組reduceByKey對(key,value)形式把key相同的數(shù)據(jù)value進(jìn)行處理Join對兩個RDD進(jìn)行內(nèi)連接
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的GA-BP算法在降水預(yù)測中的應(yīng)用[J]. 勾志竟,任建玲,徐梅,王敏. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(09)
[2]基于改進(jìn)DBScan算法的雷暴挖掘與研究[J]. 高攀,田浩,李健,陶漢濤,王釗,姜志博. 高壓電器. 2019(04)
[3]基于LLS的雷暴運(yùn)動趨勢臨近預(yù)測[J]. 黃禮忠,蘇盛,楊鑫,胡軍,劉正誼. 電瓷避雷器. 2019(01)
[4]Application and Research of Meteorological Data in Lightning Protection Technical Service of Oil Depot[J]. Liu Fengjiao,He Qiuyan,Tang Yao,Su Kai,Liu Yueyu. Meteorological and Environmental Research. 2019(01)
[5]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[6]一種基于CNN和RNN深度神經(jīng)網(wǎng)絡(luò)的天氣預(yù)測模型——以北京地區(qū)雷暴的6小時臨近預(yù)報(bào)為例[J]. 倪錚,文韜. 數(shù)值計(jì)算與計(jì)算機(jī)應(yīng)用. 2018(04)
[7]云南省雷電活動分布特征及對農(nóng)村地區(qū)的影響分析[J]. 楊宗凱,劉平英,胡穎,周清倩,莊嘉. 中國農(nóng)業(yè)資源與區(qū)劃. 2018(09)
[8]銀東線雷電防護(hù)線路避雷器開發(fā)與應(yīng)用[J]. 萬帥,曹偉,陳家宏,谷山強(qiáng),王劍,呂軍. 高電壓技術(shù). 2018(05)
[9]Spark Streaming框架下的氣象自動站數(shù)據(jù)實(shí)時處理系統(tǒng)[J]. 趙文芳,劉旭林. 計(jì)算機(jī)應(yīng)用. 2018(01)
[10]基于Spark的并行K-means氣象數(shù)據(jù)挖掘研究[J]. 李莉,王小剛. 信息技術(shù). 2017(09)
碩士論文
[1]聚類算法在雷電預(yù)警及雷災(zāi)分析中的應(yīng)用[D]. 路郁.南京信息工程大學(xué) 2014
本文編號:3446297
【文章來源】:內(nèi)蒙古工業(yè)大學(xué)內(nèi)蒙古自治區(qū)
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
HDFS架構(gòu)
第二章相關(guān)理論與技術(shù)13HDFS分布式文件管理系統(tǒng)有很多優(yōu)點(diǎn),它不僅可以構(gòu)建在廉價(jià)機(jī)器上,而且可以通過多副本機(jī)制,大大的提高文件管理的可靠性;同時HDFS具有容錯性,即使某一個節(jié)點(diǎn)上的副本丟失,也可以通過其它節(jié)點(diǎn)上的相同副本進(jìn)行自動恢復(fù);HDFS適合處理大數(shù)據(jù),即使用戶不了解分布式底層架構(gòu)的基礎(chǔ),也能夠利用它處理數(shù)據(jù)規(guī)模達(dá)到GB、TB、甚至PB級別的數(shù)據(jù)。因?yàn)镠adoopHDFS分布式文件系統(tǒng)的諸多優(yōu)點(diǎn),本文采用HDFS存儲氣象數(shù)據(jù),對雷電資料進(jìn)行挖掘研究。2.3.2YARNApacheHadoopYARN(YetAnotherResourceNegotiator)[50]是一種新的Hadoop資源管理器,它是一個通用的作業(yè)調(diào)度與集群資源管理的框架,可為上層MapReduce、Spark應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。引入YARN極大地提高了集群的管理能力,在集群利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面有較大幫助,因此論文使用YARN管理資源。YARN原理如圖2-5所示。圖2-5YARN原理Fig.2-5YARNprincipleYARN主要包含三大模塊:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM),除此之外,還有一個重要的概念Container。(1)ResourceManager(RM)處理客戶端請求、啟動/監(jiān)控ApplicationMaster、監(jiān)控NodeManager、資源分配與調(diào)度。(2)NodeManager(NM)主要負(fù)責(zé)管理節(jié)點(diǎn)上的資源,同時對ResourceManager的命令、ApplicationMaster的命令進(jìn)行處理。
第二章相關(guān)理論與技術(shù)15它是一個分布式圖處理框架,使得Spark可以對大規(guī)模的圖進(jìn)行挖掘計(jì)算。圖2-6Spark體系架構(gòu)Fig.2-6Sparkarchitecture2.4.2SparkCoreSparkCore[51]實(shí)現(xiàn)了Spark的基本功能,其中彈性分布式數(shù)據(jù)集RDD(ResilientDistributedDatasets)是Spark中最核心的思想。RDD是一種并行數(shù)據(jù)結(jié)構(gòu),同時它也是只讀的不允許修改的。較Hadoop的MapReduce框架來說,它將計(jì)算的中間數(shù)據(jù)緩存在內(nèi)存中,而不是需要花費(fèi)大量的時間在硬盤讀寫的I/O上,理論上運(yùn)行速度可以提高100倍,大大的優(yōu)化了數(shù)據(jù)迭代時的負(fù)載。由于RDD是只讀的,所以創(chuàng)建它主要包含以下三種方式。(1)通過使用外部存儲系統(tǒng)(常用的有HDFS、HBase、Hive等分布式文件系統(tǒng),HDFS是最常用的生產(chǎn)環(huán)境處理方式。(2)通過已有的RDD進(jìn)行轉(zhuǎn)換操作,最后用行動操作生成新的RDD。(3)利用驅(qū)動程序中已存在的Scala集合創(chuàng)建RDD(主要用于測試)。RDD主要包括兩種操作,分別為轉(zhuǎn)換(Transformation)操作和行動(Action)操作。Transformation操作是將現(xiàn)有RDD通過轉(zhuǎn)換操作后返回一個新的RDD,轉(zhuǎn)換操作的輸入和輸出都是RDD,常見的Transformation操作如表2-1所示。表2-1常用轉(zhuǎn)換算子Table2-1Commontransformationoperators相關(guān)算子作用map將函數(shù)應(yīng)用到RDD中的每一個元素,返回值構(gòu)成新RDDfilter用于條件過濾,返回新的RDDgroupBykey對具有相同鍵的值進(jìn)行分組reduceByKey對(key,value)形式把key相同的數(shù)據(jù)value進(jìn)行處理Join對兩個RDD進(jìn)行內(nèi)連接
【參考文獻(xiàn)】:
期刊論文
[1]基于Hadoop的GA-BP算法在降水預(yù)測中的應(yīng)用[J]. 勾志竟,任建玲,徐梅,王敏. 計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(09)
[2]基于改進(jìn)DBScan算法的雷暴挖掘與研究[J]. 高攀,田浩,李健,陶漢濤,王釗,姜志博. 高壓電器. 2019(04)
[3]基于LLS的雷暴運(yùn)動趨勢臨近預(yù)測[J]. 黃禮忠,蘇盛,楊鑫,胡軍,劉正誼. 電瓷避雷器. 2019(01)
[4]Application and Research of Meteorological Data in Lightning Protection Technical Service of Oil Depot[J]. Liu Fengjiao,He Qiuyan,Tang Yao,Su Kai,Liu Yueyu. Meteorological and Environmental Research. 2019(01)
[5]面向大規(guī)模中文文本分類的樸素貝葉斯并行Spark算法(英文)[J]. 劉鵬,趙慧含,滕家雨,仰彥妍,劉亞峰,朱宗衛(wèi). Journal of Central South University. 2019(01)
[6]一種基于CNN和RNN深度神經(jīng)網(wǎng)絡(luò)的天氣預(yù)測模型——以北京地區(qū)雷暴的6小時臨近預(yù)報(bào)為例[J]. 倪錚,文韜. 數(shù)值計(jì)算與計(jì)算機(jī)應(yīng)用. 2018(04)
[7]云南省雷電活動分布特征及對農(nóng)村地區(qū)的影響分析[J]. 楊宗凱,劉平英,胡穎,周清倩,莊嘉. 中國農(nóng)業(yè)資源與區(qū)劃. 2018(09)
[8]銀東線雷電防護(hù)線路避雷器開發(fā)與應(yīng)用[J]. 萬帥,曹偉,陳家宏,谷山強(qiáng),王劍,呂軍. 高電壓技術(shù). 2018(05)
[9]Spark Streaming框架下的氣象自動站數(shù)據(jù)實(shí)時處理系統(tǒng)[J]. 趙文芳,劉旭林. 計(jì)算機(jī)應(yīng)用. 2018(01)
[10]基于Spark的并行K-means氣象數(shù)據(jù)挖掘研究[J]. 李莉,王小剛. 信息技術(shù). 2017(09)
碩士論文
[1]聚類算法在雷電預(yù)警及雷災(zāi)分析中的應(yīng)用[D]. 路郁.南京信息工程大學(xué) 2014
本文編號:3446297
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3446297.html
最近更新
教材專著