基于Spark的森林生物量并行反演方法研究
發(fā)布時(shí)間:2021-09-22 13:21
隨著全球氣候變暖,森林碳儲量成為目前十分受關(guān)注的問題。森林生物量是估算森林碳儲量的重要參數(shù),不僅是碳循環(huán)的標(biāo)志,更是森林生態(tài)系統(tǒng)評價(jià)的重要指標(biāo)。森林郁閉度同樣作為森林生態(tài)資源調(diào)查中的主要參數(shù)之一,也是碳循環(huán)中的重要因子,與生物量有著密切的關(guān)系,通過遙感影像反演有效得到郁閉度的值可以更精確的實(shí)現(xiàn)生物量的反演。但是隨著遙感大數(shù)據(jù)的發(fā)展,遙感影像處理的復(fù)雜度和數(shù)據(jù)量也在增加,因此為了實(shí)現(xiàn)遙感影像的高效處理,本文將Spark并行計(jì)算框架應(yīng)用于遙感影像的并行處理中,以帽兒山老山施業(yè)區(qū)為數(shù)據(jù)源,提出了基于Spark的并行反演算法,將基于郁閉度的生物量反演模型與之集成完成了生物量的并行反演。本文主要的研究內(nèi)容如下:(1)針對遙感影像數(shù)據(jù)量大,在并行反演過程中反復(fù)讀取、存儲數(shù)據(jù)造成時(shí)效性低的問題,本文在遙感影像預(yù)處理后建立了遙感影像金字塔。在并行反演過程中,可以直接從金字塔模型中快速提取信息。同時(shí),針對本文數(shù)據(jù)類型,提出了一種針對遙感影像數(shù)據(jù)和影像瓦片采用不同數(shù)據(jù)庫分而治之的存儲方式。將原始遙感影像和并行反演的處理過程和結(jié)果保存在分布式文件系統(tǒng)HDFS中。影像金字塔瓦片的生成和金字塔模型構(gòu)建過程采用列...
【文章來源】:東北林業(yè)大學(xué)黑龍江省 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-4?yam-cluster運(yùn)行模式??yam-client?模式和?yam-cluster?差別不大,yam-client?的?Driver?運(yùn)行在?Client?上
以使用Spark來驗(yàn)證并解決問題。??(5)通用性強(qiáng)??面對多元化、多形式的海量數(shù)據(jù),Spark提供了可以用于文件批處理、交互式查詢??(Spark?SQL)?_、實(shí)時(shí)流處理(Spark?Streaming_)、機(jī)器學(xué)習(xí)(Spark?MLlib)和圖計(jì)??算(SparkGraphX^)的并行計(jì)算框架。??2.2.2?Spark的生態(tài)系統(tǒng)??Spark?SQL、Spark?Streaming、Spark?MLlib?和?Spark?GraphX?組成了?Spark?的生態(tài)系??統(tǒng),如圖2-5所示。AMP?Lab將此生態(tài)系統(tǒng)命名為大數(shù)據(jù)分析堆棧。簡稱為BDAS。??I?!??c?,?MLlib???,?v??Spark?SQL?^ar.?(machine?,?叩?i、??Stream,n§?lcammg)?化_)??Apache?Spark??l?'?...?.....????:......I??f?本地?)?獨(dú)立?i?j??運(yùn)&模式運(yùn)行£式Ee2?MesGS?YARN??圖2-5?Spark的生態(tài)系統(tǒng)??-12-??
D或者RDD的擴(kuò)展來完成相應(yīng)的運(yùn)算的。在Spark中數(shù)據(jù)處??理的關(guān)鍵點(diǎn)就是如何將數(shù)據(jù)轉(zhuǎn)化為RDD。從邏輯上來看,RDD中的每一個(gè)分區(qū)也對應(yīng)??著一個(gè)相應(yīng)的block。RDD的具體操作分為轉(zhuǎn)化(Transformation)操作和行動(Action)??兩種。在進(jìn)行轉(zhuǎn)化的過程中,就是由一個(gè)RDD經(jīng)過執(zhí)行生成一個(gè)新的RDD。但是??RDD由于惰性,并不會真的被執(zhí)行,只有當(dāng)RDD執(zhí)行Action操作的時(shí)候,才會觸發(fā)并??執(zhí)行。??RDD在Spark中的運(yùn)行流程主要分為以下三步,具體流程如圖2-7所示:??RDD?Objects?DAGScheduler?TaskScheduler?Worker??DAG?-laskSct;?manager?)??:..?一.......丨一??/?\? ̄? ̄??rddl?.join(rdd2)??groupBy(?)?split?graph?into?launch?tasks?via?execute?tasks??q?stages?of?tasks?cluster?manager??submit?each?retry?failed?or?store?and?serve??stage?as?ready?straggling?tasks?blocks??agnostic?to?stage?doesn't?know??operators!?failed?about?stages??圖2-7?RDD在Spark中的運(yùn)行流程??(1)創(chuàng)建RDD是Spark處理數(shù)據(jù)時(shí)的第一步。RDD的創(chuàng)建方式主要有通過Scala??并行化集合創(chuàng)建、從內(nèi)存中直接構(gòu)造和從HDFS等分布
本文編號:3403825
【文章來源】:東北林業(yè)大學(xué)黑龍江省 211工程院校 教育部直屬院校
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2-4?yam-cluster運(yùn)行模式??yam-client?模式和?yam-cluster?差別不大,yam-client?的?Driver?運(yùn)行在?Client?上
以使用Spark來驗(yàn)證并解決問題。??(5)通用性強(qiáng)??面對多元化、多形式的海量數(shù)據(jù),Spark提供了可以用于文件批處理、交互式查詢??(Spark?SQL)?_、實(shí)時(shí)流處理(Spark?Streaming_)、機(jī)器學(xué)習(xí)(Spark?MLlib)和圖計(jì)??算(SparkGraphX^)的并行計(jì)算框架。??2.2.2?Spark的生態(tài)系統(tǒng)??Spark?SQL、Spark?Streaming、Spark?MLlib?和?Spark?GraphX?組成了?Spark?的生態(tài)系??統(tǒng),如圖2-5所示。AMP?Lab將此生態(tài)系統(tǒng)命名為大數(shù)據(jù)分析堆棧。簡稱為BDAS。??I?!??c?,?MLlib???,?v??Spark?SQL?^ar.?(machine?,?叩?i、??Stream,n§?lcammg)?化_)??Apache?Spark??l?'?...?.....????:......I??f?本地?)?獨(dú)立?i?j??運(yùn)&模式運(yùn)行£式Ee2?MesGS?YARN??圖2-5?Spark的生態(tài)系統(tǒng)??-12-??
D或者RDD的擴(kuò)展來完成相應(yīng)的運(yùn)算的。在Spark中數(shù)據(jù)處??理的關(guān)鍵點(diǎn)就是如何將數(shù)據(jù)轉(zhuǎn)化為RDD。從邏輯上來看,RDD中的每一個(gè)分區(qū)也對應(yīng)??著一個(gè)相應(yīng)的block。RDD的具體操作分為轉(zhuǎn)化(Transformation)操作和行動(Action)??兩種。在進(jìn)行轉(zhuǎn)化的過程中,就是由一個(gè)RDD經(jīng)過執(zhí)行生成一個(gè)新的RDD。但是??RDD由于惰性,并不會真的被執(zhí)行,只有當(dāng)RDD執(zhí)行Action操作的時(shí)候,才會觸發(fā)并??執(zhí)行。??RDD在Spark中的運(yùn)行流程主要分為以下三步,具體流程如圖2-7所示:??RDD?Objects?DAGScheduler?TaskScheduler?Worker??DAG?-laskSct;?manager?)??:..?一.......丨一??/?\? ̄? ̄??rddl?.join(rdd2)??groupBy(?)?split?graph?into?launch?tasks?via?execute?tasks??q?stages?of?tasks?cluster?manager??submit?each?retry?failed?or?store?and?serve??stage?as?ready?straggling?tasks?blocks??agnostic?to?stage?doesn't?know??operators!?failed?about?stages??圖2-7?RDD在Spark中的運(yùn)行流程??(1)創(chuàng)建RDD是Spark處理數(shù)據(jù)時(shí)的第一步。RDD的創(chuàng)建方式主要有通過Scala??并行化集合創(chuàng)建、從內(nèi)存中直接構(gòu)造和從HDFS等分布
本文編號:3403825
本文鏈接:http://www.sikaile.net/nykjlw/lylw/3403825.html
最近更新
教材專著