Spark數(shù)據(jù)處理平臺中資源動態(tài)分配技術(shù)研究
發(fā)布時間:2017-10-03 18:13
本文關(guān)鍵詞:Spark數(shù)據(jù)處理平臺中資源動態(tài)分配技術(shù)研究
更多相關(guān)文章: 大數(shù)據(jù) Spark 資源動態(tài)分配 蟻群算法 分布式內(nèi)存計算
【摘要】:Spark海量數(shù)據(jù)處理平臺是大數(shù)據(jù)處理領(lǐng)域的最新技術(shù)進展,該平臺提出新的數(shù)據(jù)表達模型RDD,引入內(nèi)存計算引擎與數(shù)據(jù)復(fù)用技術(shù),通過基于內(nèi)存的RDD數(shù)據(jù)存儲與處理,提升海量數(shù)據(jù)處理應(yīng)用的執(zhí)行效率。既有Spark平臺采用粗粒度資源動態(tài)分配技術(shù),僅針對CPU資源進行資源動態(tài)分配,且缺乏任務(wù)容器級的資源調(diào)整方法,無法在任務(wù)資源需求非對稱性場景下進行精細化資源動態(tài)分配。針對上述問題,本文提出面向Spark平臺的CPU與內(nèi)存資源協(xié)同動態(tài)分配技術(shù)。該技術(shù)的核心思想是以任務(wù)執(zhí)行器為粒度,根據(jù)任務(wù)執(zhí)行器中任務(wù)的CPU及內(nèi)存資源的使用特征,動態(tài)調(diào)整任務(wù)執(zhí)行器的CPU和內(nèi)存資源分配量,并通過多任務(wù)執(zhí)行器間資源的組合優(yōu)化調(diào)度,充分利用Spark平臺的CPU與內(nèi)存資源,提升平臺的應(yīng)用吞吐率。本文的主要貢獻包括:1)任務(wù)執(zhí)行器資源使用均衡-飽和度定義。資源使用均衡-飽和度是對任務(wù)執(zhí)行器資源使用效率的量化評價指標,是進行資源分配的基礎(chǔ)依據(jù)。資源使用均衡-飽和度綜合刻畫了任務(wù)執(zhí)行器的CPU和內(nèi)存資源的利用率以及這兩類資源利用率的差距。在Spark平臺中,較高的資源使用均衡-飽和度表征任務(wù)執(zhí)行器同時具有較好的CPU和內(nèi)存資源利用效率。2)基于任務(wù)執(zhí)行器資源使用均衡-飽和度評估的資源動態(tài)調(diào)整決策模型。根據(jù)資源使用均衡-飽和度定義了任務(wù)執(zhí)行器資源動態(tài)調(diào)整觸發(fā)條件。資源動態(tài)決策模型針對具有資源動態(tài)調(diào)整需求的任務(wù)執(zhí)行器,設(shè)計三級資源調(diào)整策略,分別通過改變?nèi)蝿?wù)并行度、改變?nèi)蝿?wù)CPU資源需求量、重分配任務(wù)執(zhí)行器資源來實現(xiàn)資源的動態(tài)調(diào)整,減少資源碎片產(chǎn)生。3)基于蟻群算法的任務(wù)執(zhí)行器資源動態(tài)分配方法。資源動態(tài)方法是對任務(wù)執(zhí)行器資源需求與平臺可用資源進行組合分配,以實現(xiàn)平臺資源最大化利用。任務(wù)執(zhí)行器資源動態(tài)分配中,存在任務(wù)執(zhí)行器追加CPU資源需求、重啟任務(wù)執(zhí)行器和新增任務(wù)執(zhí)行器三種資源需求。用任務(wù)執(zhí)行器在節(jié)點上的資源收益定義蟻群算法中的路徑,將資源組合分配問題映射成蟻群算法的收益函數(shù);谙伻核惴▽崿F(xiàn)的任務(wù)執(zhí)行器資源動態(tài)分配方法,能夠識別三種不同資源請求,并通過CPU與內(nèi)存資源協(xié)同調(diào)度,實現(xiàn)資源最大化分配。4)綜合本文的研究成果,基于Spark平臺既有資源分配框架Mesos,實現(xiàn)了基于任務(wù)執(zhí)行器資源使用均衡-飽和度評估的資源動態(tài)分配原型系統(tǒng)DRSpark。DRSpark整合了上述資源使用均衡-飽和度評估與資源動態(tài)分配的相關(guān)技術(shù)。5)對DRSpark進行了性能分析,性能分析結(jié)果表明,與Standalone模式、YARN模式以及Mesos模式相比,平臺任務(wù)吞吐率最大提高了71.14%,平均提升了32.48%;應(yīng)用平均周轉(zhuǎn)時間最大縮短了37.64%,平均縮短了23.71%。
【關(guān)鍵詞】:大數(shù)據(jù) Spark 資源動態(tài)分配 蟻群算法 分布式內(nèi)存計算
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-6
- Abstract6-11
- 第1章 緒論11-17
- 1.1 研究背景11-13
- 1.1.1 大數(shù)據(jù)處理技術(shù)發(fā)展背景11-12
- 1.1.2 Spark數(shù)據(jù)處理平臺12-13
- 1.2 Spark平臺中既有資源分配方式及不足13-15
- 1.2.1 目前Spark平臺資源分配方式13-14
- 1.2.2 目前Spark平臺資源分配方式存在的不足14-15
- 1.3 本文的主要貢獻15-16
- 1.4 本文的組織結(jié)構(gòu)16
- 1.5 本章小結(jié)16-17
- 第2章 相關(guān)工作17-25
- 2.1 海量數(shù)據(jù)處理平臺發(fā)展概述17-18
- 2.1.1 海量數(shù)據(jù)處理應(yīng)用新特征17
- 2.1.2 新型海量數(shù)據(jù)處理平臺發(fā)展歷程17-18
- 2.2 Spark平臺概述18-20
- 2.2.1 Spark平臺架構(gòu)18
- 2.2.2 Spark并行計算模型18-19
- 2.2.3 Spark運行時環(huán)境19
- 2.2.4 Spark平臺作業(yè)調(diào)度19-20
- 2.3 資源管理系統(tǒng)20-21
- 2.3.1 YARN平臺20
- 2.3.2 Mesos平臺20-21
- 2.4 資源管理相關(guān)研究工作21-24
- 2.4.1 資源分配技術(shù)相關(guān)研究21-22
- 2.4.2 資源調(diào)度算法相關(guān)研究22-24
- 2.5 本章小結(jié)24-25
- 第3章 任務(wù)執(zhí)行器資源動態(tài)調(diào)整決策模型25-35
- 3.1 任務(wù)執(zhí)行器資源使用特征分析25-27
- 3.1.1 單任務(wù)資源使用特征分析25-26
- 3.1.2 任務(wù)對資源累積使用特征分析26-27
- 3.2 任務(wù)執(zhí)行器資源使用均衡-飽和度定義27-29
- 3.3 任務(wù)執(zhí)行器資源動態(tài)調(diào)整決策模型29-33
- 3.3.1 主要設(shè)計思想及核心定義29-30
- 3.3.2 任務(wù)執(zhí)行器資源動態(tài)調(diào)整決策算法30-33
- 3.4 本章小結(jié)33-35
- 第4章 任務(wù)執(zhí)行器資源組合分配策略35-43
- 4.1 多任務(wù)執(zhí)行器資源組合調(diào)度策略的設(shè)計目標35-38
- 4.1.1 問題描述35-37
- 4.1.2 目標函數(shù)的建立37-38
- 4.2 基于蟻群算法的多任務(wù)執(zhí)行器資源動態(tài)分配策略設(shè)計38-42
- 4.2.1 核心定義與約束條件38-40
- 4.2.2 基于蟻群算法的多任務(wù)執(zhí)行器資源動態(tài)分配策略40-41
- 4.2.3 時間復(fù)雜度分析41-42
- 4.3 本章小結(jié)42-43
- 第5章 任務(wù)執(zhí)行器資源動態(tài)分配原型系統(tǒng)實現(xiàn)43-53
- 5.1 DRSpark系統(tǒng)總體框架43-45
- 5.2 基于任務(wù)執(zhí)行器資源動態(tài)分配方法元數(shù)據(jù)組織模型45-47
- 5.2.1 平臺資源數(shù)據(jù)組織模型45-46
- 5.2.2 平臺資源請求數(shù)據(jù)組織模型46
- 5.2.3 Spark平臺任務(wù)執(zhí)行器數(shù)據(jù)組織模型46-47
- 5.3 基于蟻群算法的任務(wù)執(zhí)行器資源動態(tài)分配技術(shù)實現(xiàn)47-51
- 5.3.1 任務(wù)執(zhí)行器資源動態(tài)調(diào)整決策功能實現(xiàn)47-49
- 5.3.2 任務(wù)執(zhí)行器資源動態(tài)分配技術(shù)的功能能實現(xiàn)49-51
- 5.4 本章小結(jié)51-53
- 第6章 性能測試與分析53-75
- 6.1 測試負載53-56
- 6.1.1 Spark平臺多應(yīng)用混合負載現(xiàn)狀53
- 6.1.2 測試負載與數(shù)據(jù)集選取53-54
- 6.1.3 負載混合比例54-55
- 6.1.4 負載分發(fā)原則55
- 6.1.5 混合負載構(gòu)造結(jié)果55-56
- 6.2 性能評價指標56-58
- 6.2.1 任務(wù)吞吐率56
- 6.2.2 應(yīng)用平均周轉(zhuǎn)時間56
- 6.2.3 節(jié)點平均CPU利用率56
- 6.2.4 節(jié)點平均內(nèi)存利用率56-57
- 6.2.5 任務(wù)吞吐率提升比重57
- 6.2.6 應(yīng)用平均周轉(zhuǎn)時間提升比重57
- 6.2.7 節(jié)點平均CPU利用率提升比重57-58
- 6.2.8 節(jié)點平均內(nèi)存利用率提升比重58
- 6.3 測試結(jié)果與分析58-73
- 6.3.1 測試環(huán)境58
- 6.3.2 系統(tǒng)性能測試與分析58-68
- 6.3.3 DRSpark系統(tǒng)可變參數(shù)測試與性能分析68-73
- 6.4 本章小結(jié)73-75
- 結(jié)論75-77
- 參考文獻77-81
- 攻讀碩士學(xué)位期間所發(fā)表的學(xué)術(shù)論文81-83
- 致謝83
本文編號:965959
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/965959.html
最近更新
教材專著