天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 計(jì)算機(jī)論文 >

Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化

發(fā)布時(shí)間:2018-01-06 08:35

  本文關(guān)鍵詞:Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化 出處:《浙江大學(xué)》2016年碩士論文 論文類型:學(xué)位論文


  更多相關(guān)文章: Spark Shuffle Spill-based 內(nèi)存調(diào)度 溢出歷史


【摘要】:隨著分布式計(jì)算框架的不斷發(fā)展和普及,Spark以其先進(jìn)的設(shè)計(jì)理念,迅速成為開源社區(qū)的熱門研究項(xiàng)目。對(duì)于大數(shù)據(jù)計(jì)算框架而言,Shuffle過程的設(shè)計(jì)優(yōu)劣和性能高低直接影響著整個(gè)系統(tǒng)的性能和吞吐量。本文研究的主要內(nèi)容為Spark Shuffle過程中不同Task司內(nèi)存分配算法的分析與優(yōu)化。在分析已有Shuffle優(yōu)化算法的基礎(chǔ)上,發(fā)現(xiàn)因各Task對(duì)內(nèi)存需求不均衡而造成Shuffle運(yùn)行效率低的瓶頸。針對(duì)公平分配內(nèi)存調(diào)度算法的不足,提出了一種基于溢出歷史的自適應(yīng)內(nèi)存調(diào)度算法,并通過典型實(shí)驗(yàn)證明本文算法能有效提高內(nèi)存利用率和程序運(yùn)行效率,提高Spark系統(tǒng)的整體運(yùn)行性能。本文的主要貢獻(xiàn)包括:1) 闡述了分布式計(jì)算的主流框架MapReduce,包括MapReduce的編程模型、現(xiàn)狀和不足。通過介紹Spark的設(shè)計(jì)理念分析了Spark對(duì)MapReduce模型的改進(jìn),比較了兩者的優(yōu)缺點(diǎn)。2)研究了Spark Shuffle的概念、發(fā)展及優(yōu)化過程,通過閱讀分析Spark Shuffle的源碼研究Shuffle內(nèi)存調(diào)度的思想,指出了公平分配算法存在的不足。3) 提出了基于溢出歷史的自適應(yīng)內(nèi)存調(diào)度算法SBSA,解決Spark Shuffle公平分配內(nèi)存調(diào)度算法影響Shuffle運(yùn)行效率的問題。本算法詳細(xì)設(shè)計(jì)了空閑內(nèi)存的計(jì)算方式、關(guān)鍵Task可從空閑內(nèi)存借用的內(nèi)存比例以及Task可用內(nèi)存的最大閾值。4) 通過典型實(shí)驗(yàn)比較了SBSA算法與先來先服務(wù)算法、公平分配調(diào)度算法的性能差異,實(shí)驗(yàn)結(jié)果證明本算法可以大大提高數(shù)據(jù)分布不均勻的應(yīng)用程序的執(zhí)行效率。從綜合表現(xiàn)來看,本算法能充分利用空閑內(nèi)存資源,提高資源利用效率,在一定程度上緩解目前內(nèi)存資源不足的問題。
[Abstract]:With the development of distributed computing framework and the popularity of Spark with its advanced design concept, it has become a hot research project in open source community. The design quality and performance of Shuffle process directly affect the performance and throughput of the whole system. The main content of this paper is Spark. Analysis and optimization of memory allocation algorithms for different Task divisions in Shuffle process. Based on the analysis of existing Shuffle optimization algorithms. It is found that the low efficiency of Shuffle is caused by the imbalance of memory demand in each Task, and the lack of fair allocation memory scheduling algorithm. An adaptive memory scheduling algorithm based on overflow history is proposed, and it is proved by typical experiments that the proposed algorithm can effectively improve memory utilization and program efficiency. The main contributions of this paper include: 1) the main framework of distributed computing, MapReduce, including the programming model of MapReduce. By introducing the design concept of Spark, the improvement of MapReduce model by Spark is analyzed. The concept, development and optimization process of Spark Shuffle are studied. Through reading and analyzing the source code of Spark Shuffle, the idea of Shuffle memory scheduling is studied. The deficiency of fair allocation algorithm. 3) the adaptive memory scheduling algorithm (SBSA) based on overflow history is proposed. To solve the problem that Spark Shuffle fair allocation memory scheduling algorithm affects the efficiency of Shuffle, this algorithm designs the calculation method of free memory in detail. The ratio of key Task memory that can be borrowed from free memory and the maximum threshold value of Task available memory. 4) A comparison between SBSA algorithm and first come first served algorithm is made through typical experiments. The performance of fair allocation scheduling algorithm is different, experimental results show that the algorithm can greatly improve the performance of applications with uneven data distribution. From the comprehensive performance, the algorithm can make full use of free memory resources. Improve the efficiency of resource utilization, to some extent alleviate the problem of insufficient memory resources.
【學(xué)位授予單位】:浙江大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP333

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 肖濟(jì)楷;386/486微機(jī)在系統(tǒng)優(yōu)化中的內(nèi)存處理技術(shù)[J];武漢鋼鐵學(xué)院學(xué)報(bào);1995年02期

2 張浩,葉念渝;C++中小對(duì)象內(nèi)存分配的優(yōu)化與封裝[J];兵工自動(dòng)化;2004年01期

3 周賓;章勇;;嵌入式Web訪問時(shí)的內(nèi)存丟失問題[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2009年10期

4 邵剛;使自己的應(yīng)用程序有“用不完”的內(nèi)存(二)[J];電子與電腦;1996年02期

5 盧春鵬;一種嵌入式系統(tǒng)的內(nèi)存分配方案[J];單片機(jī)與嵌入式系統(tǒng)應(yīng)用;2002年12期

6 趙素萍;控制C++的內(nèi)存分配[J];長(zhǎng)春師范學(xué)院學(xué)報(bào);2005年09期

7 錢曉明;小塊內(nèi)存分配器設(shè)計(jì)與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2005年02期

8 王明路;王希敏;王哲;;嵌入式系統(tǒng)中池式內(nèi)存分配方法的分析[J];計(jì)算機(jī)與數(shù)字工程;2008年02期

9 靳廣斌,曹煥林;內(nèi)存的利用和優(yōu)化以及系統(tǒng)的典型配置[J];電力學(xué)報(bào);1995年03期

10 宋立波;為計(jì)算機(jī)640K基本內(nèi)存創(chuàng)建一個(gè)理想的駕馭工具[J];電腦編程技巧與維護(hù);1995年11期

相關(guān)重要報(bào)紙文章 前4條

1 上海 高博;奔向64位[N];電腦報(bào);2004年

2 上海 夏翔;改善SQL Server內(nèi)存管理[N];電腦報(bào);2004年

3 小新;?崎T診Photoshop?芠N];中國(guó)電腦教育報(bào);2003年

4 ;AdobePhotoshop常見問題之專家會(huì)診[N];江蘇經(jīng)濟(jì)報(bào);2003年

相關(guān)碩士學(xué)位論文 前5條

1 陳英芝;Spark Shuffle的內(nèi)存調(diào)度算法分析及優(yōu)化[D];浙江大學(xué);2016年

2 陳靜怡;云環(huán)境下基于內(nèi)存共享的服務(wù)器整合算法研究[D];復(fù)旦大學(xué);2012年

3 韓志剛;一個(gè)內(nèi)存分配器的設(shè)計(jì)和實(shí)現(xiàn)[D];東北大學(xué);2008年

4 陳春環(huán);基于異構(gòu)雙核雙路視頻數(shù)據(jù)處理平臺(tái)的設(shè)計(jì)與研究[D];北京郵電大學(xué);2015年

5 陳寶羅;數(shù)字相框設(shè)計(jì)與實(shí)現(xiàn)[D];西南交通大學(xué);2009年

,

本文編號(hào):1387123

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/1387123.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶45387***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com