天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

提高任務(wù)并行度以優(yōu)化MapReduce集群資源的利用

發(fā)布時(shí)間:2017-05-26 16:03

  本文關(guān)鍵詞:提高任務(wù)并行度以優(yōu)化MapReduce集群資源的利用,由筆耕文化傳播整理發(fā)布。


【摘要】:作為一種編程模型,MapReduce已經(jīng)成為處理大規(guī)模數(shù)據(jù)處理問(wèn)題的一個(gè)重要手段。目前,MapReduce已被廣泛地應(yīng)用于Web搜索,機(jī)器學(xué)習(xí),電子商務(wù)等領(lǐng)域。Hadoop,作為MapReduce的一種開(kāi)源實(shí)現(xiàn),已經(jīng)被廣泛地用到離線大數(shù)據(jù)處理。目前因?yàn)閷?duì)處理海量數(shù)據(jù)的要求持續(xù)增長(zhǎng),Hadoop集群的規(guī)模也變的越來(lái)越大。為了管理大規(guī)模集群,人們?cè)噲D去提高集群的效率水平,用更強(qiáng)大的計(jì)算節(jié)點(diǎn)和水平擴(kuò)展去構(gòu)建的集群。這時(shí)高效地利用集群資源將變得更有挑戰(zhàn)性。在研究Hadoop的過(guò)程中,發(fā)現(xiàn)在Hadoop的數(shù)據(jù)處理的并行粒度是比較大的,同時(shí)它不能充分利用多核系統(tǒng)的優(yōu)勢(shì)。這些問(wèn)題會(huì)降低整個(gè)集群資源利用率和集群效率。為此,本文提出一種更加細(xì)粒度的數(shù)據(jù)處理策略,在增加系統(tǒng)負(fù)擔(dān)的情況下,對(duì)HDFS的數(shù)據(jù)塊進(jìn)一步地進(jìn)行分片,同時(shí),在MapReduce的任務(wù)下產(chǎn)生多線程,充分利用多核系統(tǒng),進(jìn)一步地進(jìn)行以提高任務(wù)執(zhí)行的并行度,從而優(yōu)化集群資源利用率和提升作業(yè)執(zhí)行的速度。我們把這個(gè)策略作為一個(gè)功能模塊實(shí)現(xiàn)在開(kāi)源項(xiàng)目Hadoop上,并且這個(gè)的實(shí)現(xiàn)并不會(huì)影響Hadoop原來(lái)的執(zhí)行策略。為了驗(yàn)證本文提出的這個(gè)策略,我們?cè)诖罱薍adoop集群,并做了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示本文提出的策略不僅能優(yōu)化MapReduce集群的資源利用率,還能縮短作業(yè)的完成時(shí)間至三倍。
【關(guān)鍵詞】:MapReduce 并行度 資源利用率 多核 子任務(wù)
【學(xué)位授予單位】:上海交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類(lèi)號(hào)】:TP311.13
【目錄】:
  • 摘要3-4
  • ABSTRACT4-9
  • 第一章 緒論9-14
  • 1.1 研究背景及意義9-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-12
  • 1.3 主要研究?jī)?nèi)容12-13
  • 1.4 論文結(jié)構(gòu)13-14
  • 第二章 本文相關(guān)技術(shù)介紹14-31
  • 2.1 MapReduce編程模型14
  • 2.2 Hadoop分布式文件系統(tǒng)14-20
  • 2.2.1 數(shù)據(jù)塊15-16
  • 2.2.2 名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)16-17
  • 2.2.3 HDFS的數(shù)據(jù)讀寫(xiě)操作17-20
  • 2.3 Hadoop MapReduce介紹20-25
  • 2.3.1 Hadoop MapReduce作業(yè)的生命周期22-23
  • 2.3.2 Map和Reduce任務(wù)23-25
  • 2.4 Hadoop RPC框架介紹25-30
  • 2.4.1 Hadoop RPC基本框架26-29
  • 2.4.2 基于RPC的MapReduce通信協(xié)議介紹29-30
  • 2.5 本章小結(jié)30-31
  • 第三章 細(xì)粒度任務(wù)并行策略的設(shè)計(jì)31-37
  • 3.1 概要31
  • 3.2 子數(shù)據(jù)塊的設(shè)計(jì)31-33
  • 3.3 MapReduce任務(wù)的設(shè)計(jì)33-36
  • 3.3.1 概要33-34
  • 3.3.2 Map子任務(wù)的設(shè)計(jì)34-35
  • 3.3.3 Reduce子任務(wù)的設(shè)計(jì)35
  • 3.3.4 備份任務(wù)的設(shè)計(jì)35-36
  • 3.4 Pre-shuffle的設(shè)計(jì)36
  • 3.5 本章小結(jié)36-37
  • 第四章 細(xì)粒度任務(wù)并行策略的實(shí)現(xiàn)37-61
  • 4.1 子數(shù)據(jù)塊的實(shí)現(xiàn)37-46
  • 4.1.1 概述37-38
  • 4.1.2 流式接口的實(shí)現(xiàn)38-41
  • 4.1.3 子數(shù)據(jù)塊的讀操作實(shí)現(xiàn)41-43
  • 4.1.4 子數(shù)據(jù)塊的寫(xiě)操作實(shí)現(xiàn)43-46
  • 4.2 子任務(wù)的實(shí)現(xiàn)46-55
  • 4.2.1 Map子任務(wù)的實(shí)現(xiàn)47-53
  • 4.2.2 Reduce子任務(wù)的實(shí)現(xiàn)53-55
  • 4.3 Pre-shuffle的實(shí)現(xiàn)55-60
  • 4.4 本章小結(jié)60-61
  • 第五章 細(xì)粒度任務(wù)并行策略的實(shí)驗(yàn)評(píng)估61-71
  • 5.1 實(shí)驗(yàn)環(huán)境的搭建61-62
  • 5.2 擴(kuò)展性的實(shí)驗(yàn)評(píng)估62-64
  • 5.3 在不同CPU個(gè)數(shù)下的性能實(shí)驗(yàn)評(píng)估64-66
  • 5.4 資源利用率的實(shí)驗(yàn)評(píng)估66-70
  • 5.5 Pre-shuffle的實(shí)驗(yàn)評(píng)估70
  • 5.6 本章小結(jié)70-71
  • 參考文獻(xiàn)71-75
  • 致謝75-76
  • 攻讀碩士學(xué)位期間已發(fā)表或錄用的論文76-78

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 林偉偉;;一種改進(jìn)的Hadoop數(shù)據(jù)放置策略[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2012年01期


  本文關(guān)鍵詞:提高任務(wù)并行度以優(yōu)化MapReduce集群資源的利用,由筆耕文化傳播整理發(fā)布。



本文編號(hào):397320

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/397320.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶fb5b5***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com