MapReduce模型下數(shù)據(jù)本地性負(fù)載平衡策略研究
本文選題:云計算 切入點:MapReduce 出處:《大連海事大學(xué)》2014年碩士論文
【摘要】:隨著社會的發(fā)展,互聯(lián)網(wǎng)中的數(shù)據(jù)信息處于爆炸式的增長狀態(tài),每天互聯(lián)網(wǎng)中都會產(chǎn)生海量的數(shù)據(jù)?梢韵胂,以后人們所面臨的數(shù)據(jù)規(guī)模會越來越巨大。從這些巨大的數(shù)據(jù)中如何能夠快速高效地尋找到有價值的數(shù)據(jù)資源變得越來越重要。正是在這樣的背景下,云計算這個新型的數(shù)據(jù)處理技術(shù)正在快速的發(fā)展。 MapReduce是云計算技術(shù)中的一種并行處理大規(guī)模數(shù)據(jù)的處理模型,它具有簡單易用、高可擴展性和高容錯性的特點,因此被廣泛應(yīng)用于云計算領(lǐng)域。Hadoop平臺是MapReduce編程模型一個具體的應(yīng)用,目前許多公司和高校都采用它開發(fā)和研究云計算技術(shù)。然而,它的一些處理機制影響著它性能的發(fā)揮。當(dāng)面對傾斜數(shù)據(jù)時,原有的分區(qū)算法無法均衡的分配數(shù)據(jù)到各處理節(jié)點,這樣就導(dǎo)致了處理節(jié)點間負(fù)載不平衡,并且造成網(wǎng)路負(fù)載加重,從而導(dǎo)致集群性能的降低。 本文所提出的方法針對MapReduce作業(yè)過程中的Partition部分的分區(qū)算法進(jìn)行調(diào)整和優(yōu)化,設(shè)計實現(xiàn)了一個基于數(shù)據(jù)本地性的負(fù)載均衡策略(DALP)。通過合理的抽樣,對作業(yè)數(shù)據(jù)進(jìn)行預(yù)處理,分析出數(shù)據(jù)中各key的頻數(shù)分布情況,然后利用分析的數(shù)據(jù)制定一個數(shù)據(jù)聚合策略(DA),該策略考慮了key的數(shù)據(jù)大小,可以更加合理地為各Reduce節(jié)點分配數(shù)據(jù),能有效地緩解集群節(jié)點的負(fù)載不平衡問題,提高了集群整體性能。此外,針對集群中網(wǎng)絡(luò)帶寬制約集群性能的問題,結(jié)合對平臺數(shù)據(jù)本地性的深入研究,又提出了一個基于數(shù)據(jù)本地性的數(shù)據(jù)分配策略(LP),在數(shù)據(jù)聚合的基礎(chǔ)上利用本地性數(shù)據(jù)分配方法,能夠有效減少集群間數(shù)據(jù)流動情況,減少網(wǎng)絡(luò)負(fù)載。本文所提出的方法通過實驗得到了充分驗證,數(shù)據(jù)傾斜時的負(fù)載問題得到了有效地改善。
[Abstract]:With the development of the society, the data information in the Internet is in the explosive growth state, every day in the Internet will produce a huge amount of data.One can imagine that the scale of data people will face in the future will grow larger and larger.How to find valuable data resources quickly and efficiently from these huge data becomes more and more important.It is against this background that cloud computing, a new data processing technology, is developing rapidly.MapReduce is a parallel processing model for large-scale data processing in cloud computing technology. It has the characteristics of easy to use, high scalability and high fault tolerance.Therefore, it is widely used in cloud computing. Hadoop platform is a concrete application of MapReduce programming model. At present, many companies and universities use it to develop and research cloud computing technology.However, some of its processing mechanisms affect its performance.When the data is tilted, the original partition algorithm can not distribute the data to each processing node evenly, which leads to the imbalance of the load between the processing nodes and the increase of the network load, which leads to the degradation of the performance of the cluster.The method proposed in this paper adjusts and optimizes the partition algorithm of Partition in the process of MapReduce operation, and designs and implements a load balancing strategy based on data nativeness.Through reasonable sampling, preprocessing the job data, analyzing the frequency distribution of each key in the data, then using the analyzed data to make a data aggregation strategy, this strategy considers the data size of key.The data can be allocated to each Reduce node more reasonably, which can effectively alleviate the load imbalance of cluster nodes and improve the overall performance of the cluster.In addition, aiming at the problem that the network bandwidth restricts the performance of the cluster, combined with the in-depth research on the platform data localization,Furthermore, a data allocation strategy based on data locality is proposed. Based on data aggregation, using local data allocation method can effectively reduce data flow among clusters and reduce network load.The proposed method is fully verified by experiments, and the load problem when the data is tilted is improved effectively.
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP393.09
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 劉小沙,代玉平,葉理德;煉鋼化驗數(shù)據(jù)傳送、管理及自動顯示系統(tǒng)[J];冶金自動化;1998年02期
2 閻英;無線數(shù)據(jù)傳送的位同步問題[J];鐵道機車車輛;1994年03期
3 曹濱;醫(yī)療衛(wèi)生統(tǒng)計信息數(shù)據(jù)傳送方案[J];中華醫(yī)學(xué)信息導(dǎo)報;1999年17期
4 楊軍;張德運;;預(yù)測修正下的動態(tài)數(shù)據(jù)傳送機制[J];西安交通大學(xué)學(xué)報;2008年06期
5 張曉鳴;;GPRS局?jǐn)?shù)據(jù)自動核查系統(tǒng)的設(shè)計與研制[J];電信工程技術(shù)與標(biāo)準(zhǔn)化;2009年08期
6 譚偉基;;Websense數(shù)據(jù)泄漏防護(hù)解決方案——從優(yōu)化管理到積極防御[J];金融科技時代;2013年11期
7 宋宏達(dá);;如何使用GR47在GPRS網(wǎng)絡(luò)上傳輸數(shù)據(jù)[J];移動通信;2005年12期
8 黃布毅;王俊;胡智宏;崔光照;;基于非均勻分蔟無線傳感器網(wǎng)絡(luò)自適應(yīng)數(shù)據(jù)傳送機制的研究[J];計算機測量與控制;2010年02期
9 嚴(yán)云升;T型列車通信網(wǎng)絡(luò)的偶發(fā)性數(shù)據(jù)傳送[J];機車電傳動;2004年03期
10 左莉華;;高級在軌系統(tǒng)(AOS)數(shù)據(jù)傳送與分路方式簡介[J];遙測遙控;1993年03期
相關(guān)會議論文 前5條
1 李露文;劉吉雯;劉兆元;;LTE數(shù)據(jù)傳送能力分析[A];2012全國無線及移動通信學(xué)術(shù)大會論文集(上)[C];2012年
2 李昆侖;陳敏;何云霞;周宏杰;;話務(wù)數(shù)據(jù)自動監(jiān)測分析系統(tǒng)的開發(fā)與應(yīng)用[A];中國通信學(xué)會信息通信網(wǎng)絡(luò)技術(shù)委員會2009年年會論文集(上冊)[C];2009年
3 言詡;張軍;;稱重儀數(shù)據(jù)的遠(yuǎn)程串行采集[A];第七屆工業(yè)儀表與自動化學(xué)術(shù)會議論文集[C];2006年
4 黃華山;陳窕莉;;基于GSM網(wǎng)絡(luò)的通用無線數(shù)據(jù)接口[A];2006北京地區(qū)高校研究生學(xué)術(shù)交流會——通信與信息技術(shù)會議論文集(上)[C];2006年
5 劉澤全;;漫話數(shù)據(jù)通信及其廣闊前景[A];四川省通信學(xué)會一九九三年學(xué)術(shù)年會論文集[C];1993年
相關(guān)重要報紙文章 前7條
1 高毅夫 中國石油勘探開發(fā)研究院 葉銘 克拉瑪依紅有軟件公司北京分公司 胡靜 中國石油集團(tuán)東方地球物理公司信息技術(shù)中心;打通油田物聯(lián)網(wǎng)[N];計算機世界;2012年
2 大唐電信行業(yè)應(yīng)用事業(yè)部IT服務(wù)業(yè)務(wù)群 游翔 馮唯亮;GoldenGate災(zāi)備系統(tǒng)運用探討[N];中國計算機報;2011年
3 特派記者 陸振華;監(jiān)聽丑聞影響TTIP談判 歐盟意圖推進(jìn)數(shù)據(jù)新立法[N];21世紀(jì)經(jīng)濟(jì)報道;2013年
4 ;深入USB的核心[N];電腦報;2001年
5 山東 宋道海;摩托羅拉手機軟件傳輸維修卡的使用[N];電子報;2003年
6 秦瑞林;極度集成[N];計算機世界;2002年
7 安捷倫科技有限公司 岳勇 吳雪波;安捷倫:挑戰(zhàn)UMTS信令測試[N];通信產(chǎn)業(yè)報;2006年
相關(guān)博士學(xué)位論文 前1條
1 肖偉;無線傳感器網(wǎng)絡(luò)自適應(yīng)數(shù)據(jù)容錯關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 吳邁;無線數(shù)據(jù)可靠傳輸協(xié)議研究及應(yīng)用[D];合肥工業(yè)大學(xué);2010年
2 鐘菲;光纖通信中多路數(shù)據(jù)電平轉(zhuǎn)換及復(fù)用傳輸系統(tǒng)研究[D];吉林大學(xué);2008年
3 章昱梓;移動用戶重入網(wǎng)分析系統(tǒng)的分析與設(shè)計[D];北京郵電大學(xué);2011年
4 顧禮君;傳感網(wǎng)數(shù)據(jù)查詢處理技術(shù)研究[D];南京郵電大學(xué);2012年
5 張冬悅;物聯(lián)網(wǎng)中路由算法的實時性研究[D];遼寧大學(xué);2012年
6 曾剛;基于GPRS網(wǎng)絡(luò)的嵌入式系統(tǒng)設(shè)計[D];武漢理工大學(xué);2006年
7 集玉民;通過GSM短消息傳輸數(shù)據(jù)的水情測報系統(tǒng)設(shè)計方案[D];太原理工大學(xué);2003年
8 梁欽;一種基于ISDN的數(shù)據(jù)截獲分析技術(shù)[D];南京理工大學(xué);2003年
9 申力;基于GPRS的數(shù)據(jù)傳輸應(yīng)用[D];南京理工大學(xué);2004年
10 游鄭標(biāo);3G健康監(jiān)測平臺系統(tǒng)的研發(fā)[D];杭州電子科技大學(xué);2011年
,本文編號:1711896
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1711896.html