云計(jì)算中MapReduce性能優(yōu)化及應(yīng)用
發(fā)布時(shí)間:2020-08-15 11:18
【摘要】:自2007年以來(lái),云計(jì)算已經(jīng)逐漸成為國(guó)際IT界比較熱門(mén)的概念,隨著數(shù)據(jù)量的激增,如何快速高效地存儲(chǔ)和計(jì)算海量數(shù)據(jù)成為目前科學(xué)界迫切需要解決的問(wèn)題,而這類(lèi)問(wèn)題恰恰是云計(jì)算推出的動(dòng)力之一,使得云計(jì)算的普及和應(yīng)用已經(jīng)成為業(yè)界不可回避和逆轉(zhuǎn)的趨勢(shì)。但是就云計(jì)算本身說(shuō),它只是一種思維模式,要想真正發(fā)揮它的優(yōu)勢(shì),除了必要的硬件設(shè)施之外,更重要的是要有支撐和實(shí)現(xiàn)云計(jì)算思想的編程模型,而Google提出的MapReduce并行編程模型,以其簡(jiǎn)單有力的接口使得并行處理變得簡(jiǎn)單易行,為云計(jì)算中海量數(shù)據(jù)的計(jì)算提供了軟件支持。 本文詳細(xì)分析了Google MapReduce及其底層文件存儲(chǔ)系統(tǒng)GFS的概念、優(yōu)點(diǎn)和實(shí)現(xiàn)機(jī)制。然后針對(duì)MapReduce的執(zhí)行流程中對(duì)中間結(jié)果數(shù)據(jù)的處理機(jī)制不靈活,沒(méi)有在第一時(shí)間減少中間結(jié)果的數(shù)量的缺點(diǎn),在MapRedeuce的map函數(shù)中引入關(guān)聯(lián)數(shù)組,可以使中間結(jié)果的合并操作在Map函數(shù)中自動(dòng)進(jìn)行,更有效的減少中間結(jié)果的數(shù)量,降低網(wǎng)絡(luò)負(fù)擔(dān),從而提高系統(tǒng)的執(zhí)行效率。 本文在對(duì)MapReduce進(jìn)行改進(jìn)之后,設(shè)計(jì)和實(shí)現(xiàn)了基于MapRedeuce的文本分類(lèi)器。在文本處理和數(shù)據(jù)挖掘領(lǐng)域,海量數(shù)據(jù)的分類(lèi)問(wèn)題是經(jīng)常遇到的,然而傳統(tǒng)的算法只能適應(yīng)于小規(guī)模的數(shù)據(jù),隨著數(shù)據(jù)量的增大,算法的執(zhí)行速度越來(lái)越慢,實(shí)時(shí)性越來(lái)越差,成為傳統(tǒng)數(shù)據(jù)挖掘的瓶頸。這種新的分類(lèi)器構(gòu)建方法在集群中并行地實(shí)現(xiàn)分類(lèi)器的構(gòu)建,大大提高了效率,使得算法具有更好的實(shí)時(shí)性。 為了驗(yàn)證MapReduce改進(jìn)之后的性能,我們采用Mapreduce的開(kāi)源實(shí)現(xiàn)Hadoop來(lái)進(jìn)行實(shí)驗(yàn),以運(yùn)行時(shí)間作為衡量算法的標(biāo)準(zhǔn),結(jié)果證明新的算法的效率比傳統(tǒng)的算法要高的多。對(duì)于分類(lèi)器的實(shí)現(xiàn),我們也是在Hadoop平臺(tái)下進(jìn)行的,通過(guò)結(jié)果對(duì)比可知,基于MapReduce的分類(lèi)器的具有更好的效率和可擴(kuò)展性。
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類(lèi)號(hào)】:TP3
【圖文】:
2 云計(jì)算基礎(chǔ)理論算概念算(Cloud Computing)最初誕生于 2007 年第三季度,但是僅僅們對(duì)它關(guān)注的程度就遠(yuǎn)遠(yuǎn)超過(guò)了網(wǎng)格計(jì)算(Grid Computing),如對(duì)于云到底是什么東西,不同的廠家有不同的解釋?zhuān)軌蛘业胶苁侨收咭?jiàn)仁,智者見(jiàn)智,目前在 IT 界還沒(méi)有公認(rèn)的解釋。其中得個(gè)定義如下:算可以理解為一種新的商業(yè)計(jì)算模型。它將計(jì)算任務(wù)分布在由大構(gòu)成的大型資源池上,各類(lèi)用戶(hù)可以按需定制計(jì)算力、存儲(chǔ)空間
算的實(shí)現(xiàn)機(jī)制邊的介紹可知,云計(jì)算分為三種類(lèi)型:IaaS、PaaS 和 SaaS,一般的解決方案不同,因此目前還沒(méi)有一個(gè)公認(rèn)的、統(tǒng)一的技術(shù)體系大研究者深入的了解云計(jì)算的原理。在此,給大家介紹一種比較方案的、公認(rèn)度比較高的云計(jì)算體系結(jié)構(gòu)。具體的結(jié)構(gòu)如圖 2.3 較全面的概括目前幾種主流解決方案的主要特征。
云計(jì)算技術(shù)中的最關(guān)鍵部分就是管理中間件層和資源池層,而 SOA 構(gòu)層的功能大多依賴(lài)于外部設(shè)施。在此我們以云計(jì)算的IaaS為例簡(jiǎn)單介紹下云計(jì)算的實(shí)現(xiàn)機(jī)制,如圖2.4所示用戶(hù)交互接口通過(guò) Web Services 方式向應(yīng)用提供訪問(wèn)接口,從而獲取用戶(hù)求。用戶(hù)可以訪問(wèn)的服務(wù)以服務(wù)目錄的形式保存。系統(tǒng)管理模塊的核心任務(wù)是證系統(tǒng)的負(fù)載均衡,并負(fù)責(zé)分配和管理整個(gè)系統(tǒng)可用的資源。配置工具主要負(fù)給有任務(wù)的結(jié)點(diǎn)配置運(yùn)行環(huán)境。監(jiān)視統(tǒng)計(jì)模塊統(tǒng)計(jì)結(jié)點(diǎn)的使用狀態(tài)并監(jiān)視結(jié)點(diǎn)運(yùn)行狀態(tài)。整個(gè)執(zhí)行過(guò)程是:用戶(hù)通過(guò)用戶(hù)交互接口從目錄中選取一個(gè)服務(wù),發(fā)出調(diào)用請(qǐng)求。系統(tǒng)管理模塊收到該請(qǐng)求后,首先給用戶(hù)分配合適的資源,再過(guò)調(diào)用配置工具配置好用戶(hù)的運(yùn)行環(huán)境。
本文編號(hào):2794039
【學(xué)位授予單位】:重慶大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2011
【分類(lèi)號(hào)】:TP3
【圖文】:
2 云計(jì)算基礎(chǔ)理論算概念算(Cloud Computing)最初誕生于 2007 年第三季度,但是僅僅們對(duì)它關(guān)注的程度就遠(yuǎn)遠(yuǎn)超過(guò)了網(wǎng)格計(jì)算(Grid Computing),如對(duì)于云到底是什么東西,不同的廠家有不同的解釋?zhuān)軌蛘业胶苁侨收咭?jiàn)仁,智者見(jiàn)智,目前在 IT 界還沒(méi)有公認(rèn)的解釋。其中得個(gè)定義如下:算可以理解為一種新的商業(yè)計(jì)算模型。它將計(jì)算任務(wù)分布在由大構(gòu)成的大型資源池上,各類(lèi)用戶(hù)可以按需定制計(jì)算力、存儲(chǔ)空間
算的實(shí)現(xiàn)機(jī)制邊的介紹可知,云計(jì)算分為三種類(lèi)型:IaaS、PaaS 和 SaaS,一般的解決方案不同,因此目前還沒(méi)有一個(gè)公認(rèn)的、統(tǒng)一的技術(shù)體系大研究者深入的了解云計(jì)算的原理。在此,給大家介紹一種比較方案的、公認(rèn)度比較高的云計(jì)算體系結(jié)構(gòu)。具體的結(jié)構(gòu)如圖 2.3 較全面的概括目前幾種主流解決方案的主要特征。
云計(jì)算技術(shù)中的最關(guān)鍵部分就是管理中間件層和資源池層,而 SOA 構(gòu)層的功能大多依賴(lài)于外部設(shè)施。在此我們以云計(jì)算的IaaS為例簡(jiǎn)單介紹下云計(jì)算的實(shí)現(xiàn)機(jī)制,如圖2.4所示用戶(hù)交互接口通過(guò) Web Services 方式向應(yīng)用提供訪問(wèn)接口,從而獲取用戶(hù)求。用戶(hù)可以訪問(wèn)的服務(wù)以服務(wù)目錄的形式保存。系統(tǒng)管理模塊的核心任務(wù)是證系統(tǒng)的負(fù)載均衡,并負(fù)責(zé)分配和管理整個(gè)系統(tǒng)可用的資源。配置工具主要負(fù)給有任務(wù)的結(jié)點(diǎn)配置運(yùn)行環(huán)境。監(jiān)視統(tǒng)計(jì)模塊統(tǒng)計(jì)結(jié)點(diǎn)的使用狀態(tài)并監(jiān)視結(jié)點(diǎn)運(yùn)行狀態(tài)。整個(gè)執(zhí)行過(guò)程是:用戶(hù)通過(guò)用戶(hù)交互接口從目錄中選取一個(gè)服務(wù),發(fā)出調(diào)用請(qǐng)求。系統(tǒng)管理模塊收到該請(qǐng)求后,首先給用戶(hù)分配合適的資源,再過(guò)調(diào)用配置工具配置好用戶(hù)的運(yùn)行環(huán)境。
【引證文獻(xiàn)】
相關(guān)期刊論文 前1條
1 翟勃;劉柯;;基于云計(jì)算的煤炭企業(yè)電子采購(gòu)系統(tǒng)研究與設(shè)計(jì)[J];西安科技大學(xué)學(xué)報(bào);2012年02期
相關(guān)碩士學(xué)位論文 前5條
1 汪晶晶;基于MapReduce的天文數(shù)據(jù)處理方法與應(yīng)用研究[D];昆明理工大學(xué);2012年
2 孫旗;基于Swing的居民健康檔案管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];電子科技大學(xué);2012年
3 馮懿;基于云計(jì)算的電力系統(tǒng)不良數(shù)據(jù)辨識(shí)算法研究[D];南京理工大學(xué);2013年
4 方陽(yáng);海量視頻實(shí)時(shí)云轉(zhuǎn)碼系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D];大連理工大學(xué);2013年
5 封良良;云計(jì)算環(huán)境下基于改進(jìn)粒子群的任務(wù)調(diào)度算法[D];新疆大學(xué);2013年
本文編號(hào):2794039
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2794039.html
最近更新
教材專(zhuān)著