基于Hadoop的MapReduce的性能分析與優(yōu)化

發(fā)布時間：2017-04-12 08:08

本文關(guān)鍵詞：基于Hadoop的MapReduce的性能分析與優(yōu)化，，由筆耕文化傳播整理發(fā)布。

【摘要】：隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各類信息數(shù)據(jù)的增長速度越來越快,針對海量數(shù)據(jù)的處理需求,云計算逐漸成為業(yè)界的主流計算模式。MapReduce是云計算思想的編程模型,以其簡單實用的接口使得數(shù)據(jù)的并行處理變得簡單易行,為海量數(shù)據(jù)的計算處理提供了軟件支持。迭代計算是MapReduce模型需要優(yōu)化的性能之一,本文首先分析了目前主流迭代框架存在的不足,特別是在抽象度不夠高,不能夠并行處理任務數(shù)據(jù)與靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)不能完全分離等方面。針對上述問題對MapReduce框架進行了改進,通過分割Map任務和Reduce任務以及對迭代終止條件進行并行檢測,提出了相應的并行處理策略,解決了之前串行處理導致計算時間過長的問題,然后通過對Map端存儲策略的改進,將靜態(tài)數(shù)據(jù)存儲到Map端,直接在Map端完成對靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)的計算過程,使得一次迭代過程中的MapReduce數(shù)得到減少。針對基于MapReduce的SVM分類算法對數(shù)據(jù)集的訓練是將各子節(jié)點訓練后得到的支持向量進行合并,得到的分類器分類效率和準確率并不理想。為此,提出了一種改進的訓練算法PISVMAM,該算法在各節(jié)點上運用遺傳算法來尋找子數(shù)據(jù)集的最優(yōu)核函數(shù)及參數(shù),用得到的參數(shù)組合對子數(shù)據(jù)集進行訓練得到支持向量,合并每個節(jié)點訓練后的支持向量為全局支持向量,然后在各個節(jié)點上將子集與全局支持向量合并并作為新的訓練數(shù)據(jù)集,重復這四個步驟,直到全局支持向量不再變化時,則收斂到最優(yōu)分類模型。通過程序的編寫及實驗平臺的搭建,優(yōu)化后的迭代框架在處理迭代計算的效率有了明顯的提升。PISVMAM算法的分類正確率也比傳統(tǒng)的分類算法有了明顯的提高。
【關(guān)鍵詞】：云計算 MapReduce 迭代計算 SVM算法
【學位授予單位】：南京郵電大學
【學位級別】：碩士
【學位授予年份】：2015
【分類號】：TP393.01
【目錄】：

摘要4-5
Abstract5-8
第一章緒論8-13
1.1 研究背景8
1.2 研究現(xiàn)狀8-11
1.2.1 Hadoop發(fā)展現(xiàn)狀9-10
1.2.2 MapReduce發(fā)展現(xiàn)狀10-11
1.3 本文的主要工作和章節(jié)安排11-13
第二章 Hadoop系統(tǒng)平臺及相關(guān)技術(shù)研究13-22
2.1 Hadoop開源平臺13-15
2.1.1 Hadoop概述13-14
2.1.2 Hadoop架構(gòu)體系14-15
2.1.3 Hadoop工作流程15
2.2 MapReduce編程模型15-21
2.2.1 MapReduce概述16-17
2.2.2 MapReduce編程模型17
2.2.3 MapReduce執(zhí)行流程17-19
2.2.4 MapReduce的性能優(yōu)化研究19-21
2.3 迭代應用在MapReduce中的實現(xiàn)21
2.4 本章小結(jié)21-22
第三章基于MapReduce迭代技術(shù)的研究與優(yōu)化22-35
3.1 相關(guān)迭代技術(shù)框架的研究22-24
3.1.1 Haloop介紹22-23
3.1.2 Twister介紹23-24
3.1.3 存在的問題24
3.2 基于MapReduce模型迭代應用的設(shè)計24-27
3.3 影響迭代應用性能的關(guān)鍵因素27-28
3.3.1 傳統(tǒng)串行機制及迭代終止條件檢測27-28
3.3.2 靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)及存儲機制28
3.4 并行機制及迭代終止條件檢測優(yōu)化策略28-31
3.4.1 并行策略描述29
3.4.2 任務分割29-30
3.4.3 優(yōu)化策略實現(xiàn)及過程分析30-31
3.5 Map端優(yōu)化機制31-34
3.5.1 Map端優(yōu)化及策略32-33
3.5.2 優(yōu)化步驟描述33-34
3.6 本章小結(jié)34-35
第四章基于MapReduce的SVM分類算法研究35-43
4.1 SVM算法與遺傳算法35-38
4.1.1 SVM算法35-36
4.1.2 遺傳算法36-38
4.2 傳統(tǒng)的基于MapReduce的SVM分類算法38-39
4.2.1 傳統(tǒng)分類算法介紹38
4.2.2 基于遺傳函數(shù)對SVM核函數(shù)及參數(shù)的選取38-39
4.3 基于MapReduce的并行迭代SVM算法39-42
4.3.1 PISVMAM算法相關(guān)定義39-40
4.3.2 PISVMAM算法迭代收斂分析40-41
4.3.3 PISVMAM算法實現(xiàn)過程41-42
4.4 本章小結(jié)42-43
第五章實驗及性能分析43-50
5.1 Hadoop平臺設(shè)計43-46
5.1.1 實驗環(huán)境部署43-45
5.1.2 作業(yè)程序分析45-46
5.2 迭代優(yōu)化實驗結(jié)果與分析46-48
5.2.1 并行優(yōu)化機制試驗與分析46-47
5.2.2 Map端優(yōu)化機制實驗結(jié)果與分析47-48
5.3 PISVMAM算法實驗結(jié)果及分析48-49
5.3.1PISVMAM算法實驗數(shù)據(jù)48
5.3.2 算法實驗結(jié)果分析48-49
5.4 本章小結(jié)49-50
第六章總結(jié)與展望50-52
6.1 總結(jié)50-51
6.2 展望51-52
參考文獻52-54
附錄1 攻讀碩士學位期間撰寫的論文54-55
致謝55

【相似文獻】

中國期刊全文數(shù)據(jù)庫前10條

1 ;數(shù)據(jù)集N鄽2[J];航空材料;1959年09期

2 江海洪 ,羅長坤;首套中國數(shù)字化可視人體數(shù)據(jù)集在第三軍醫(yī)大學研制成功[J];中華醫(yī)學雜志;2003年09期

3 陳相穎;數(shù)據(jù)集記錄快速定位與篩選方法之探討[J];計量與測試技術(shù);2005年06期

4 張曉斌;魏永祥;韓德民;夏寅;李希平;原林;唐雷;王興海;;數(shù)字化耳鼻咽喉數(shù)據(jù)集的采集[J];中華耳鼻咽喉頭頸外科雜志;2005年06期

5 王宏鼎;唐世渭;董國田;;數(shù)據(jù)集成中數(shù)據(jù)集特征的檢測方法[J];中國金融電腦;2006年03期

6 張華;郁書好;;時空數(shù)據(jù)集的連接處理和優(yōu)化方法研究[J];皖西學院學報;2006年02期

7 苗卿;單立新;裘昱;;信息熵在數(shù)據(jù)集分割中的應用研究[J];電腦知識與技術(shù)(學術(shù)交流);2007年05期

8 陳德誠;丘平珠;唐炳莉;;廣西氣象數(shù)據(jù)集設(shè)計與制作[J];氣象研究與應用;2007年04期

9 趙鳳英;王崇駿;陳世福;;用于不均衡數(shù)據(jù)集的挖掘方法[J];計算機科學;2007年09期

10 劉密霞;張秋余;趙宏;余冬梅;;入侵檢測報警相關(guān)性及評測數(shù)據(jù)集研究[J];計算機應用研究;2008年10期

中國重要會議論文全文數(shù)據(jù)庫前10條

1 田捷;;三維醫(yī)學影像數(shù)據(jù)集處理的集成化平臺[A];2003年全國醫(yī)學影像技術(shù)學術(shù)會議論文匯編[C];2003年

2 范明;魏芳;;挖掘基本顯露模式用于分類[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集（技術(shù)報告篇）[C];2004年

3 冷傳良;;飛機化銑成樣板劃線數(shù)據(jù)集設(shè)計方法探索[A];第十屆沈陽科學學術(shù)年會論文集（信息科學與工程技術(shù)分冊）[C];2013年

4 孟燁;張鵬;宋大為;王雷;;信息檢索系統(tǒng)性能對數(shù)據(jù)集特性的依賴性分析[A];第十二屆全國人機語音通訊學術(shù)會議（NCMMSC'2013）論文集[C];2013年

5 段磊;唐常杰;左R

本文編號：301061

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/ydhl/301061.html

上一篇：桌面云平臺在電子政務中的應用研究
下一篇：基于遺傳算法的群智感知服務節(jié)點選取機制研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的MapReduce的性能分析與優(yōu)化