基于Hadoop的MapReduce的性能分析與優(yōu)化
本文關(guān)鍵詞:基于Hadoop的MapReduce的性能分析與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,各類信息數(shù)據(jù)的增長速度越來越快,針對海量數(shù)據(jù)的處理需求,云計算逐漸成為業(yè)界的主流計算模式。MapReduce是云計算思想的編程模型,以其簡單實用的接口使得數(shù)據(jù)的并行處理變得簡單易行,為海量數(shù)據(jù)的計算處理提供了軟件支持。迭代計算是MapReduce模型需要優(yōu)化的性能之一,本文首先分析了目前主流迭代框架存在的不足,特別是在抽象度不夠高,不能夠并行處理任務數(shù)據(jù)與靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)不能完全分離等方面。針對上述問題對MapReduce框架進行了改進,通過分割Map任務和Reduce任務以及對迭代終止條件進行并行檢測,提出了相應的并行處理策略,解決了之前串行處理導致計算時間過長的問題,然后通過對Map端存儲策略的改進,將靜態(tài)數(shù)據(jù)存儲到Map端,直接在Map端完成對靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)的計算過程,使得一次迭代過程中的MapReduce數(shù)得到減少。針對基于MapReduce的SVM分類算法對數(shù)據(jù)集的訓練是將各子節(jié)點訓練后得到的支持向量進行合并,得到的分類器分類效率和準確率并不理想。為此,提出了一種改進的訓練算法PISVMAM,該算法在各節(jié)點上運用遺傳算法來尋找子數(shù)據(jù)集的最優(yōu)核函數(shù)及參數(shù),用得到的參數(shù)組合對子數(shù)據(jù)集進行訓練得到支持向量,合并每個節(jié)點訓練后的支持向量為全局支持向量,然后在各個節(jié)點上將子集與全局支持向量合并并作為新的訓練數(shù)據(jù)集,重復這四個步驟,直到全局支持向量不再變化時,則收斂到最優(yōu)分類模型。通過程序的編寫及實驗平臺的搭建,優(yōu)化后的迭代框架在處理迭代計算的效率有了明顯的提升。PISVMAM算法的分類正確率也比傳統(tǒng)的分類算法有了明顯的提高。
【關(guān)鍵詞】:云計算 MapReduce 迭代計算 SVM算法
【學位授予單位】:南京郵電大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP393.01
【目錄】:
- 摘要4-5
- Abstract5-8
- 第一章 緒論8-13
- 1.1 研究背景8
- 1.2 研究現(xiàn)狀8-11
- 1.2.1 Hadoop發(fā)展現(xiàn)狀9-10
- 1.2.2 MapReduce發(fā)展現(xiàn)狀10-11
- 1.3 本文的主要工作和章節(jié)安排11-13
- 第二章 Hadoop系統(tǒng)平臺及相關(guān)技術(shù)研究13-22
- 2.1 Hadoop開源平臺13-15
- 2.1.1 Hadoop概述13-14
- 2.1.2 Hadoop架構(gòu)體系14-15
- 2.1.3 Hadoop工作流程15
- 2.2 MapReduce編程模型15-21
- 2.2.1 MapReduce概述16-17
- 2.2.2 MapReduce編程模型17
- 2.2.3 MapReduce執(zhí)行流程17-19
- 2.2.4 MapReduce的性能優(yōu)化研究19-21
- 2.3 迭代應用在MapReduce中的實現(xiàn)21
- 2.4 本章小結(jié)21-22
- 第三章 基于MapReduce迭代技術(shù)的研究與優(yōu)化22-35
- 3.1 相關(guān)迭代技術(shù)框架的研究22-24
- 3.1.1 Haloop介紹22-23
- 3.1.2 Twister介紹23-24
- 3.1.3 存在的問題24
- 3.2 基于MapReduce模型迭代應用的設(shè)計24-27
- 3.3 影響迭代應用性能的關(guān)鍵因素27-28
- 3.3.1 傳統(tǒng)串行機制及迭代終止條件檢測27-28
- 3.3.2 靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)及存儲機制28
- 3.4 并行機制及迭代終止條件檢測優(yōu)化策略28-31
- 3.4.1 并行策略描述29
- 3.4.2 任務分割29-30
- 3.4.3 優(yōu)化策略實現(xiàn)及過程分析30-31
- 3.5 Map端優(yōu)化機制31-34
- 3.5.1 Map端優(yōu)化及策略32-33
- 3.5.2 優(yōu)化步驟描述33-34
- 3.6 本章小結(jié)34-35
- 第四章 基于MapReduce的SVM分類算法研究35-43
- 4.1 SVM算法與遺傳算法35-38
- 4.1.1 SVM算法35-36
- 4.1.2 遺傳算法36-38
- 4.2 傳統(tǒng)的基于MapReduce的SVM分類算法38-39
- 4.2.1 傳統(tǒng)分類算法介紹38
- 4.2.2 基于遺傳函數(shù)對SVM核函數(shù)及參數(shù)的選取38-39
- 4.3 基于MapReduce的并行迭代SVM算法39-42
- 4.3.1 PISVMAM算法相關(guān)定義39-40
- 4.3.2 PISVMAM算法迭代收斂分析40-41
- 4.3.3 PISVMAM算法實現(xiàn)過程41-42
- 4.4 本章小結(jié)42-43
- 第五章 實驗及性能分析43-50
- 5.1 Hadoop平臺設(shè)計43-46
- 5.1.1 實驗環(huán)境部署43-45
- 5.1.2 作業(yè)程序分析45-46
- 5.2 迭代優(yōu)化實驗結(jié)果與分析46-48
- 5.2.1 并行優(yōu)化機制試驗與分析46-47
- 5.2.2 Map端優(yōu)化機制實驗結(jié)果與分析47-48
- 5.3 PISVMAM算法實驗結(jié)果及分析48-49
- 5.3.1PISVMAM算法實驗數(shù)據(jù)48
- 5.3.2 算法實驗結(jié)果分析48-49
- 5.4 本章小結(jié)49-50
- 第六章 總結(jié)與展望50-52
- 6.1 總結(jié)50-51
- 6.2 展望51-52
- 參考文獻52-54
- 附錄1 攻讀碩士學位期間撰寫的論文54-55
- 致謝55
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 ;數(shù)據(jù)集N鄽2[J];航空材料;1959年09期
2 江海洪 ,羅長坤;首套中國數(shù)字化可視人體數(shù)據(jù)集在第三軍醫(yī)大學研制成功[J];中華醫(yī)學雜志;2003年09期
3 陳相穎;數(shù)據(jù)集記錄快速定位與篩選方法之探討[J];計量與測試技術(shù);2005年06期
4 張曉斌;魏永祥;韓德民;夏寅;李希平;原林;唐雷;王興海;;數(shù)字化耳鼻咽喉數(shù)據(jù)集的采集[J];中華耳鼻咽喉頭頸外科雜志;2005年06期
5 王宏鼎;唐世渭;董國田;;數(shù)據(jù)集成中數(shù)據(jù)集特征的檢測方法[J];中國金融電腦;2006年03期
6 張華;郁書好;;時空數(shù)據(jù)集的連接處理和優(yōu)化方法研究[J];皖西學院學報;2006年02期
7 苗卿;單立新;裘昱;;信息熵在數(shù)據(jù)集分割中的應用研究[J];電腦知識與技術(shù)(學術(shù)交流);2007年05期
8 陳德誠;丘平珠;唐炳莉;;廣西氣象數(shù)據(jù)集設(shè)計與制作[J];氣象研究與應用;2007年04期
9 趙鳳英;王崇駿;陳世福;;用于不均衡數(shù)據(jù)集的挖掘方法[J];計算機科學;2007年09期
10 劉密霞;張秋余;趙宏;余冬梅;;入侵檢測報警相關(guān)性及評測數(shù)據(jù)集研究[J];計算機應用研究;2008年10期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 田捷;;三維醫(yī)學影像數(shù)據(jù)集處理的集成化平臺[A];2003年全國醫(yī)學影像技術(shù)學術(shù)會議論文匯編[C];2003年
2 范明;魏芳;;挖掘基本顯露模式用于分類[A];第二十一屆中國數(shù)據(jù)庫學術(shù)會議論文集(技術(shù)報告篇)[C];2004年
3 冷傳良;;飛機化銑成樣板劃線數(shù)據(jù)集設(shè)計方法探索[A];第十屆沈陽科學學術(shù)年會論文集(信息科學與工程技術(shù)分冊)[C];2013年
4 孟燁;張鵬;宋大為;王雷;;信息檢索系統(tǒng)性能對數(shù)據(jù)集特性的依賴性分析[A];第十二屆全國人機語音通訊學術(shù)會議(NCMMSC'2013)論文集[C];2013年
5 段磊;唐常杰;左R
本文編號:301061
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/301061.html