一種基于Hadoop/MapReduce的可擴展存儲系統架構研究
發(fā)布時間:2020-12-19 22:31
隨著互聯網的高速發(fā)展,數據規(guī)模以指數級的速度增加,如何來存儲和處理這些數據是一個挑戰(zhàn)性的問題。Hadoop允許用戶不熟悉分布式的情況下,充分利用海量存儲的集群和高速計算,做分布式應用程序開發(fā)。Hadoop最出名的是MapReduce分布式計算框架和它的分布式文件系統HDFS。主要特點是:成本低,擴展能力非常好,效率高,出色的可靠性。它是可以運行在在多個操作系統和商用類硬件上的系統。但是,HDFS設計的初衷是存儲大文件的,當面向某些特定應用的時候,應用會產生大量的小文件,小文件的增多就會導致文件存儲速度過慢,系統使用內存急劇升高。針對這一問題,提出了一種新的架構HUST MAP-REDUCE FRAMEWORK(HMRF),采用了文件合并的思想對小文件合并成為大文件的方法,對小文件存儲進行了優(yōu)化處理。實驗表明,基于Hadoop/MapReduce的可擴展存儲系統架構(HMRF)能夠很好的存儲大量小文件。基于HMRF,名稱節(jié)點內存平均降低了63.2%,數據節(jié)點內存平均降低了38.7%,小文件寫入速度平均增加了171%。
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現狀
1.3 論文結構簡介
1.4 課題來源
2 Hadoop 相關技術介紹
2.1 Apache hadoop 項目
2.2 MapReduce 編程模型
2.3 Hadoop 分布式文件系統 HDFS
2.4 HDFS 的讀寫流程分析
2.5 本章小結
3 一種基于 Hadoop/MapReduce 的可擴展存儲系統架構
3.1 小文件存儲性能分析
3.2 基于 Hadoop/MapReduce 的存儲系統架構
3.3 文件合并功能模塊設計與實現
3.4 小文件索引信息列表模塊
3.5 讀文件和刪除文件
3.6 HMRF 可擴展性
3.7 本章小結
4 系統測試與分析
4.1 實驗平臺的搭建
4.2 HMRF 與 HDFS 性能對比測試
4.3 HMRF 可擴展性能測試
4.4 本章小結
5 總結及展望
5.1 總結
5.2 進一步工作和展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陳華平. 計算機工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 計算機系統應用. 2010(07)
[3]基于MapReduce的PCA異常流量檢測系統實現[J]. 黃志蘭,丁圣勇,楊國良,羅頌鋒. 電信科學. 2010(06)
[4]基于Hadoop的海量數據管理系統[J]. 多雪松,張晶,高強. 微計算機信息. 2010(13)
[5]基于MapReduce的并行貝葉斯分類算法的設計與實現[J]. 丁光華,周繼鵬,周敏. 微計算機信息. 2010(09)
[6]基于Nutch的專題網頁資源采集服務系統的設計與實現[J]. 常智榮,馬自衛(wèi),李高虎. 現代圖書情報技術. 2010(03)
[7]基于MapReduce模型的分布式Word文檔破解[J]. 陳勤,方海英,褚一平,黃劍軍. 計算機系統應用. 2010(03)
[8]基于集群系統的空間數據并行處理策略研究[J]. 劉旭輝,韓冀中,賀勁,韓承德. 高技術通訊. 2009(10)
[9]Hadoop集群和單機數據處理的耗時對比實驗[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云計算及其應用的開源實現研究[J]. 趙華茗,李春旺,李宇,周強. 現代圖書情報技術. 2009(09)
碩士論文
[1]基于Hadoop的海量圖象數據管理[D]. 李波.華東師范大學 2011
[2]基于Hadoop平臺的數據分析和應用[D]. 姜文.北京郵電大學 2011
[3]基于HADOOP的數據挖掘研究[D]. 楊宸鑄.重慶大學 2010
[4]基于Hadoop平臺的通信數據分布式查詢算法的設計與實現[D]. 陳勇.北京交通大學 2009
[5]云計算中的網絡拓撲設計和Hadoop平臺研究[D]. 鄧自立.中國科學技術大學 2009
本文編號:2926686
【文章來源】:華中科技大學湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:56 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景
1.2 研究現狀
1.3 論文結構簡介
1.4 課題來源
2 Hadoop 相關技術介紹
2.1 Apache hadoop 項目
2.2 MapReduce 編程模型
2.3 Hadoop 分布式文件系統 HDFS
2.4 HDFS 的讀寫流程分析
2.5 本章小結
3 一種基于 Hadoop/MapReduce 的可擴展存儲系統架構
3.1 小文件存儲性能分析
3.2 基于 Hadoop/MapReduce 的存儲系統架構
3.3 文件合并功能模塊設計與實現
3.4 小文件索引信息列表模塊
3.5 讀文件和刪除文件
3.6 HMRF 可擴展性
3.7 本章小結
4 系統測試與分析
4.1 實驗平臺的搭建
4.2 HMRF 與 HDFS 性能對比測試
4.3 HMRF 可擴展性能測試
4.4 本章小結
5 總結及展望
5.1 總結
5.2 進一步工作和展望
致謝
參考文獻
【參考文獻】:
期刊論文
[1]基于Hadoop的Web日志挖掘[J]. 程苗,陳華平. 計算機工程. 2011(11)
[2]Hadoop下的分布式搜索引擎[J]. 胡彧,封俊. 計算機系統應用. 2010(07)
[3]基于MapReduce的PCA異常流量檢測系統實現[J]. 黃志蘭,丁圣勇,楊國良,羅頌鋒. 電信科學. 2010(06)
[4]基于Hadoop的海量數據管理系統[J]. 多雪松,張晶,高強. 微計算機信息. 2010(13)
[5]基于MapReduce的并行貝葉斯分類算法的設計與實現[J]. 丁光華,周繼鵬,周敏. 微計算機信息. 2010(09)
[6]基于Nutch的專題網頁資源采集服務系統的設計與實現[J]. 常智榮,馬自衛(wèi),李高虎. 現代圖書情報技術. 2010(03)
[7]基于MapReduce模型的分布式Word文檔破解[J]. 陳勤,方海英,褚一平,黃劍軍. 計算機系統應用. 2010(03)
[8]基于集群系統的空間數據并行處理策略研究[J]. 劉旭輝,韓冀中,賀勁,韓承德. 高技術通訊. 2009(10)
[9]Hadoop集群和單機數據處理的耗時對比實驗[J]. 曾理,王以群. 硅谷. 2009(19)
[10]云計算及其應用的開源實現研究[J]. 趙華茗,李春旺,李宇,周強. 現代圖書情報技術. 2009(09)
碩士論文
[1]基于Hadoop的海量圖象數據管理[D]. 李波.華東師范大學 2011
[2]基于Hadoop平臺的數據分析和應用[D]. 姜文.北京郵電大學 2011
[3]基于HADOOP的數據挖掘研究[D]. 楊宸鑄.重慶大學 2010
[4]基于Hadoop平臺的通信數據分布式查詢算法的設計與實現[D]. 陳勇.北京交通大學 2009
[5]云計算中的網絡拓撲設計和Hadoop平臺研究[D]. 鄧自立.中國科學技術大學 2009
本文編號:2926686
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/2926686.html