基于內(nèi)存的HDFS數(shù)據(jù)存儲技術(shù)研究
本文關(guān)鍵詞:基于內(nèi)存的HDFS數(shù)據(jù)存儲技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)時代信息與數(shù)據(jù)的飛速增長,各行各業(yè)的數(shù)據(jù)規(guī)模都可以輕易地達到GB、TB甚至PB級。云計算數(shù)據(jù)處理系統(tǒng)Hadoop應運而生,其開源社區(qū)資源豐富,用戶廣泛,為各種大數(shù)據(jù)處理提供可靠的、性能可擴展的、靈活的計算環(huán)境。Hadoop數(shù)據(jù)處理平臺上的大數(shù)據(jù)存儲依賴于底層的分布式文件系統(tǒng)。然而該文件系統(tǒng)支持的存儲介質(zhì)單一,許多工作流的中間數(shù)據(jù)需要進行頻繁的磁盤讀寫,這種讀寫開銷不斷增長影響了整個數(shù)據(jù)處理過程的效率。本文針對云環(huán)境下的海量數(shù)據(jù)存儲介質(zhì)單一導致吞吐率較低和數(shù)據(jù)訪問時延較長問題,研究基于內(nèi)存的Hadoop分布式文件系統(tǒng)數(shù)據(jù)存儲技術(shù)。本文分析了當前分布式文件系統(tǒng)的系統(tǒng)架構(gòu)和數(shù)據(jù)存儲過程,設計基于內(nèi)存的分布式文件系統(tǒng)。通過合理分配各個數(shù)據(jù)節(jié)點上可用的內(nèi)存資源,使得集群中的數(shù)據(jù)節(jié)點可以有效管理一部分內(nèi)存存儲空間,實現(xiàn)分布式文件系統(tǒng)在進行數(shù)據(jù)讀寫操作時優(yōu)先使用內(nèi)存存儲資源,提高數(shù)據(jù)的讀寫速率,使得整個系統(tǒng)的數(shù)據(jù)吞吐率隨之提高。并在副本放置過程中,區(qū)分各個數(shù)據(jù)節(jié)點上內(nèi)存存儲資源與磁盤存儲資源的差異,建立副本放置代價模型,選取存儲和網(wǎng)絡傳輸代價較小的數(shù)據(jù)節(jié)點進行副本放置,使得更多的數(shù)據(jù)寫入內(nèi)存中,加快數(shù)據(jù)的讀寫效率。最后本文提出了合理的內(nèi)存數(shù)據(jù)置換方法,設定合理的觸發(fā)和停止數(shù)據(jù)置換的閾值,設計文件熱度計算與更新算法,在數(shù)據(jù)置換時,將內(nèi)存中熱度較低的文件置換到磁盤中,保證集群中的數(shù)據(jù)節(jié)點上有一定的內(nèi)存可用空間,可以持續(xù)的為用戶提供高吞吐率的數(shù)據(jù)讀寫服務。本文改進現(xiàn)有的HDFS,設計開發(fā)基于內(nèi)存的Hadoop分布式文件系統(tǒng),實現(xiàn)了上述功能。并搭建實驗平臺,通過Hadoop數(shù)據(jù)讀寫基準測試與基于磁盤的HDFS進行性能測試對比。實驗結(jié)果表明,基于內(nèi)存的HDFS數(shù)據(jù)存儲系統(tǒng)能有效提高數(shù)據(jù)訪問速率和系統(tǒng)的數(shù)據(jù)吞吐率,具有明顯性能優(yōu)勢。
【關(guān)鍵詞】:HDFS 內(nèi)存存儲 副本放置 文件置換
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP333
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第1章 引言9-15
- 1.1 研究背景9-10
- 1.2 研究現(xiàn)狀10-13
- 1.2.1 云環(huán)境下的數(shù)據(jù)處理系統(tǒng)研究現(xiàn)狀10-11
- 1.2.2 云環(huán)境下的基于內(nèi)存的數(shù)據(jù)處理系統(tǒng)研究現(xiàn)狀11
- 1.2.3 云環(huán)境下Hadoop分布式文件系統(tǒng)研究現(xiàn)狀11-12
- 1.2.4 研究現(xiàn)狀總結(jié)12-13
- 1.3 論文研究目標與意義13
- 1.4 論文研究內(nèi)容13-14
- 1.5 論文組織結(jié)構(gòu)14-15
- 第2章 Hadoop分布式文件系統(tǒng)介紹15-24
- 2.1 HDFS的基本框架15-17
- 2.1.1 主從分布式結(jié)構(gòu)15-16
- 2.1.2 HDFS文件存儲組織16-17
- 2.2 數(shù)據(jù)讀寫過程17-20
- 2.2.1 數(shù)據(jù)讀取過程17-18
- 2.2.2 數(shù)據(jù)寫入過程18-20
- 2.3 HDFS多副本存儲放置策略20-23
- 2.3.1 數(shù)據(jù)塊多副本存儲策略20-21
- 2.3.2 數(shù)據(jù)塊多副本放置策略21-22
- 2.3.3 副本重新創(chuàng)建過程22-23
- 2.4 小結(jié)23-24
- 第3章 內(nèi)存存儲資源分配與管理24-29
- 3.1 內(nèi)存存儲資源分配24-26
- 3.1.1 合理分配各節(jié)點的內(nèi)存資源24-25
- 3.1.2 配置可用內(nèi)存空間25-26
- 3.2 內(nèi)存存儲資源管理26-28
- 3.2.1 數(shù)據(jù)節(jié)點存儲管理結(jié)構(gòu)26-27
- 3.2.2 數(shù)據(jù)節(jié)點存儲路徑選擇策略27-28
- 3.3 小結(jié)28-29
- 第4章 內(nèi)存存儲的副本放置優(yōu)化策略29-35
- 4.1 副本放置代價模型29-30
- 4.2 按機架分層的副本放置節(jié)點選擇策略30-34
- 4.2.1 按機架分層分配副本放置節(jié)點數(shù)量30-31
- 4.2.2 按機架分層選擇副本放置節(jié)點過程31-34
- 4.3 小結(jié)34-35
- 第5章 內(nèi)存存儲數(shù)據(jù)置換方法35-42
- 5.1 數(shù)據(jù)置換閾值設置35-36
- 5.1.1 觸發(fā)數(shù)據(jù)置換的閾值35-36
- 5.1.2 停止數(shù)據(jù)置換的閾值36
- 5.2 文件熱度的計算與更新36-39
- 5.2.1 文件熱度計算方法36-37
- 5.2.2 文件熱度更新方法37-39
- 5.3 基于文件熱度的數(shù)據(jù)置換過程39-40
- 5.4 小結(jié)40-42
- 第6章 系統(tǒng)性能分析42-51
- 6.1 基于內(nèi)存的HDFS系統(tǒng)框架42-43
- 6.2 實驗環(huán)境43
- 6.2.1 硬件環(huán)境43
- 6.2.2 軟件環(huán)境43
- 6.3 性能對比43-50
- 6.3.1 單節(jié)點上的性能對比43-45
- 6.3.2 多節(jié)點上的性能對比45-50
- 6.4 小結(jié)50-51
- 第7章 總結(jié)與展望51-53
- 7.1 論文總結(jié)51
- 7.2 展望51-53
- 參考文獻53-55
- 致謝55-56
- 附錄56-59
- 作者簡歷59-60
- 攻讀碩士學位期間相關(guān)研究工作60
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 冷星雨;小議多內(nèi)存混插[J];電腦愛好者;2001年17期
2 陵仲;多內(nèi)存混插注意事項和解決方法[J];廣東電腦與電訊;2002年01期
3 ;如何混用新舊內(nèi)存[J];計算機與網(wǎng)絡;2002年04期
4 張菲;;不同品牌內(nèi)存混插注意事項[J];計算機與網(wǎng)絡;2007年12期
5 賈保民;節(jié)約內(nèi)存資源六法[J];計算機時代;2001年01期
6 張巖;;下一代內(nèi)存技術(shù)面面觀[J];個人電腦;2008年02期
7 友文;;用閑置內(nèi)存加速本本[J];電腦知識與技術(shù)(經(jīng)驗技巧);2010年10期
8 Jaro;內(nèi)存清潔師招聘記[J];電腦愛好者;2002年05期
9 ;最新15種QQ技術(shù)以及小秘密[J];計算機與網(wǎng)絡;2012年02期
10 Bob Kane ,黃強;為聯(lián)網(wǎng)創(chuàng)造更多的空間[J];電子與電腦;1996年08期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 王瑋;楊正球;;局域網(wǎng)內(nèi)存共享管理方案[A];2005通信理論與技術(shù)新進展——第十屆全國青年通信學術(shù)會議論文集[C];2005年
2 賴生建;王秉中;;共享內(nèi)存系統(tǒng)中不交換數(shù)據(jù)的并行FDTD計算[A];2009年全國天線年會論文集(上)[C];2009年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 ;Windows中提高內(nèi)存使用效率的幾種技巧[N];中國國門時報;2007年
2 于海軍;內(nèi)存也需要保潔[N];中國電腦教育報;2003年
3 錢正剛;提高內(nèi)存使用效能的幾種方法[N];中國電腦教育報;2004年
4 ;QQ為何如此耗費資源[N];電腦報;2005年
5 安徽 高偉;妙法節(jié)省QQ占用的內(nèi)存資源[N];電腦報;2003年
6 本報記者 丁偉;IBM eX5架構(gòu)再造x86服務器[N];計算機世界;2010年
7 陽光三月;三招教你釋放手機內(nèi)存[N];中國計算機報;2004年
8 江西 練兵;ReadyBoost 微軟的新“畫餅”?[N];中國電腦教育報;2007年
9 陽光三月;巧妙“解放”手機內(nèi)存[N];電腦報;2005年
10 陽光三月;巧妙解放手機內(nèi)存[N];中國電腦教育報;2005年
中國碩士學位論文全文數(shù)據(jù)庫 前7條
1 郭剛;內(nèi)存云分級混合存儲架構(gòu)數(shù)據(jù)遷移策略[D];新疆大學;2016年
2 錢雪嬌;基于內(nèi)存的HDFS數(shù)據(jù)存儲技術(shù)研究[D];東南大學;2015年
3 林振立;云計算環(huán)境下的內(nèi)存資源共享技術(shù)研究[D];國防科學技術(shù)大學;2010年
4 王柳峰;基于虛擬化的云計算平臺內(nèi)存資源協(xié)同共享技術(shù)研究[D];國防科學技術(shù)大學;2011年
5 劉蘭崢;虛擬化云平臺下內(nèi)存資源按需分配與協(xié)同調(diào)度方法的研究[D];國防科學技術(shù)大學;2013年
6 張辰;Map/Reduce型海量數(shù)據(jù)處理平臺中內(nèi)存資源動態(tài)分配關(guān)鍵技術(shù)研究[D];北京工業(yè)大學;2015年
7 張鵬飛;基于虛擬計算環(huán)境的內(nèi)存資源彈性分配研究[D];國防科學技術(shù)大學;2013年
本文關(guān)鍵詞:基于內(nèi)存的HDFS數(shù)據(jù)存儲技術(shù)研究,,由筆耕文化傳播整理發(fā)布。
本文編號:449092
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/449092.html