海量小文件存儲(chǔ)系統(tǒng)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2023-05-19 00:38
隨著web2.0技術(shù)的普及和飛速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)出現(xiàn)了爆炸性的增長(zhǎng),與之而來(lái)的是如何管理和利用如此大規(guī)模的數(shù)據(jù)信息,為此,眾多研究機(jī)構(gòu)和公司都提出了各自的分布式數(shù)據(jù)存儲(chǔ)的解決方案。其中影響最大的莫過(guò)于開(kāi)源的HDFS(Hadoop Distributed FileSystem),這項(xiàng)技術(shù)已得到學(xué)術(shù)界和工業(yè)界的認(rèn)可,并被廣泛應(yīng)用開(kāi)來(lái)。但是,HDFS技術(shù)一直存在著對(duì)于海量小文件不支持這一弊端,制約著HDFS技術(shù)的進(jìn)一步發(fā)展。本文重在研究圖片檢索系統(tǒng)和中華字庫(kù)工程中的海量小文件存儲(chǔ)問(wèn)題,針對(duì)這兩個(gè)項(xiàng)目的需求,為切實(shí)解決問(wèn)題,最終選擇基于HDFS搭建海量小文件存儲(chǔ)系統(tǒng)。以分析HDFS的結(jié)構(gòu)特點(diǎn)為切入點(diǎn),探討其對(duì)海量小文件支持不理想的原因,探索分層索引方法來(lái)解決這一弊端。分層索引方法是一種基于小文件合并的方法,主要包括下邊五個(gè)方面的內(nèi)容。第一,分層索引方法通過(guò)將小文件合并為大文件,減少系統(tǒng)中存儲(chǔ)文件的數(shù)目,達(dá)到降低NameNode內(nèi)存開(kāi)銷(xiāo)的目的。第二,分層索引方法在合并中會(huì)產(chǎn)生出兩個(gè)層次的索引文件,并通過(guò)分布式存儲(chǔ)和集中存儲(chǔ)相結(jié)合的方法管理索引文件。第三,分層索引方法將索引文件預(yù)加載到內(nèi)存中,減少...
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景
1.2 研究?jī)?nèi)容
2 分析
2.1 海量小文件存取的應(yīng)用需求
2.2 海量小文件存儲(chǔ)系統(tǒng)的性能需求
2.3 主流分布式文件系統(tǒng)
2.3.1 Lustre文件系統(tǒng)
2.3.2 MogileFS文件系統(tǒng)
2.3.3 FastDFS文件系統(tǒng)
2.3.4 TFS文件系統(tǒng)
2.3.5 HDFS文件系統(tǒng)
2.3.6 文件系統(tǒng)選擇
2.4 基于HDFS的海量小文件優(yōu)化方法
2.4.1 HBase
2.4.2 基于小文件合并成大文件方法
2.5 多Namenode方法
2.6 本章小結(jié)
3 分層索引方法設(shè)計(jì)
3.1 HDFS存儲(chǔ)小文件的問(wèn)題
3.1.1 存儲(chǔ)耗時(shí)過(guò)長(zhǎng)
3.1.2 內(nèi)存開(kāi)銷(xiāo)過(guò)大
3.2 分層索引方法的設(shè)計(jì)思路
3.3 小文件合并機(jī)制與索引文件的結(jié)構(gòu)
3.3.1 小文件合并機(jī)制
3.3.2 索引文件的存儲(chǔ)結(jié)構(gòu)
3.4 數(shù)據(jù)文件內(nèi)容動(dòng)態(tài)增加機(jī)制
3.5 索引文件存儲(chǔ)和預(yù)加載機(jī)制
3.5.1 索引文件存儲(chǔ)
3.5.2 索引文件預(yù)加載
3.6 數(shù)據(jù)預(yù)取機(jī)制
3.7 分層索引方法與其他小文件合并方法的比較
3.8 本章小結(jié)
4 基于分層索引方法的海量小文件存儲(chǔ)系統(tǒng)實(shí)現(xiàn)
4.1 系統(tǒng)架構(gòu)
4.2 小文件合并和索引存儲(chǔ)機(jī)制的實(shí)現(xiàn)
4.2.1 小文件合并機(jī)制的實(shí)現(xiàn)
4.2.2 索引文件存儲(chǔ)機(jī)制
4.3 數(shù)據(jù)文件內(nèi)容動(dòng)態(tài)增加機(jī)制的實(shí)現(xiàn)
4.3.1 NameNode端元信息創(chuàng)建流程
4.3.2 DataNode端數(shù)據(jù)文件創(chuàng)建流程
4.3.3 NameNode與DataNode的改進(jìn)
4.4 索引文預(yù)加載機(jī)制的實(shí)現(xiàn)
4.5 存儲(chǔ)系統(tǒng)操作流程
4.5.1 小文件存儲(chǔ)流程
4.5.2 小文件讀取流程
4.5.3 小文件刪除流程
4.6 本章小結(jié)
5 系統(tǒng)性能評(píng)測(cè)與分析
5.1 實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)數(shù)據(jù)集
5.3 實(shí)驗(yàn)設(shè)計(jì)
5.3.1 實(shí)驗(yàn)測(cè)試指標(biāo)
5.3.2 實(shí)驗(yàn)過(guò)程
5.4 實(shí)驗(yàn)對(duì)比
5.4.1 NameNode和DataNode內(nèi)存使用對(duì)比
5.4.2 小文件存儲(chǔ)性能對(duì)比
5.4.3 小文件讀取性能對(duì)比
5.4.4 對(duì)分層索引方法的分析
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 下一步工作展望
參考文獻(xiàn)
致謝
本文編號(hào):3819313
【文章頁(yè)數(shù)】:58 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
1 緒論
1.1 研究背景
1.2 研究?jī)?nèi)容
2 分析
2.1 海量小文件存取的應(yīng)用需求
2.2 海量小文件存儲(chǔ)系統(tǒng)的性能需求
2.3 主流分布式文件系統(tǒng)
2.3.1 Lustre文件系統(tǒng)
2.3.2 MogileFS文件系統(tǒng)
2.3.3 FastDFS文件系統(tǒng)
2.3.4 TFS文件系統(tǒng)
2.3.5 HDFS文件系統(tǒng)
2.3.6 文件系統(tǒng)選擇
2.4 基于HDFS的海量小文件優(yōu)化方法
2.4.1 HBase
2.4.2 基于小文件合并成大文件方法
2.5 多Namenode方法
2.6 本章小結(jié)
3 分層索引方法設(shè)計(jì)
3.1 HDFS存儲(chǔ)小文件的問(wèn)題
3.1.1 存儲(chǔ)耗時(shí)過(guò)長(zhǎng)
3.1.2 內(nèi)存開(kāi)銷(xiāo)過(guò)大
3.2 分層索引方法的設(shè)計(jì)思路
3.3 小文件合并機(jī)制與索引文件的結(jié)構(gòu)
3.3.1 小文件合并機(jī)制
3.3.2 索引文件的存儲(chǔ)結(jié)構(gòu)
3.4 數(shù)據(jù)文件內(nèi)容動(dòng)態(tài)增加機(jī)制
3.5 索引文件存儲(chǔ)和預(yù)加載機(jī)制
3.5.1 索引文件存儲(chǔ)
3.5.2 索引文件預(yù)加載
3.6 數(shù)據(jù)預(yù)取機(jī)制
3.7 分層索引方法與其他小文件合并方法的比較
3.8 本章小結(jié)
4 基于分層索引方法的海量小文件存儲(chǔ)系統(tǒng)實(shí)現(xiàn)
4.1 系統(tǒng)架構(gòu)
4.2 小文件合并和索引存儲(chǔ)機(jī)制的實(shí)現(xiàn)
4.2.1 小文件合并機(jī)制的實(shí)現(xiàn)
4.2.2 索引文件存儲(chǔ)機(jī)制
4.3 數(shù)據(jù)文件內(nèi)容動(dòng)態(tài)增加機(jī)制的實(shí)現(xiàn)
4.3.1 NameNode端元信息創(chuàng)建流程
4.3.2 DataNode端數(shù)據(jù)文件創(chuàng)建流程
4.3.3 NameNode與DataNode的改進(jìn)
4.4 索引文預(yù)加載機(jī)制的實(shí)現(xiàn)
4.5 存儲(chǔ)系統(tǒng)操作流程
4.5.1 小文件存儲(chǔ)流程
4.5.2 小文件讀取流程
4.5.3 小文件刪除流程
4.6 本章小結(jié)
5 系統(tǒng)性能評(píng)測(cè)與分析
5.1 實(shí)驗(yàn)環(huán)境
5.2 實(shí)驗(yàn)數(shù)據(jù)集
5.3 實(shí)驗(yàn)設(shè)計(jì)
5.3.1 實(shí)驗(yàn)測(cè)試指標(biāo)
5.3.2 實(shí)驗(yàn)過(guò)程
5.4 實(shí)驗(yàn)對(duì)比
5.4.1 NameNode和DataNode內(nèi)存使用對(duì)比
5.4.2 小文件存儲(chǔ)性能對(duì)比
5.4.3 小文件讀取性能對(duì)比
5.4.4 對(duì)分層索引方法的分析
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 論文工作總結(jié)
6.2 下一步工作展望
參考文獻(xiàn)
致謝
本文編號(hào):3819313
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3819313.html
最近更新
教材專(zhuān)著