基于HDFS的小文件處理優(yōu)化方法研究
發(fā)布時(shí)間:2023-06-23 18:39
隨著信息技術(shù)的高速發(fā)展,數(shù)據(jù)呈現(xiàn)指數(shù)增長(zhǎng)的趨勢(shì),海量數(shù)據(jù)的存在對(duì)于社會(huì)與科技的發(fā)展是機(jī)遇也是挑戰(zhàn)。大數(shù)據(jù)給傳統(tǒng)的技術(shù)帶來(lái)了難題,海量的數(shù)據(jù)存儲(chǔ)與處理得到了社會(huì)各界廣泛關(guān)注。而在海量數(shù)據(jù)中,包含了很大比例的小文件。小文件以各種形式存在人們的生活中,怎樣從海量小文件中挖掘出信息潛在的價(jià)值,將其用于解決人們的實(shí)際生活中,是目前急于解決的問(wèn)題。Hadoop作為開(kāi)源式云計(jì)算平臺(tái),一經(jīng)發(fā)布便廣受?chē)?guó)內(nèi)外專(zhuān)家學(xué)者的關(guān)注,各大互聯(lián)網(wǎng)公司更是將其應(yīng)用于公司的發(fā)展中。HDFS(Hadoop Distributed File System)是Hadoop的分布式文件系統(tǒng),擁有高可靠,高并發(fā),高可用,高容錯(cuò)等特點(diǎn)。HDFS對(duì)于大數(shù)據(jù)的存儲(chǔ)與處理十分有效。然而HDFS的主從架構(gòu)模式的特點(diǎn)在海量小文件存儲(chǔ)與處理方面存在一定的弊端,海量小文件的元數(shù)據(jù)量成為了制約NameNode的瓶頸問(wèn)題,并且嚴(yán)重影響了小文件的讀取效率。針對(duì)HDFS存儲(chǔ)與處理海量小文件效果不佳的問(wèn)題,本文提出一種動(dòng)態(tài)隊(duì)列的方案,減少NameNode中的元數(shù)據(jù),并采用預(yù)取緩存策略,提高小文件的讀取效率。本文的主要工作如下:(1)分析研究了 HDFS在存...
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 大數(shù)據(jù)的研究背景與意義
1.1.2 海量小文件數(shù)據(jù)的研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 工業(yè)界研究現(xiàn)狀
1.2.2 學(xué)術(shù)界研究現(xiàn)狀
1.3 論文主要工作與結(jié)構(gòu)安排
1.4 本章小結(jié)
2 Hadoop以及文本數(shù)據(jù)處理技術(shù)分析
2.1 Hadoop概述
2.2 分布式文件系統(tǒng)HDFS
2.2.1 HDFS框架結(jié)構(gòu)
2.2.2 HDFS的工作流程
2.2.3 HDFS存儲(chǔ)處理海量小文件問(wèn)題總結(jié)分析
2.3 并行編程框架MapReduce
2.4 文本相似性檢測(cè)方法
2.5 數(shù)據(jù)處理方法
2.5.1 層次分析法
2.5.2 數(shù)據(jù)標(biāo)準(zhǔn)化方法
2.6 本章小結(jié)
3 基于動(dòng)態(tài)隊(duì)列的小文件存儲(chǔ)優(yōu)化研究
3.1 動(dòng)態(tài)隊(duì)列方法研究
3.1.1 關(guān)鍵指標(biāo)權(quán)重計(jì)算
3.1.2 系統(tǒng)性能評(píng)價(jià)分析
3.1.3 文本相似性檢測(cè)方法
3.2 二級(jí)索引目錄
3.3 預(yù)取緩存策略
3.3.1 預(yù)取緩存方案
3.3.2 預(yù)取緩存替換方案
3.4 本章小結(jié)
4 實(shí)驗(yàn)及結(jié)果分析
4.1 實(shí)驗(yàn)基礎(chǔ)環(huán)境建立
4.2 動(dòng)態(tài)隊(duì)列實(shí)驗(yàn)驗(yàn)證
4.3 實(shí)驗(yàn)結(jié)果驗(yàn)證分析
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
本文編號(hào):3835102
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 大數(shù)據(jù)的研究背景與意義
1.1.2 海量小文件數(shù)據(jù)的研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 工業(yè)界研究現(xiàn)狀
1.2.2 學(xué)術(shù)界研究現(xiàn)狀
1.3 論文主要工作與結(jié)構(gòu)安排
1.4 本章小結(jié)
2 Hadoop以及文本數(shù)據(jù)處理技術(shù)分析
2.1 Hadoop概述
2.2 分布式文件系統(tǒng)HDFS
2.2.1 HDFS框架結(jié)構(gòu)
2.2.2 HDFS的工作流程
2.2.3 HDFS存儲(chǔ)處理海量小文件問(wèn)題總結(jié)分析
2.3 并行編程框架MapReduce
2.4 文本相似性檢測(cè)方法
2.5 數(shù)據(jù)處理方法
2.5.1 層次分析法
2.5.2 數(shù)據(jù)標(biāo)準(zhǔn)化方法
2.6 本章小結(jié)
3 基于動(dòng)態(tài)隊(duì)列的小文件存儲(chǔ)優(yōu)化研究
3.1 動(dòng)態(tài)隊(duì)列方法研究
3.1.1 關(guān)鍵指標(biāo)權(quán)重計(jì)算
3.1.2 系統(tǒng)性能評(píng)價(jià)分析
3.1.3 文本相似性檢測(cè)方法
3.2 二級(jí)索引目錄
3.3 預(yù)取緩存策略
3.3.1 預(yù)取緩存方案
3.3.2 預(yù)取緩存替換方案
3.4 本章小結(jié)
4 實(shí)驗(yàn)及結(jié)果分析
4.1 實(shí)驗(yàn)基礎(chǔ)環(huán)境建立
4.2 動(dòng)態(tài)隊(duì)列實(shí)驗(yàn)驗(yàn)證
4.3 實(shí)驗(yàn)結(jié)果驗(yàn)證分析
4.4 本章小結(jié)
結(jié)論
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文
致謝
本文編號(hào):3835102
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3835102.html
最近更新
教材專(zhuān)著