多HDFS命名空間管理與Alluxio讀性能優(yōu)化
發(fā)布時(shí)間:2021-11-24 18:22
隨著計(jì)算機(jī)和信息技術(shù)的不斷發(fā)展,傳統(tǒng)的單機(jī)系統(tǒng)已無法處理日益增長的海量數(shù)據(jù),大數(shù)據(jù)分布并行處理技術(shù)應(yīng)運(yùn)而生。分布式文件系統(tǒng)是大數(shù)據(jù)生態(tài)中的重要組成部分。HDFS(Hadoop Distributed File System)因?yàn)槠淇煽啃院土己玫臄U(kuò)展性已經(jīng)成為廣為使用的大數(shù)據(jù)分布式存儲系統(tǒng)。HDFS采用典型的主從式架構(gòu),單NameNode節(jié)點(diǎn)的元數(shù)據(jù)承載能力有限,而且會成為HDFS訪問的單點(diǎn)瓶頸。常用的水平擴(kuò)展方案是增加HDFS集群中的NameNode節(jié)點(diǎn)數(shù)量,每個(gè)NameNode節(jié)點(diǎn)管理一個(gè)獨(dú)立的命名空間,形成多個(gè)HDFS命名空間。多HDFS命名空間管理方案通過向上層應(yīng)用提供一個(gè)統(tǒng)一命名空間,減輕了上層應(yīng)用使用多HDFS命名空間的負(fù)擔(dān),同時(shí)也消除單NameNode節(jié)點(diǎn)帶來的單點(diǎn)瓶頸問題。已有的多HDFS命名空間管理方案提供了一定的統(tǒng)一命名空間管理能力,但還存在管理復(fù)雜、不易使用等問題和不足。以ViewFS為例,ViewFS下的某個(gè)HDFS命名空間變動(dòng)時(shí),需要所有上層應(yīng)用修改配置,因此使用顯然不方便,易用性上存在不足。目前缺乏一個(gè)綜合考慮易用性和元數(shù)據(jù)訪問性能的多HDFS命名空間管理方案...
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2?-?1?HDFS系統(tǒng)架構(gòu)??
Alluxio中,從而將上層大數(shù)據(jù)計(jì)算框架的數(shù)據(jù)訪問速度提升幾個(gè)數(shù)量級。由于??其顯著的性能優(yōu)勢,Alluxio受到了工業(yè)界的廣泛關(guān)注,己經(jīng)在百度、京東、Intel??等超過100家公司的生產(chǎn)環(huán)境中進(jìn)行部署,有在超過1000個(gè)節(jié)點(diǎn)的集群上運(yùn)行。??2.2.1?Alluxio系統(tǒng)架構(gòu)??如圖2-3所不,Alluxio米用主從式架構(gòu),包括一個(gè)ActiveMaster節(jié)點(diǎn)和多個(gè)??Worker節(jié)點(diǎn),以及多個(gè)StandbyMaster節(jié)點(diǎn),StandbyMaster節(jié)點(diǎn)不提供對外服??務(wù),負(fù)責(zé)復(fù)制ActiveMaster的元數(shù)據(jù)信息,并在Master節(jié)點(diǎn)失效時(shí)迅速接替??Master節(jié)點(diǎn)的工作。??
r端的遠(yuǎn)程過程調(diào)用,降低了?Alluxio客戶端的元數(shù)據(jù)訪問性能。????mount????alluxio://host:port?^??hdfs://host:port??I??「??mount?????????s3n?://bucket/directoiy???User?Data?Data??■—“—?—?r?——?——'??Foo?Bar?Foo?Bar?Reports?Sales?Reports?Sales??圖2-4Alluxio統(tǒng)一命名空間??2.2.3分布式內(nèi)存存儲系統(tǒng)性能優(yōu)化相關(guān)工作??隨著上層大數(shù)據(jù)應(yīng)用對底層數(shù)據(jù)讀寫訪問時(shí)延的要求越來越高,出現(xiàn)了各種??不同設(shè)計(jì)目標(biāo)的分布式內(nèi)存存儲系統(tǒng),這些分布式內(nèi)存存儲系統(tǒng)中通過使用大頁??面內(nèi)存或者優(yōu)化mmap讀取文件過程等方式提升系統(tǒng)的吞吐量,對優(yōu)化分布式內(nèi)??存文件系統(tǒng)具有參考意義。??Crail[35]是支持使用RDMA高性能網(wǎng)絡(luò)連接多種高速存儲設(shè)備(如內(nèi)存、??NVMeF等)的分布式內(nèi)存存儲系統(tǒng)。Crail的從節(jié)點(diǎn)默認(rèn)使用tmpfs[36]作為內(nèi)存??存儲,同時(shí)支持使用hugetlbfs作為內(nèi)存存儲。使用hugetlbfs減少了?Crail客戶端??讀取Cmil從節(jié)點(diǎn)數(shù)據(jù)時(shí)的缺頁中斷次數(shù),提升了上層大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問性??能。??Plasma是實(shí)時(shí)機(jī)器學(xué)習(xí)框架Ray[37]使用的分布式對象存儲系統(tǒng),單節(jié)點(diǎn)上??的多個(gè)Ray?Worker進(jìn)程通過mmap系統(tǒng)調(diào)用將Plasma中存儲的對象映射到進(jìn)程??地址空間中,實(shí)現(xiàn)對象的共享訪問。Plasma同樣支持使用tmpfs或Linux?hugetl
本文編號:3516519
【文章來源】:南京大學(xué)江蘇省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:79 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖2?-?1?HDFS系統(tǒng)架構(gòu)??
Alluxio中,從而將上層大數(shù)據(jù)計(jì)算框架的數(shù)據(jù)訪問速度提升幾個(gè)數(shù)量級。由于??其顯著的性能優(yōu)勢,Alluxio受到了工業(yè)界的廣泛關(guān)注,己經(jīng)在百度、京東、Intel??等超過100家公司的生產(chǎn)環(huán)境中進(jìn)行部署,有在超過1000個(gè)節(jié)點(diǎn)的集群上運(yùn)行。??2.2.1?Alluxio系統(tǒng)架構(gòu)??如圖2-3所不,Alluxio米用主從式架構(gòu),包括一個(gè)ActiveMaster節(jié)點(diǎn)和多個(gè)??Worker節(jié)點(diǎn),以及多個(gè)StandbyMaster節(jié)點(diǎn),StandbyMaster節(jié)點(diǎn)不提供對外服??務(wù),負(fù)責(zé)復(fù)制ActiveMaster的元數(shù)據(jù)信息,并在Master節(jié)點(diǎn)失效時(shí)迅速接替??Master節(jié)點(diǎn)的工作。??
r端的遠(yuǎn)程過程調(diào)用,降低了?Alluxio客戶端的元數(shù)據(jù)訪問性能。????mount????alluxio://host:port?^??hdfs://host:port??I??「??mount?????????s3n?://bucket/directoiy???User?Data?Data??■—“—?—?r?——?——'??Foo?Bar?Foo?Bar?Reports?Sales?Reports?Sales??圖2-4Alluxio統(tǒng)一命名空間??2.2.3分布式內(nèi)存存儲系統(tǒng)性能優(yōu)化相關(guān)工作??隨著上層大數(shù)據(jù)應(yīng)用對底層數(shù)據(jù)讀寫訪問時(shí)延的要求越來越高,出現(xiàn)了各種??不同設(shè)計(jì)目標(biāo)的分布式內(nèi)存存儲系統(tǒng),這些分布式內(nèi)存存儲系統(tǒng)中通過使用大頁??面內(nèi)存或者優(yōu)化mmap讀取文件過程等方式提升系統(tǒng)的吞吐量,對優(yōu)化分布式內(nèi)??存文件系統(tǒng)具有參考意義。??Crail[35]是支持使用RDMA高性能網(wǎng)絡(luò)連接多種高速存儲設(shè)備(如內(nèi)存、??NVMeF等)的分布式內(nèi)存存儲系統(tǒng)。Crail的從節(jié)點(diǎn)默認(rèn)使用tmpfs[36]作為內(nèi)存??存儲,同時(shí)支持使用hugetlbfs作為內(nèi)存存儲。使用hugetlbfs減少了?Crail客戶端??讀取Cmil從節(jié)點(diǎn)數(shù)據(jù)時(shí)的缺頁中斷次數(shù),提升了上層大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)訪問性??能。??Plasma是實(shí)時(shí)機(jī)器學(xué)習(xí)框架Ray[37]使用的分布式對象存儲系統(tǒng),單節(jié)點(diǎn)上??的多個(gè)Ray?Worker進(jìn)程通過mmap系統(tǒng)調(diào)用將Plasma中存儲的對象映射到進(jìn)程??地址空間中,實(shí)現(xiàn)對象的共享訪問。Plasma同樣支持使用tmpfs或Linux?hugetl
本文編號:3516519
本文鏈接:http://www.sikaile.net/guanlilunwen/shequguanli/3516519.html
最近更新
教材專著