基于HDFS的海量小文件讀寫策略研究
本文關(guān)鍵詞:基于HDFS的海量小文件讀寫策略研究
更多相關(guān)文章: 云存儲 HDFS Redis集群 小文件問題
【摘要】:當前網(wǎng)絡(luò)信息技術(shù)與云計算技術(shù)迅猛發(fā)展,互聯(lián)網(wǎng)內(nèi)容由網(wǎng)站管理人員主導逐漸過渡為用戶主導,這種變化使得人們可以隨時隨地通過互聯(lián)網(wǎng)服務(wù)獲取或者生成海量的數(shù)據(jù),如何有效地管理這些個人或公共數(shù)據(jù)已成為當務(wù)之急。傳統(tǒng)的存儲架構(gòu)在當前互聯(lián)網(wǎng)數(shù)據(jù)存儲場景中表現(xiàn)較差,且其擴展性差、數(shù)據(jù)安全性低、維護與管理成本高、災備能力差等缺陷日益明顯。將個人數(shù)據(jù)集中存儲至云服務(wù)中統(tǒng)一管理的分布式云存儲系統(tǒng)受到IT界的廣泛關(guān)注,用戶無需在本地持有大量的存儲空間,只需要通過智能設(shè)備就能夠便捷地獲取到云端數(shù)據(jù)。這種分布式的云存取結(jié)構(gòu)可以很好地解決上述問題,并且滿足大規(guī)模用戶并發(fā)訪問的需求。Hadoop是一個可部署在廉價設(shè)備上的分布式開源平臺,其核心之一的HDFS作為一種新型的云存儲平臺,能夠很好地解決爆炸性數(shù)據(jù)的存儲與管理難題。本文主要針對海量小文件讀寫這一場景,對分布式文件系統(tǒng)HDFS進行了詳細分析,并關(guān)于HDFS存在的小文件問題、節(jié)點選擇問題和讀取緩存問題,提出了基于Redis集群的HDFS改進方案RCHDFS。首先,從基本系統(tǒng)組成與工作原理方面對GFS、MooseFS、HDFS等典型的分布式存儲系統(tǒng)進行研究,分析HDFS系統(tǒng)的主要組件與依賴關(guān)系,深入研究了NameNode、DataNode、DFSClient的工作原理及對應源碼實現(xiàn)。然后,通過對大量中外文獻的分析與相關(guān)技術(shù)的研究,針對HDFS的固有問題,分析了已有的解決方案,隨后提出了改進方案,分為3個部分。一是提出了在DataNode節(jié)點中部署Redis集群服務(wù)的方法,使得Redis服務(wù)可以承擔大部分NameNode的管理任務(wù),集群的內(nèi)存使用可以均勻地分布在不同的DataNode節(jié)點上,緩解NameNode的內(nèi)存消耗和NameNode并發(fā)壓力;二是提出了基于節(jié)點處理能力和數(shù)據(jù)塊在節(jié)點中分布均衡性的最優(yōu)讀寫節(jié)點選擇方法,優(yōu)化了HDFS機架感知策略,既保證了數(shù)據(jù)塊的均衡,又降低了文件讀寫時延;三是提出了基于混合緩存的中小文件讀取方法,在Redis中緩存熱點小文件,在Client端緩存中等文件元信息,進一步提升了海量文件的訪問速度。最后,針對提出的RCHDFS與HDFS方案進行了測試對比。測試結(jié)果表明,本文提出的方案可以明顯地降低海量小文件元數(shù)據(jù)信息的內(nèi)存消耗,在并發(fā)性大量文件讀寫操作時可以有效地降低時間消耗,并且保證了所有塊和文件元信息在節(jié)點中分布均衡。
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP333
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 曲秀華;劉曉波;;區(qū)分文件保存價值的主客觀因素[J];黑龍江檔案;2002年01期
2 朱麗霞;電子文件必須立卷[J];滄桑;2004年03期
3 李婉秋;張利萍;;電子文件長期保存的問題與對策[J];中國信息界;2004年13期
4 ella;;輕松將文件保存為指定格式[J];電腦迷;2006年24期
5 甘曉;;淺談電子文件的管理[J];科學大眾(科學教育);2012年08期
6 王金鳳;;小議建設(shè)電子文件的收集與積累[J];民營科技;2012年11期
7 章波;;國務(wù)院機關(guān)是怎樣整理會媝文件的[J];檔案工作;1957年01期
8 沈麗華;文件與文件生命周期——莫斯在華講學部分內(nèi)容綜述之二[J];檔案學通訊;1993年06期
9 王珠珠;吳凱媛;;新形勢下電子文件長期保存問題研究[J];黑龍江檔案;2014年01期
10 韓海龍;給文件“動手術(shù)”——破損文件巧復制[J];電腦校園;2004年04期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 于星海;張海霞;毛建斌;;淺析電子文件的銷毀[A];齊魯檔案論壇——山東省檔案學會2008年學術(shù)年會會刊[C];2008年
2 紀發(fā)文;李媛媛;溫春燕;;論電子文件的收集和歸檔[A];齊魯檔案論壇——山東省檔案學會2009年學術(shù)年會會刊[C];2009年
3 胡魁海;;電子文件的收集、整理與歸檔[A];高教科研2006(下冊:專題研究)[C];2006年
4 顧玉芳;;淺談電子文件的鑒定[A];江蘇省檔案現(xiàn)代化管理與檔案信息化建設(shè)學術(shù)研討會交流材料[C];2002年
5 徐昱;;電子文件——檔案工作的新課題[A];貴州省檔案學會2004年檔案學術(shù)研討會論文集[C];2004年
6 楊茹;;文件連續(xù)體理論視角下的核電文件管理模式研究[A];檔案與文化建設(shè):2012年全國檔案工作者年會論文集(中)[C];2012年
7 陶毓;;《淺議電子文件的管理》[A];檔案工作應對入世挑戰(zhàn)學術(shù)研討會文集[C];2002年
8 蔣建梅;;淺談電子文件的歸檔與管理[A];創(chuàng)新與發(fā)展——山東省檔案學會第六次會員代表大會暨山東省檔案學會第六次檔案學術(shù)討論會論文集[C];2006年
9 段瑋瑤;;電子文件與檔案管理[A];源于實踐 服務(wù)全局——蘭臺工作縱橫[C];2008年
10 王泰山;;關(guān)于社會保障業(yè)務(wù)電子文件的管理[A];江蘇省檔案現(xiàn)代化管理與檔案信息化建設(shè)學術(shù)研討會交流材料[C];2002年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 江蘇 王志軍;找回誤刪出的文件[N];電腦報;2003年
2 袁恩泉;淺談企業(yè)電子文件的鑒定與歸檔[N];中國檔案報;2002年
3 LZY;WPS Office技巧三則[N];電腦報;2002年
4 鳴澗;文件是這樣搜出來的[N];中國電腦教育報;2003年
5 湖南 何曉;給你的文件增加記憶[N];電腦報;2004年
6 江蘇 顧祥華;巧將視頻文件轉(zhuǎn)為可執(zhí)行文件[N];電腦報;2003年
7 天津 寒燕天;多個VCD文件巧壓縮[N];電腦報;2004年
8 江蘇 王東;Excel 2000同時打開多個文件的方法[N];中國電腦教育報;2001年
9 俞木發(fā);用OE“保管”重要文件[N];中國電腦教育報;2004年
10 王蘭婷;用Word打印文件[N];中國電腦教育報;2005年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 游小容;基于Hadoop的海量教育資源小文件的存儲研究與實現(xiàn)[D];電子科技大學;2015年
2 宋凱;電子文件真實性研究[D];南京大學;2014年
3 金裔云;文件隱藏方法的研究[D];吉林大學;2015年
4 王彥彬;加拿大電子文件真實性永久保障研究[D];天津師范大學;2016年
5 高宗寶;基于HDFS的海量小文件讀寫策略研究[D];山東大學;2016年
6 鄭姍姍;電子文件銷毀研究[D];蘇州大學;2012年
7 章丹;論電子文件的鑒定[D];蘇州大學;2002年
8 張先鋒;電子文件的法律證據(jù)地位研究[D];安徽大學;2007年
9 顏曉棟;電子文件的長期保存研究[D];武漢大學;2004年
10 林明東;各級國家綜合檔案館電子文件接收策略研究[D];福建師范大學;2012年
,本文編號:1189393
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/1189393.html