面向車駕管業(yè)務(wù)的海量小文件存儲研究與優(yōu)化
本文選題:海量小文件 切入點:HDFS 出處:《廣西師范大學(xué)》2017年碩士論文 論文類型:學(xué)位論文
【摘要】:隨著計算機互聯(lián)網(wǎng)的發(fā)展與信息時代的到來,在天文、地理、氣象、電子商務(wù)等諸多領(lǐng)域,其使用的應(yīng)用系統(tǒng)中已積累了數(shù)量驚人的數(shù)據(jù),同時這些數(shù)據(jù)被分散成多個容量很小的文件進行存儲。并且諸如銀行、郵政、車管所等這些便利民眾的服務(wù)行業(yè)也開始結(jié)合互聯(lián)網(wǎng)形成“互聯(lián)網(wǎng)+”的發(fā)展模式,并為了滿足其自身的某種需求而逐漸產(chǎn)生出億級以上的海量小文件,且這些文件數(shù)量仍舊處在爆炸性增長中,這給系統(tǒng)存儲效率、檢索及元數(shù)據(jù)管理帶來巨大挑戰(zhàn)。在大數(shù)據(jù)時代背景下,根據(jù)《互聯(lián)網(wǎng)交通安全綜合服務(wù)平臺建設(shè)指導(dǎo)意見》(公交管(2013)433號)要求,為了推進“互聯(lián)網(wǎng)+車管所”的大數(shù)據(jù)平臺建設(shè),本文針對南寧市車管所車駕管業(yè)務(wù)系統(tǒng)的需要,構(gòu)建一個基于Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)面向車駕管業(yè)務(wù)的海量小文件存儲系統(tǒng)VDSMSS(Vehicle-Driving ServiceMassStorageSystem),為“互聯(lián)網(wǎng)+車管所”的大數(shù)據(jù)平臺打下基礎(chǔ),同時也為當(dāng)今針對服務(wù)行業(yè)的基于HDFS的海量小文件存儲系統(tǒng)設(shè)計,提供一個有效解決思路和優(yōu)化方向,具有現(xiàn)實意義和價值。本文的主要研究內(nèi)容如下:(1)簡述HDFS的核心架構(gòu)及其內(nèi)部的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)。介紹當(dāng)前業(yè)界面對海量小文件時使用的存儲優(yōu)化方案,分析其中幾個代表性方案的優(yōu)缺點。介紹幾種代表性的緩存替換算法,重點介紹文件系統(tǒng)ZFS的自調(diào)整緩存替換算法(ZFS Adjustable Replacement Cache,ZFS-ARC)。(2)分析HDFS存儲海量小文件時存在的問題,確定優(yōu)化方向?偨Y(jié)闡述車駕管業(yè)務(wù)系統(tǒng)中小文件所具有的特點,針對該特點,設(shè)計將多個小文件以用戶為單位,按時間業(yè)務(wù)分組,合并成一個大文件,從而減少小文件的數(shù)量,達到降低大量小文件元數(shù)據(jù)占用NameNode內(nèi)存的目的。同時設(shè)計一個高效的單一文件查找方法和批量查找索引,能在兼顧檢索文件速度的情況下,以一定查詢條件進行批量文件查找。(3)針對HDFS沒有在文件讀寫方面提供預(yù)取和緩存功能的問題,本文提出了一個基于文件關(guān)聯(lián)度預(yù)讀機制的自調(diào)整緩存替換算法。首先采用傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法,對存儲有小文件訪問記錄的Hadoop日志文件進行關(guān)聯(lián)挖掘,將挖掘出的數(shù)據(jù)進行合乎理論的數(shù)理分析,計算出小文件之間的潛在關(guān)聯(lián)度。其次以此關(guān)聯(lián)度設(shè)計出一個合適的文件預(yù)讀機制,當(dāng)某個小文件被讀取時,則把該小文件的關(guān)聯(lián)文件預(yù)讀到緩存中。然后將兼顧了“時間”和“頻率”的緩存替換算法ZFS-ARC與本文設(shè)計的預(yù)讀機制結(jié)合,改進出一個基于文件關(guān)聯(lián)度預(yù)讀機制的自調(diào)整緩存替換算法PRE-ZFSARC,用以提高VDSMSS的小文件讀取性能。最后通過實驗對比分析,證明本文方案的有效性。最終完成海量小文件存儲系統(tǒng)的性能優(yōu)化,使其高度適用于車管所車駕管業(yè)務(wù)系統(tǒng)。
[Abstract]:With the development of the computer Internet and the arrival of the information age, in many fields, such as astronomy, geography, meteorology, electronic commerce and so on, its application system has accumulated a surprising amount of data. At the same time, this data is scattered into a number of very small files for storage. And services such as banks, postal services, car management offices and so on are beginning to combine the Internet to form a "Internet" development model. And to meet its own needs and gradually produce a large number of small files of more than 100 million levels, and the number of these files are still explosive growth, which gives the system storage efficiency, Retrieval and metadata management pose great challenges. In the context of big data's time, according to the guidance on the Construction of Internet Traffic Safety Integrated Service platform, In order to promote the construction of big data platform of Internet vehicle Management Institute, this paper aims at the needs of vehicle driving and management business system of Nanning vehicle Management Institute. A large amount of small file storage system, VDSMSS(Vehicle-Driving Service Mass Storage system, which is based on Hadoop distributed file system, Hadoop Distributed File File system, is constructed, which lays the foundation for big data platform of Internet vehicle Management Institute. At the same time, it also provides an effective solution and optimization direction for the design of mass small file storage system based on HDFS for the service industry. The main research contents of this paper are as follows: 1) briefly describe the core architecture of HDFS and its internal key data structure, and introduce the storage optimization schemes used by the industry in the face of a large number of small files. This paper analyzes the merits and demerits of several representative schemes, introduces several representative cache replacement algorithms, and focuses on the self-adjusting cache replacement algorithm of file system ZFS (ZFS Adjustable Replacement CacheCache ZFS-ARCU. 2) analyzes the problems existing in HDFS storage of large amount of small files. To determine the direction of optimization, summarize and expound the characteristics of small files in vehicle driving and management business system. In view of this characteristic, design and merge several small files into one large file by time business grouping, taking user as unit, So as to reduce the number of small files and reduce the amount of small file metadata to occupy NameNode memory. At the same time, we design an efficient single file lookup method and batch search index, which can take into account the speed of file retrieval. To solve the problem that HDFS does not provide prefetching and caching functions in file reading and writing, In this paper, a self-adjusting cache replacement algorithm based on file association prereading mechanism is proposed. Firstly, the traditional association rule mining algorithm is used to mine the Hadoop log files with small file access records. The extracted data is analyzed in accordance with the theory, and the potential correlation degree between small files is calculated. Secondly, an appropriate file pre-reading mechanism is designed with this correlation degree, when a small file is read, Then the associated file of the small file is preread into the cache. Then the cache replacement algorithm ZFS-ARC, which takes into account both "time" and "frequency", is combined with the pre-read mechanism designed in this paper. A self-adjusting cache replacement algorithm PRE-ZFSARCbased on file association degree prereading mechanism is improved to improve the performance of small file reading in VDSMSS. It is proved that this scheme is effective. Finally, the performance optimization of mass small file storage system is completed, which makes it highly applicable to the vehicle driving business system of the vehicle pipe station.
【學(xué)位授予單位】:廣西師范大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2017
【分類號】:TP333
【相似文獻】
相關(guān)期刊論文 前10條
1 姚義曼;如何保持文件存儲的連續(xù)性[J];微計算機信息;2000年02期
2 王春靖;FAT32的優(yōu)點[J];電腦愛好者;1998年03期
3 何文才;鄭釗;劉培鶴;杜敏;;一種基于目錄數(shù)據(jù)分離存儲的文件存儲方法的研究與實現(xiàn)[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2014年01期
4 飛雪散花;;手機文件存儲看我的[J];電腦迷;2012年05期
5 孫有軍;張大興;;海量圖片文件存儲去重技術(shù)研究[J];計算機應(yīng)用與軟件;2014年04期
6 ;金剛指——計算機文件存儲的保護神[J];信息安全與通信保密;2001年12期
7 趙躍龍;謝曉玲;蔡詠才;王國華;劉霖;;一種性能優(yōu)化的小文件存儲訪問策略的研究[J];計算機研究與發(fā)展;2012年07期
8 周國安;李強;陳新;胡旭;;云環(huán)境下海量小文件存儲技術(shù)研究綜述[J];信息網(wǎng)絡(luò)安全;2014年06期
9 張美芳;電子文件存儲方式的研究[J];數(shù)字與縮微影像;2005年02期
10 陶慧;于守謙;劉夏;;適于測控系統(tǒng)的文件存儲結(jié)構(gòu)研究[J];計算機應(yīng)用與軟件;2010年11期
相關(guān)會議論文 前6條
1 任勇;朱立谷;張雷;彭建峰;;新型虛擬文件存儲系統(tǒng)的設(shè)計[A];第15屆全國信息存儲技術(shù)學(xué)術(shù)會議論文集[C];2008年
2 李浩;;基于制播分離的文件存儲和傳輸方式的探討[A];中國新聞技術(shù)工作者聯(lián)合會五屆二次理事會暨學(xué)術(shù)年會論文集(上篇)[C];2010年
3 陳海波;侯建衛(wèi);;針對海量詳單快速存儲檢索的實現(xiàn)方法[A];2011年通信與信息技術(shù)新進展——第八屆中國通信學(xué)會學(xué)術(shù)年會論文集[C];2011年
4 陳海波;侯建衛(wèi);;針對海量詳單快速存儲檢索的實現(xiàn)方法[A];2011全國無線及移動通信學(xué)術(shù)大會論文集[C];2011年
5 袁旦;張智君;;預(yù)覽時間對顏色判斷任務(wù)下客體文件存儲的影響[A];第十一屆全國心理學(xué)學(xué)術(shù)會議論文摘要集[C];2007年
6 黃步根;黃政;劉建軍;;SANYO數(shù)碼相機中被刪除視頻的恢復(fù)[A];第26次全國計算機安全學(xué)術(shù)交流會論文集[C];2011年
相關(guān)重要報紙文章 前9條
1 本報記者 郭平;Isilon擴充文件存儲產(chǎn)品線[N];計算機世界;2009年
2 本報記者 郭平;容量與性能 一樣都不能少[N];計算機世界;2010年
3 張峰;統(tǒng)一存儲 業(yè)務(wù)連續(xù)[N];網(wǎng)絡(luò)世界;2006年
4 清水 編譯;基于文件存儲大行其道[N];計算機世界;2011年
5 本報記者 郭濤;HCP Anywhere:為HDS內(nèi)容云錦上添花[N];中國計算機報;2013年
6 于翔;讓IT如業(yè)務(wù)般運營的應(yīng)用路徑[N];網(wǎng)絡(luò)世界;2009年
7 劉一冰;IBM SoNAS專攻高端存儲客戶[N];電腦商報;2010年
8 清水 編譯;云存儲:機遇下暗藏挑戰(zhàn)[N];計算機世界;2010年
9 沈建苗;互聯(lián)網(wǎng)存儲 你信得過嗎[N];計算機世界;2007年
相關(guān)碩士學(xué)位論文 前10條
1 廖家趙;面向城軌線網(wǎng)的海量小文件存儲方法的研究與實現(xiàn)[D];華南理工大學(xué);2015年
2 李長平;基于FastDFS架構(gòu)的小文件存儲系統(tǒng)的設(shè)計與實現(xiàn)[D];哈爾濱工業(yè)大學(xué);2015年
3 葉道平;基于HADOOP的海量錄音文件存儲系統(tǒng)的設(shè)計與實現(xiàn)[D];電子科技大學(xué);2014年
4 張振猛;基于Hadoop的海量文件存儲系統(tǒng)的分析與設(shè)計[D];北京工業(yè)大學(xué);2015年
5 武奇;云存儲中數(shù)據(jù)的分發(fā)與遷移機制的研究[D];長春工業(yè)大學(xué);2016年
6 周興;基于MongoDB的海量大中小文件存儲系統(tǒng)的研究與應(yīng)用[D];中國地質(zhì)大學(xué)(北京);2016年
7 張程;基于HDFS的文件存儲與讀取的優(yōu)化策略研究與應(yīng)用[D];北京工業(yè)大學(xué);2016年
8 宮海林;支持事務(wù)的文件存儲技術(shù)研究與系統(tǒng)實現(xiàn)[D];國防科學(xué)技術(shù)大學(xué);2006年
9 曹挹芬;分布式文件存儲與檢索平臺的設(shè)計與實現(xiàn)[D];湖南大學(xué);2009年
10 黃斌;并行文件存儲系統(tǒng)關(guān)鍵技術(shù)的研究[D];華南理工大學(xué);2012年
,本文編號:1576576
本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/1576576.html