面向搜索引擎的分布式文件系統(tǒng)性能分析
本文關鍵詞:面向搜索引擎的分布式文件系統(tǒng)性能分析,由筆耕文化傳播整理發(fā)布。
華南理工大學學報(自然科學版)
第39卷第4期2011年4月
JournalofSouthChinaUniversityofTechnology
(NaturalScienceEdition)
V01.39
April
N0.4201I
文章編號:1000-565X(2011)04.0007.08
面向搜索引擎的分布式文件系統(tǒng)性能分析木
董守斌趙鐵柱
(華南理工大學廣東省計算機網(wǎng)絡重點實驗室,廣東廣州510640)
摘要:搜索引擎是一種數(shù)據(jù)密集型應用,其性能極大依賴于底層文件系統(tǒng)的性能.文中主要討論分布式文件系統(tǒng)在搜索引擎應用環(huán)境下的性能評估和性能優(yōu)化問題.首先概述了分布式文件系統(tǒng)的性能影響因素及相關研究進展;在此基礎上提出基于Hadoop的開放架構,系統(tǒng)地評估HDFS和Lustre在搜索引擎應用場景下的性能;最后針對實驗評估發(fā)現(xiàn)的HDFS在寫性能及小文件數(shù)據(jù)處理方面的不足,提出改進方案,為搜索引擎的分布式文件系統(tǒng)優(yōu)化提供參考.
關鍵詞:搜索引擎;分布式文件系統(tǒng);HDFS文件系統(tǒng);Lustre文件系統(tǒng);性能分析;
性能優(yōu)化
中圖分類號:TP393
doi:10.3969/j.issn.1000-565X.2011.04.002
隨著互聯(lián)網(wǎng)技術的發(fā)展,計算、傳輸和存儲三大IT基礎技術都得到了飛速的發(fā)展.但相對于計算(數(shù)據(jù)處理)和傳輸而言,,存儲技術發(fā)展緩慢.海量數(shù)據(jù)的存儲和檢索已成為制約互聯(lián)網(wǎng)發(fā)展和分布式應用的關鍵問題.搜索引擎是數(shù)據(jù)密集型的應用,其系統(tǒng)性能極大地依賴于底層的文件系統(tǒng).如果單純依賴操作系統(tǒng)提供的文件系統(tǒng)基本功能,搜索引擎系統(tǒng)將無法獲得理想的性能.因此,搜索引擎均采用分布式文件系統(tǒng)來解決這個問題.分布式文件系統(tǒng)具有高吞吐量、高I/0帶寬和可擴展等特點,它可以將多個節(jié)點上的硬盤組織成為全局的存儲系統(tǒng),提供聚合的存儲容量和I/O帶寬,并易于隨系統(tǒng)規(guī)模擴大而擴展.
20世紀80年代網(wǎng)絡文件系統(tǒng)NFS(Network
File
搜索引擎對數(shù)據(jù)存取有特殊的需求,搜索引擎專用的分布式文件系統(tǒng)應需而生.GFS(Googhtern)‘‘-21和HDFS(Hadoop
DistributedFile
FileSys-
System)‘33
等均是專用于滿足搜索引擎應用需求的分布式文件系統(tǒng).但這些專用的搜索引擎分布式文件系統(tǒng)是否在支持搜索引擎以及類似應用時比通用型的分布式文件系統(tǒng)具有更好的性能,目前尚無定論.文中以HDFS和Lustre這兩個具有代表性的分布式文件系統(tǒng)為基礎,展開面向搜索引擎應用的分布式文件系統(tǒng)的性能評估和性能優(yōu)化的研究.1
影響分布式文件系統(tǒng)性能的因素
分布式文件系統(tǒng)由于能有效解決高性能計算系
統(tǒng)的海量數(shù)據(jù)存儲和L/O瓶頸問題,成為目前存儲學界的研究熱點.分布式文件系統(tǒng)應用于多機環(huán)境的網(wǎng)絡文件系統(tǒng),單個文件的數(shù)據(jù)采用分條(Stripe)等形式存放于不同的I/O節(jié)點之上,支持多機多個進程的并發(fā)存取,同時支持元數(shù)據(jù)和數(shù)據(jù)的分布存放,并提供單一的目錄空間.分布式文件系統(tǒng)的設計
System)的出現(xiàn)使得分布式文件系統(tǒng)逐漸發(fā)展
并應用到各個領域.目前分布式文件系統(tǒng)在體系結構、系統(tǒng)規(guī)模、性能、可擴展性、可用性等方面均經(jīng)歷了較大的變化.主流的分布式文件系統(tǒng)如Lustre等已應用在高性能計算和云計算等相關領域.但由于
收稿日期:2011-01.08
¥基金項目:國家自然科學基金資助項目(61070092);國家發(fā)改委CNGI項目(CNGl2008-109/122)
作者簡介:董守斌(1967-),女,教授,博士生導師,主要從事高性能計算、信息檢索、下一代互聯(lián)網(wǎng)等的研究.E-mail:sbdong@
scut.edu.cn
萬方數(shù)據(jù)
本文關鍵詞:面向搜索引擎的分布式文件系統(tǒng)性能分析,由筆耕文化傳播整理發(fā)布。
本文編號:182515
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/182515.html