天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向搜索引擎的分布式文件系統(tǒng)性能分析

發(fā)布時間:2016-11-19 11:25

  本文關鍵詞:面向搜索引擎的分布式文件系統(tǒng)性能分析,由筆耕文化傳播整理發(fā)布。


華南理工大學學報(自然科學版)

第39卷第4期2011年4月

JournalofSouthChinaUniversityofTechnology

(NaturalScienceEdition)

V01.39

April

N0.4201I

文章編號:1000-565X(2011)04.0007.08

面向搜索引擎的分布式文件系統(tǒng)性能分析

董守斌趙鐵柱

(華南理工大學廣東省計算機網(wǎng)絡重點實驗室,廣東廣州510640)

摘要:搜索引擎是一種數(shù)據(jù)密集型應用,其性能極大依賴于底層文件系統(tǒng)的性能.文中主要討論分布式文件系統(tǒng)在搜索引擎應用環(huán)境下的性能評估和性能優(yōu)化問題.首先概述了分布式文件系統(tǒng)的性能影響因素及相關研究進展;在此基礎上提出基于Hadoop的開放架構,系統(tǒng)地評估HDFS和Lustre在搜索引擎應用場景下的性能;最后針對實驗評估發(fā)現(xiàn)的HDFS在寫性能及小文件數(shù)據(jù)處理方面的不足,提出改進方案,為搜索引擎的分布式文件系統(tǒng)優(yōu)化提供參考.

關鍵詞:搜索引擎;分布式文件系統(tǒng);HDFS文件系統(tǒng);Lustre文件系統(tǒng);性能分析;

性能優(yōu)化

中圖分類號:TP393

doi:10.3969/j.issn.1000-565X.2011.04.002

隨著互聯(lián)網(wǎng)技術的發(fā)展,計算、傳輸和存儲三大IT基礎技術都得到了飛速的發(fā)展.但相對于計算(數(shù)據(jù)處理)和傳輸而言,,存儲技術發(fā)展緩慢.海量數(shù)據(jù)的存儲和檢索已成為制約互聯(lián)網(wǎng)發(fā)展和分布式應用的關鍵問題.搜索引擎是數(shù)據(jù)密集型的應用,其系統(tǒng)性能極大地依賴于底層的文件系統(tǒng).如果單純依賴操作系統(tǒng)提供的文件系統(tǒng)基本功能,搜索引擎系統(tǒng)將無法獲得理想的性能.因此,搜索引擎均采用分布式文件系統(tǒng)來解決這個問題.分布式文件系統(tǒng)具有高吞吐量、高I/0帶寬和可擴展等特點,它可以將多個節(jié)點上的硬盤組織成為全局的存儲系統(tǒng),提供聚合的存儲容量和I/O帶寬,并易于隨系統(tǒng)規(guī)模擴大而擴展.

20世紀80年代網(wǎng)絡文件系統(tǒng)NFS(Network

File

搜索引擎對數(shù)據(jù)存取有特殊的需求,搜索引擎專用的分布式文件系統(tǒng)應需而生.GFS(Googhtern)‘‘-21和HDFS(Hadoop

DistributedFile

FileSys-

System)‘33

等均是專用于滿足搜索引擎應用需求的分布式文件系統(tǒng).但這些專用的搜索引擎分布式文件系統(tǒng)是否在支持搜索引擎以及類似應用時比通用型的分布式文件系統(tǒng)具有更好的性能,目前尚無定論.文中以HDFS和Lustre這兩個具有代表性的分布式文件系統(tǒng)為基礎,展開面向搜索引擎應用的分布式文件系統(tǒng)的性能評估和性能優(yōu)化的研究.1

影響分布式文件系統(tǒng)性能的因素

分布式文件系統(tǒng)由于能有效解決高性能計算系

統(tǒng)的海量數(shù)據(jù)存儲和L/O瓶頸問題,成為目前存儲學界的研究熱點.分布式文件系統(tǒng)應用于多機環(huán)境的網(wǎng)絡文件系統(tǒng),單個文件的數(shù)據(jù)采用分條(Stripe)等形式存放于不同的I/O節(jié)點之上,支持多機多個進程的并發(fā)存取,同時支持元數(shù)據(jù)和數(shù)據(jù)的分布存放,并提供單一的目錄空間.分布式文件系統(tǒng)的設計

System)的出現(xiàn)使得分布式文件系統(tǒng)逐漸發(fā)展

并應用到各個領域.目前分布式文件系統(tǒng)在體系結構、系統(tǒng)規(guī)模、性能、可擴展性、可用性等方面均經(jīng)歷了較大的變化.主流的分布式文件系統(tǒng)如Lustre等已應用在高性能計算和云計算等相關領域.但由于

收稿日期:2011-01.08

¥基金項目:國家自然科學基金資助項目(61070092);國家發(fā)改委CNGI項目(CNGl2008-109/122)

作者簡介:董守斌(1967-),女,教授,博士生導師,主要從事高性能計算、信息檢索、下一代互聯(lián)網(wǎng)等的研究.E-mail:sbdong@

scut.edu.cn

萬方數(shù)據(jù)


  本文關鍵詞:面向搜索引擎的分布式文件系統(tǒng)性能分析,由筆耕文化傳播整理發(fā)布。



本文編號:182515

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/182515.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶29512***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com