搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化
本文關鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,由筆耕文化傳播整理發(fā)布。
《華南理工大學》 2010年
搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化
黃翀民
【摘要】: 隨著Internet上信息量的激增,搜索引擎已成為用戶查找網上信息必不可少檢索工具。目前搜索引擎的各種技術在不斷地進步,出現(xiàn)了如Google,Baidu,Yahoo等優(yōu)秀的搜索引擎,由于網絡信息呈爆炸式的增長,用戶對于搜索引擎的依賴程度越來越大,這給搜索引擎技術的發(fā)展帶來了機遇,也使搜索引擎技術遇到了前所未有的挑戰(zhàn)。 搜索引擎本身涉及到多方面的技術,其中底層的分布式文件系統(tǒng)就是至關重要的一環(huán)。因此本課題著力于對搜索引擎的分布式文件系統(tǒng)展開研究,希望通過提升分布式文件系統(tǒng)的性能,最終使上層的搜索引擎應用能夠具有更高的性能。 本文以實驗室目前正在運行的搜索引擎底層的HDFS文件系統(tǒng)為對象,深入研究其架構和數據組織方式,以及讀寫操作的詳細流程,參考其它優(yōu)秀的分布式文件系統(tǒng)的設計,通過引入一些優(yōu)秀的機制,提高HDFS文件系統(tǒng)的性能。 首先對HDFS中數據節(jié)點選擇存儲空間的問題上,分析了它默認算法的弊端。由于沒有對系統(tǒng)環(huán)境的一個認知,簡單的Round-Robin算法比較容易造成數據的不均衡和數據讀寫的阻塞,本文設計了一種兼顧磁盤容量和磁盤負載的算法,通過獲取當前系統(tǒng)的一些狀態(tài)信息,并根據這些信息來做出有利于系統(tǒng)性能的選擇。 針對HDFS中數據寫操作的流程,通過分析HDFS的實現(xiàn),發(fā)現(xiàn)其磁盤操作如把網絡數據流的操作和磁盤的操作在數據包層面進行串行的執(zhí)行,在一定程度上影響了數據節(jié)點處理數據的效率。本文提出了一種并行的數據處理模式。通過一個DiskWriter線程來進行所有的磁盤操作,并用一個隊列來緩存網絡的數據包,能夠很好的提高數據節(jié)點處理數據的效率,從而提升系統(tǒng)的性能。 本文設計了幾個實驗來對比改進前后HDFS的性能對比。通過實驗得出的數據,可以看出改進后的HDFS在這三個測試中都表現(xiàn)出了更好的性能,從而證明了本文的改進方法是有效的。
【關鍵詞】:
【學位授予單位】:華南理工大學
【學位級別】:碩士
【學位授予年份】:2010
【分類號】:TP391.3
【目錄】:
下載全文 更多同類文獻
CAJ全文下載
(如何獲取全文? 歡迎:購買知網充值卡、在線充值、在線咨詢)
CAJViewer閱讀器支持CAJ、PDF文件格式
【相似文獻】
中國期刊全文數據庫 前10條
1 ;李彥宏論搜索引擎三個定律[J];新電子;2001年02期
2 相春雷;;2009年中國搜索引擎市場趨勢分析[J];軟件世界;2010年02期
3 ;揭秘搜索引擎收錄網站的秘密[J];計算機與網絡;2010年Z1期
4 李析;廖志恒;;云計算的關鍵技術及發(fā)展現(xiàn)狀[J];九江職業(yè)技術學院學報;2011年02期
5 馬玥;;王小川:絕境之外[J];中國經濟和信息化;2011年12期
6 魏蕾如;;基于搜索引擎的網絡中文信息檢索工具評價[J];數字技術與應用;2011年06期
7 ;創(chuàng)新工業(yè)搜索引擎[J];中國制造業(yè)信息化;2011年12期
8 胡風華;王磊;;基于知識庫系統(tǒng)的智能搜索引擎研究[J];中國新技術新產品;2011年18期
9 方亞會;;Google失敗后快速切換搜索引擎[J];電腦迷;2011年11期
10 ;成長中的谷歌[J];IT時代周刊;2011年18期
中國重要會議論文全文數據庫 前10條
1 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學會第五屆學術年會論文集[C];2008年
2 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會第二屆理事大會暨學術交流會議論文匯編[C];2003年
3 鄧長壽;郭景峰;楊焱林;鄧安遠;;下一代Web搜索引擎初探[A];第十八屆全國數據庫學術會議論文集(研究報告篇)[C];2001年
4 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網頁爬行器的設計與實現(xiàn)[A];少數民族青年自然語言處理技術研究與進展——第三屆全國少數民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
5 湯薇;曾艷;;構建校園網搜索引擎必要性分析[A];廣西計算機學會2008年年會論文集[C];2008年
6 姚樹宇;趙少東;;一種使用分布式技術的搜索引擎[A];2005年全國開放式分布與并行計算學術會議論文集[C];2005年
7 倪俊峰;;基于黃頁搜索引擎的關鍵字排名廣告系統(tǒng)的設計與實現(xiàn)[A];2005年中國索引學會年會暨學術研討會論文集[C];2005年
8 張怡;查貴庭;;SEO在信息服務中的應用研究[A];2010年中國索引學會年會暨學術研討會論文集[C];2010年
9 陳援非;何哲;朱珍民;;基于普適計算的個性化搜索技術[A];第二屆和諧人機環(huán)境聯(lián)合學術會議(HHME2006)——第2屆中國普適計算學術會議(PCC'06)論文集[C];2006年
10 楊萌;李春麗;朱明;;網絡搜索技術下的編輯工作[A];學報編輯論叢(第十一集)[C];2003年
中國重要報紙全文數據庫 前10條
1 主持人 陳建棟;[N];光明日報;2005年
2 本報記者 陳建棟;[N];光明日報;2005年
3 曾正樂;[N];經濟日報;2005年
4 本報記者 秦海波;[N];經濟日報;2005年
5 FN記者 柳立;[N];金融時報;2005年
6 閆輝;[N];計算機世界;2005年
7 本報記者 李劍;[N];通信信息報;2005年
8 華夏;[N];江蘇科技報;2008年
9 記者 毛濤濤;[N];北京商報;2008年
10 笑愉;[N];中國稅務報;2008年
中國博士學位論文全文數據庫 前10條
1 趙鐵柱;分布式文件系統(tǒng)性能建模及應用研究[D];華南理工大學;2011年
2 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
3 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
4 蘇君華;面向搜索引擎的技術接受模型研究[D];南京大學;2011年
5 劉佐達;分布協(xié)作式搜索引擎模型及算法研究[D];清華大學;2011年
6 陳旭毅;基于索引云的企業(yè)搜索引擎實現(xiàn)研究[D];武漢大學;2011年
7 郭眈;中文互聯(lián)網視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學;2012年
8 王镠璞;基于用戶體驗的互聯(lián)網搜索引擎醫(yī)學信息檢索可用性評估研究[D];吉林大學;2010年
9 李莎莎;面向搜索引擎的自然語言處理關鍵技術研究[D];國防科學技術大學;2011年
10 白玉琪;空間信息搜索引擎研究[D];中國科學院研究生院(遙感應用研究所);2003年
中國碩士學位論文全文數據庫 前10條
1 薛云;Internet上元搜索引擎的研究與設計[D];太原理工大學;2003年
2 王春花;基于Nutch的農業(yè)搜索引擎檢索結果排序策略的研究[D];西北農林科技大學;2010年
3 李海豐;基于Lucene的企業(yè)文檔搜索引擎研究與應用[D];中南林業(yè)科技大學;2009年
4 趙善明;基于Lucene的主題搜索引擎研究[D];西安電子科技大學;2008年
5 李雷;基于Nutch的農業(yè)信息搜索引擎實現(xiàn)和優(yōu)化[D];吉林大學;2011年
6 董晨;基于模糊聚類的個性化搜索引擎的研究[D];福州大學;2005年
7 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年
8 李浩;分布式教育網信息檢索系統(tǒng)的研究和實現(xiàn)[D];華南理工大學;2010年
9 王春芹;搜索引擎主題相關性研究[D];中山大學;2010年
10 張盛蕾;基于Java的浙江紡織服裝學院校園網搜索引擎[D];電子科技大學;2010年
本文關鍵詞:搜索引擎中分布式文件系統(tǒng)的研究與優(yōu)化,,由筆耕文化傳播整理發(fā)布。
本文編號:58110
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/58110.html