分布式平臺下多數(shù)據(jù)集連接優(yōu)化方法研究
發(fā)布時間:2019-09-02 18:18
【摘要】:隨著信息技術(shù)的日益發(fā)展,如何處理海量數(shù)據(jù)成為目前的研究熱點。Map Reduce分布式計算框架以其處理數(shù)據(jù)量大、簡單易用、可擴(kuò)展性強等特點成為進(jìn)行大數(shù)據(jù)處理時的主要選擇之一。但對于數(shù)據(jù)處理中十分重要且常見的連接操作,MapReduce框架的特點決定了它僅在處理單屬性等值連接時有著較好的表現(xiàn),由于涉及到連接方案選擇等問題,其在進(jìn)行多數(shù)據(jù)集的任意連接時效率并不高。所以針對Map Reduce下的多數(shù)據(jù)集任意連接優(yōu)化方法的研究,對于提高大數(shù)據(jù)處理的效率具有重要的意義。完善了現(xiàn)有的開銷估算模型,細(xì)化了計算、排序、合并等操作以及內(nèi)存與磁盤間數(shù)據(jù)交換的開銷。并加入了分布擬合操作,能夠比較準(zhǔn)確地獲取待連接數(shù)據(jù)集的分布形式,從而使得在對數(shù)據(jù)集的連接結(jié)果集規(guī)模估算得更加準(zhǔn)確。利用該估算模型對數(shù)據(jù)集連接進(jìn)行開銷估算時獲得的估算結(jié)果更加精確,進(jìn)而能夠在此基礎(chǔ)上制定更加合理高效的連接方案,提升整體的連接效率。以開銷估算模型為基礎(chǔ),制定了基于連接集合劃分與覆蓋的多數(shù)據(jù)集連接方法。方法將一次連接操作看作一個連接集合,首先將整體的連接關(guān)系看作連接全集并劃分為若干個連接子集,劃分過程中運用剪枝策略,減少劃分得到的子集數(shù)量;之后運用蟻群算法,對劃分好的集合進(jìn)行最優(yōu)集合覆蓋求解,能夠覆蓋全集的子集就代表著能夠?qū)⑺袛?shù)據(jù)集連接起來的連接操作;再對得到的集合覆蓋結(jié)果重復(fù)上述操作,直到得到最終的連接方案。集合劃分操作保證了連接方案的全面性,帶權(quán)集合覆蓋的求解保證了連接方案的高效性,最終提高了整體的連接效率。將進(jìn)行了優(yōu)化的連接方法與現(xiàn)有的其他多種連接方法及工具在不同的連接形式下進(jìn)行對比實驗。實驗結(jié)果表明,設(shè)計的連接方法更能適應(yīng)各種連接條件,性能表現(xiàn)優(yōu)于其他方法,提升了多數(shù)據(jù)集任意連接的效率。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
本文編號:2531091
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【參考文獻(xiàn)】
相關(guān)期刊論文 前5條
1 戴健;丁治明;;基于MapReduce快速kNN Join方法[J];計算機學(xué)報;2015年01期
2 史英杰;孟小峰;;云數(shù)據(jù)管理系統(tǒng)中查詢技術(shù)研究綜述[J];計算機學(xué)報;2013年02期
3 張延松;;數(shù)據(jù)庫與MapReduce融合的大數(shù)據(jù)管理技術(shù)探索[J];科研信息化技術(shù)與應(yīng)用;2013年01期
4 郝樹魁;;Hadoop HDFS和MapReduce架構(gòu)淺析[J];郵電設(shè)計技術(shù);2012年07期
5 段海濱,王道波,朱家強,黃向華;蟻群算法理論及應(yīng)用研究的進(jìn)展[J];控制與決策;2004年12期
相關(guān)碩士學(xué)位論文 前2條
1 孫惠;基于Hadoop框架的大數(shù)據(jù)集連接優(yōu)化算法[D];南京郵電大學(xué);2013年
2 倪志鵬;基于連接索引的查詢優(yōu)化研究[D];華中科技大學(xué);2006年
,本文編號:2531091
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2531091.html
最近更新
教材專著