天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

分布式平臺下多數(shù)據(jù)集連接優(yōu)化方法研究

發(fā)布時間:2019-09-02 18:18
【摘要】:隨著信息技術(shù)的日益發(fā)展,如何處理海量數(shù)據(jù)成為目前的研究熱點。Map Reduce分布式計算框架以其處理數(shù)據(jù)量大、簡單易用、可擴(kuò)展性強等特點成為進(jìn)行大數(shù)據(jù)處理時的主要選擇之一。但對于數(shù)據(jù)處理中十分重要且常見的連接操作,MapReduce框架的特點決定了它僅在處理單屬性等值連接時有著較好的表現(xiàn),由于涉及到連接方案選擇等問題,其在進(jìn)行多數(shù)據(jù)集的任意連接時效率并不高。所以針對Map Reduce下的多數(shù)據(jù)集任意連接優(yōu)化方法的研究,對于提高大數(shù)據(jù)處理的效率具有重要的意義。完善了現(xiàn)有的開銷估算模型,細(xì)化了計算、排序、合并等操作以及內(nèi)存與磁盤間數(shù)據(jù)交換的開銷。并加入了分布擬合操作,能夠比較準(zhǔn)確地獲取待連接數(shù)據(jù)集的分布形式,從而使得在對數(shù)據(jù)集的連接結(jié)果集規(guī)模估算得更加準(zhǔn)確。利用該估算模型對數(shù)據(jù)集連接進(jìn)行開銷估算時獲得的估算結(jié)果更加精確,進(jìn)而能夠在此基礎(chǔ)上制定更加合理高效的連接方案,提升整體的連接效率。以開銷估算模型為基礎(chǔ),制定了基于連接集合劃分與覆蓋的多數(shù)據(jù)集連接方法。方法將一次連接操作看作一個連接集合,首先將整體的連接關(guān)系看作連接全集并劃分為若干個連接子集,劃分過程中運用剪枝策略,減少劃分得到的子集數(shù)量;之后運用蟻群算法,對劃分好的集合進(jìn)行最優(yōu)集合覆蓋求解,能夠覆蓋全集的子集就代表著能夠?qū)⑺袛?shù)據(jù)集連接起來的連接操作;再對得到的集合覆蓋結(jié)果重復(fù)上述操作,直到得到最終的連接方案。集合劃分操作保證了連接方案的全面性,帶權(quán)集合覆蓋的求解保證了連接方案的高效性,最終提高了整體的連接效率。將進(jìn)行了優(yōu)化的連接方法與現(xiàn)有的其他多種連接方法及工具在不同的連接形式下進(jìn)行對比實驗。實驗結(jié)果表明,設(shè)計的連接方法更能適應(yīng)各種連接條件,性能表現(xiàn)優(yōu)于其他方法,提升了多數(shù)據(jù)集任意連接的效率。
【學(xué)位授予單位】:華中科技大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 戴健;丁治明;;基于MapReduce快速kNN Join方法[J];計算機學(xué)報;2015年01期

2 史英杰;孟小峰;;云數(shù)據(jù)管理系統(tǒng)中查詢技術(shù)研究綜述[J];計算機學(xué)報;2013年02期

3 張延松;;數(shù)據(jù)庫與MapReduce融合的大數(shù)據(jù)管理技術(shù)探索[J];科研信息化技術(shù)與應(yīng)用;2013年01期

4 郝樹魁;;Hadoop HDFS和MapReduce架構(gòu)淺析[J];郵電設(shè)計技術(shù);2012年07期

5 段海濱,王道波,朱家強,黃向華;蟻群算法理論及應(yīng)用研究的進(jìn)展[J];控制與決策;2004年12期

相關(guān)碩士學(xué)位論文 前2條

1 孫惠;基于Hadoop框架的大數(shù)據(jù)集連接優(yōu)化算法[D];南京郵電大學(xué);2013年

2 倪志鵬;基于連接索引的查詢優(yōu)化研究[D];華中科技大學(xué);2006年

,

本文編號:2531091

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2531091.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶4de0d***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com