大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)及查詢優(yōu)化研究
本文關(guān)鍵詞:大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)及查詢優(yōu)化研究 出處:《河北工程大學(xué)》2014年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: 大數(shù)據(jù) MapReduce 行列存儲(chǔ) 查詢優(yōu)化 分布式
【摘要】:大數(shù)據(jù)不僅需要海量存儲(chǔ)的系統(tǒng),而且需要高速的數(shù)據(jù)加載、快速的查詢處理、存儲(chǔ)空間的高利用率以及適應(yīng)動(dòng)態(tài)高負(fù)載。由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫在管理大數(shù)據(jù)時(shí)遇到各種困難和阻礙,新型分布式系統(tǒng)應(yīng)運(yùn)而生。但在大數(shù)據(jù)存儲(chǔ)和查詢?nèi)杂胁蛔阒,本文從?shù)據(jù)存儲(chǔ)結(jié)構(gòu)和MapReduce作業(yè)相關(guān)性兩個(gè)方面對分布式系統(tǒng)下大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)及查詢優(yōu)化分析研究。 在分布式系統(tǒng)中,數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)直接影響大數(shù)據(jù)的存儲(chǔ)效率和處理性能。行式存儲(chǔ)結(jié)構(gòu)下,數(shù)據(jù)從本地讀取,加載速度快,但壓縮效率低且加載了多余數(shù)據(jù);列式存儲(chǔ)結(jié)構(gòu)下,數(shù)據(jù)壓縮效率高,但數(shù)據(jù)跨節(jié)點(diǎn)訪問增加了網(wǎng)絡(luò)傳輸消耗。針對行式存儲(chǔ)結(jié)構(gòu)和列式存儲(chǔ)結(jié)構(gòu)的特點(diǎn),提出一種以行列結(jié)合的存儲(chǔ)方式,對數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)進(jìn)行改進(jìn)。通過理論比較分析,行列結(jié)合存儲(chǔ)在數(shù)據(jù)加載速度上略低于行式存儲(chǔ);在數(shù)據(jù)壓縮效率上,比行式存儲(chǔ)和列式存儲(chǔ)的效率都高。行列結(jié)合的存儲(chǔ)結(jié)構(gòu)不僅避免行式存儲(chǔ)的額外磁盤I/O開銷,同時(shí)也減少了列式存儲(chǔ)不必要的網(wǎng)絡(luò)傳輸,,極大地提高分布式系統(tǒng)對大數(shù)據(jù)存儲(chǔ)效率及處理性能。 現(xiàn)有翻譯方式在復(fù)雜SQL查詢時(shí)存在的低性能問題,其原因是忽略了MapReduce作業(yè)間的相關(guān)性,產(chǎn)生了大量冗余操作,消耗不必要的資源,從而急劇降低了查詢性能。本文從輸入相關(guān)性,數(shù)據(jù)轉(zhuǎn)換相關(guān)性,作業(yè)流相關(guān)性三個(gè)方面對翻譯結(jié)果進(jìn)行優(yōu)化改進(jìn),并給出優(yōu)化條件和優(yōu)化規(guī)則,合并冗余的MapReduce作業(yè)以減少不必要的資源消耗,從而提高大數(shù)據(jù)查詢速度。
[Abstract]:Big data need not only mass storage system, but also high speed data loading, fast query processing, high utilization of storage space and dynamic high load. Since the traditional relational database has encountered various difficulties and obstacles in managing large data, the new distributed system emerges as the times require. But there are still some shortcomings in big data storage and query. In this paper, we analyze the storage structure and query optimization of distributed data from two aspects: data storage structure and MapReduce job correlation.
【學(xué)位授予單位】:河北工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP311.13;TP333
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 張權(quán);張志遠(yuǎn);王燕;張濤;;海量氣象水文數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的研究與實(shí)現(xiàn)[J];氣象水文海洋儀器;2010年03期
2 趙尹琛;馬國華;馬傳龍;王婷娟;;基于云計(jì)算的安全數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的研究[J];電腦知識(shí)與技術(shù);2013年19期
3 牛鐵龍;;淺析新聞?lì)惙蔷性編輯網(wǎng)絡(luò)的主體——數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)[J];中國有線電視;2007年14期
4 姚屏;姚宏;;機(jī)械圖形的XML數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)設(shè)計(jì)[J];廣東技術(shù)師范學(xué)院學(xué)報(bào);2008年06期
5 廖麗瓊;白俊松;羅德安;;基于八叉樹及KD樹的混合型點(diǎn)云數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2012年03期
6 李永奎,李寶筏,胡艷清;信號(hào)采集與分析計(jì)算機(jī)系統(tǒng)中多樣本數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的設(shè)計(jì)[J];沈陽農(nóng)業(yè)大學(xué)學(xué)報(bào);2002年02期
7 陳衛(wèi)衛(wèi);王艷;;基于NoSQL數(shù)據(jù)庫的通用數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的設(shè)計(jì)方案[J];價(jià)值工程;2012年26期
8 王守寧,關(guān)豐富;對書目元數(shù)據(jù)的探討[J];圖書館學(xué)研究;2004年01期
9 張慧玲;寧立;孟金濤;魏彥杰;馮圣中;;大規(guī)模圖處理研究[J];網(wǎng)絡(luò)新媒體技術(shù);2014年01期
10 劉利;;基于NAS和SAN技術(shù)的校園網(wǎng)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)策略[J];阜陽師范學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年02期
相關(guān)會(huì)議論文 前2條
1 李永奎;馬成林;;信號(hào)計(jì)算機(jī)檢測與處理系統(tǒng)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的設(shè)計(jì)[A];第三屆全國信息獲取與處理學(xué)術(shù)會(huì)議論文集[C];2005年
2 鄧志勇;;機(jī)動(dòng)車合格證系統(tǒng)業(yè)務(wù)分析與關(guān)鍵數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)[A];創(chuàng)新驅(qū)動(dòng),加快戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展——吉林省第七屆科學(xué)技術(shù)學(xué)術(shù)年會(huì)論文集(上)[C];2012年
相關(guān)碩士學(xué)位論文 前3條
1 周凱東;大數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)及查詢優(yōu)化研究[D];河北工程大學(xué);2014年
2 劉其洪;LED屏顯控制系統(tǒng)設(shè)計(jì)與數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)研究[D];湖南師范大學(xué);2010年
3 宋仁才;基于SaaS架構(gòu)的可定制模型的研究[D];吉林大學(xué);2012年
本文編號(hào):1345884
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/1345884.html