天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

Spark SQL結(jié)構(gòu)化數(shù)據(jù)處理及性能優(yōu)化

發(fā)布時間:2023-11-27 20:54
  近年來Spark內(nèi)存計算框架快速崛起,數(shù)據(jù)處理速度得到極大的提高,但是其速度上限卻受限于Spark內(nèi)存規(guī)模。當(dāng)數(shù)據(jù)量小于或接近內(nèi)存容量時Spark性能最好,反之則性能較差。因此Spark SQL在處理以4G行業(yè)卡數(shù)據(jù)為代表的通信大數(shù)據(jù)時暴露出了諸多問題,如讀寫速度和查詢速度緩慢、系統(tǒng)資源分配不均或不足、大表Join效率低等。本文從Spark SQL的數(shù)據(jù)組織方式、Spark資源管理機制和Join算法三個方面處理結(jié)構(gòu)化數(shù)據(jù)并進行相關(guān)的性能優(yōu)化。首先提出了改進的數(shù)據(jù)組織框架以提高Spark SQL的讀寫和查詢速度,其次建立了資源監(jiān)控模型合理的分配和使用資源,最后基于改進的數(shù)據(jù)組織框架和監(jiān)控模型改進了大表Join算法。主要工作如下:(1)本文通過分析和對比Spark SQL和Hbase的數(shù)據(jù)組織方式,提出了一種改進的數(shù)據(jù)組織框架。該框架首先改進了Parquet文件格式的讀寫接口,其次利用Hbase+Phoenix構(gòu)建了二級索引,大幅提升了4G行業(yè)卡數(shù)據(jù)的讀寫和查詢速度。(2)本文進一步研究了Spark的內(nèi)存模型和資源使用情況,通過性能監(jiān)控獲取集群底層各項參數(shù),建立了內(nèi)存監(jiān)控模型對資源使用情況...

【文章頁數(shù)】:81 頁

【學(xué)位級別】:碩士

【文章目錄】:
摘要
abstract
第1章 緒論
    1.1 研究背景及意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 數(shù)據(jù)組織方式研究現(xiàn)狀
        1.2.2 Join算法研究現(xiàn)狀
        1.2.3 Spark資源優(yōu)化研究現(xiàn)狀
    1.3 論文主要工作
    1.4 論文組織結(jié)構(gòu)
第2章 Spark SQL及 Hbase技術(shù)基礎(chǔ)
    2.1 Spark SQL數(shù)據(jù)組織框架
        2.1.1 Spark SQL查詢機制
        2.1.2 Spark SQL文件格式
        2.1.3 Parquet文件格式
    2.2 Hbase數(shù)據(jù)組織框架
        2.2.1 Hbase查詢機制
        2.2.2 Hbase文件格式
        2.2.3 Phoenix映射關(guān)系
    2.3 Spark資源管理機制
        2.3.1 Spark運行機制
        2.3.2 Spark內(nèi)存模型
    2.4 Spark Join算法
        2.4.1 分布式Join算法分類
        2.4.2 BloomFilter算法
    2.5 本章小結(jié)
第3章 Spark SQL數(shù)據(jù)組織方式設(shè)計
    3.1 Spark SQL問題分析
        3.1.1 數(shù)據(jù)讀寫問題
        3.1.2 數(shù)據(jù)存儲問題
        3.1.3 存儲格式對比分析
        3.1.4 Spark SQL與 Hbase整合分析
    3.2 4G行業(yè)卡數(shù)據(jù)組織框架設(shè)計
        3.2.1 業(yè)務(wù)場景分析
        3.2.2 Spark SQL讀寫接口改進
        3.2.3 Spark SQL與 Hbase框架整合
    3.3 實驗及結(jié)果分析
        3.3.1 實驗環(huán)境
        3.3.2 實驗結(jié)果分析
    3.4 本章小結(jié)
第4章 大表關(guān)聯(lián)算法研究
    4.1 Spark SQL大表關(guān)聯(lián)問題分析
        4.1.1 Sort Merge Join問題分析
        4.1.2 分批Join策略
    4.2 內(nèi)存監(jiān)控模型設(shè)計
        4.2.1 性能指標(biāo)分析
        4.2.2 內(nèi)存監(jiān)控模型
        4.2.3 資源分級及預(yù)警
    4.3 分批Join算法設(shè)計
        4.3.1 算法概述
        4.3.2 算法詳細(xì)流程
        4.3.3 算法開銷分析
    4.4 實驗及結(jié)果分析
        4.4.1 實驗環(huán)境
        4.4.2 實驗結(jié)果分析
    4.5 本章小結(jié)
第5章 工作總結(jié)和展望
    5.1 論文工作總結(jié)
    5.2 工作展望
參考文獻
致謝
攻讀碩士學(xué)位期間從事的科研工作及取得的成果



本文編號:3868557

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3868557.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e4aaa***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com