基于Spark的數(shù)據(jù)實(shí)時分析處理系統(tǒng)的設(shè)計與實(shí)現(xiàn)
發(fā)布時間:2022-12-10 10:39
隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,人們從網(wǎng)絡(luò)上獲取信息的方式越來越豐富,同時向網(wǎng)絡(luò)里傳播的信息也越來越多,每時每刻都有巨量的數(shù)據(jù)產(chǎn)生。在分布式技術(shù)日益成熟的今天,海量數(shù)據(jù)的存儲管理難題已經(jīng)通過分布式文件系統(tǒng)得到較好的解決,對海量數(shù)據(jù)中信息的檢索查找,Hadoop、HBase等技術(shù)也已能解決大部分的業(yè)務(wù)場景需求。但是人們對科學(xué)的追求永無止境,能不能比之前更進(jìn)一步,追求更實(shí)時地對數(shù)據(jù)進(jìn)行處理分析已經(jīng)成為所有領(lǐng)域的共同愿望。大量有價值的知識和潛在的規(guī)律信息被蘊(yùn)藏在數(shù)據(jù)中,這些數(shù)據(jù)的價值會隨著時間的流逝而減少,怎么有效接收管理這些數(shù)據(jù)并快速分析,發(fā)掘計算出數(shù)據(jù)背后的信息,實(shí)現(xiàn)實(shí)時統(tǒng)計、預(yù)測和決策等功能,成為現(xiàn)在重大的發(fā)展機(jī)遇與研究熱點(diǎn),亟需一個高效快速、穩(wěn)定、高吞吐量的實(shí)時分析處理系統(tǒng)去對來自各個數(shù)據(jù)源的數(shù)據(jù)進(jìn)行高效、實(shí)時、準(zhǔn)確的統(tǒng)計分析。現(xiàn)在大數(shù)據(jù)的類型越來越復(fù)雜多樣,業(yè)界內(nèi)通俗的解決方案是針對不同的業(yè)務(wù)場景和數(shù)據(jù)類型,專門開發(fā)設(shè)計不同的處理子系統(tǒng),例如實(shí)時流分析使用Storm、離線數(shù)據(jù)分析使用Hadoop,機(jī)器學(xué)習(xí)要建立額外的模塊等,然后通過消息隊列、緩存等技術(shù)把這些子系統(tǒng)編排成一個大...
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究的目的與意義
1.4 主要工作與研究
1.5 本文內(nèi)容的組織結(jié)構(gòu)
第二章 相關(guān)知識背景與技術(shù)介紹
2.1 分布式計算
2.2 Spark大數(shù)據(jù)計算框架
2.2.1 RDD彈性伸縮分布式數(shù)據(jù)集
2.2.2 Spark集群模型
2.2.3 Spark任務(wù)調(diào)度
2.2.4 Spark生態(tài)系統(tǒng)介紹
2.3 數(shù)據(jù)存儲層技術(shù)
2.3.1 分布式文件系統(tǒng)HDFS
2.3.2 基于內(nèi)存的分布式存儲系統(tǒng)Alluxio
2.4 Docker容器技術(shù)概述
2.5 Kubernetes容器編排技術(shù)概述
2.5.1 Kubernetes主要組件
2.5.2 Kubernetes總體架構(gòu)
2.6 本章小節(jié)
第三章 系統(tǒng)平臺架構(gòu)的分析與設(shè)計
3.1 系統(tǒng)需求分析和設(shè)計目標(biāo)
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)數(shù)據(jù)處理框架分析
3.2.1 MapReduce計算模型
3.2.2 Spark中改進(jìn)mapReduce的地方
3.3 實(shí)時數(shù)據(jù)處理系統(tǒng)平臺整體架構(gòu)設(shè)計與實(shí)現(xiàn)
3.4 本章小結(jié)
第四章 新型ETL模塊的分析與實(shí)現(xiàn)
4.1 模塊總體設(shè)計與功能分析
4.1.1 傳統(tǒng)ETL面臨的問題
4.1.2 新型ETL模塊的功能和特點(diǎn)
4.1.3 模塊結(jié)構(gòu)與工作原理
4.2 數(shù)據(jù)收發(fā)子模塊設(shè)計與實(shí)現(xiàn)
4.2.1 Kafka
4.2.2 數(shù)據(jù)采集層
4.2.3 數(shù)據(jù)輸出層
4.3 轉(zhuǎn)換子模塊的設(shè)計與實(shí)現(xiàn)
4.3.1 數(shù)據(jù)格式轉(zhuǎn)換
4.3.2 數(shù)據(jù)去重和字段融合
4.3.3 數(shù)據(jù)源融合
4.4 本章小結(jié)
第五章 實(shí)時處理模塊的分析與實(shí)現(xiàn)
5.1 模塊總體設(shè)計與功能分析
5.1.1 實(shí)時處理模塊的功能和特點(diǎn)
5.1.2 模塊結(jié)構(gòu)與工作原理
5.2 實(shí)時處理模塊的分析與實(shí)現(xiàn)
5.2.1 DataFrame結(jié)構(gòu)化數(shù)據(jù)
5.2.2 實(shí)時流轉(zhuǎn)換無限表模型
5.2.3 實(shí)時流處理方法
5.2.4 滑動窗口實(shí)時流處理方法
5.2.5 實(shí)時決策
5.3 系統(tǒng)優(yōu)化
5.3.1 數(shù)據(jù)傾斜
5.3.2 Spark與Redis結(jié)合
5.4 本章小結(jié)
第六章 系統(tǒng)實(shí)驗(yàn)與應(yīng)用
6.1 實(shí)驗(yàn)平臺和參數(shù)配置
6.2 測試數(shù)據(jù)源
6.3 實(shí)驗(yàn)測試
6.3.1 功能測試
6.3.2 性能測試
6.4 基于Spark的實(shí)時廣告點(diǎn)擊預(yù)測應(yīng)用
6.5 實(shí)驗(yàn)總結(jié)
第七章 全文工作總結(jié)與展望
7.1 工作總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]中國正迎來從IT時代到DT時代的變革[J]. 白皓. 中國廣播. 2015(07)
[2]Storm實(shí)現(xiàn)的應(yīng)用模型研究[J]. 鄧立龍,徐海水. 廣東工業(yè)大學(xué)學(xué)報. 2014(03)
[3]MapReduce:新型的分布式并行計算編程模型[J]. 李成華,張新訪,金海,向文. 計算機(jī)工程與科學(xué). 2011(03)
本文編號:3716601
【文章頁數(shù)】:90 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.3 研究的目的與意義
1.4 主要工作與研究
1.5 本文內(nèi)容的組織結(jié)構(gòu)
第二章 相關(guān)知識背景與技術(shù)介紹
2.1 分布式計算
2.2 Spark大數(shù)據(jù)計算框架
2.2.1 RDD彈性伸縮分布式數(shù)據(jù)集
2.2.2 Spark集群模型
2.2.3 Spark任務(wù)調(diào)度
2.2.4 Spark生態(tài)系統(tǒng)介紹
2.3 數(shù)據(jù)存儲層技術(shù)
2.3.1 分布式文件系統(tǒng)HDFS
2.3.2 基于內(nèi)存的分布式存儲系統(tǒng)Alluxio
2.4 Docker容器技術(shù)概述
2.5 Kubernetes容器編排技術(shù)概述
2.5.1 Kubernetes主要組件
2.5.2 Kubernetes總體架構(gòu)
2.6 本章小節(jié)
第三章 系統(tǒng)平臺架構(gòu)的分析與設(shè)計
3.1 系統(tǒng)需求分析和設(shè)計目標(biāo)
3.1.1 功能性需求
3.1.2 非功能性需求
3.2 系統(tǒng)數(shù)據(jù)處理框架分析
3.2.1 MapReduce計算模型
3.2.2 Spark中改進(jìn)mapReduce的地方
3.3 實(shí)時數(shù)據(jù)處理系統(tǒng)平臺整體架構(gòu)設(shè)計與實(shí)現(xiàn)
3.4 本章小結(jié)
第四章 新型ETL模塊的分析與實(shí)現(xiàn)
4.1 模塊總體設(shè)計與功能分析
4.1.1 傳統(tǒng)ETL面臨的問題
4.1.2 新型ETL模塊的功能和特點(diǎn)
4.1.3 模塊結(jié)構(gòu)與工作原理
4.2 數(shù)據(jù)收發(fā)子模塊設(shè)計與實(shí)現(xiàn)
4.2.1 Kafka
4.2.2 數(shù)據(jù)采集層
4.2.3 數(shù)據(jù)輸出層
4.3 轉(zhuǎn)換子模塊的設(shè)計與實(shí)現(xiàn)
4.3.1 數(shù)據(jù)格式轉(zhuǎn)換
4.3.2 數(shù)據(jù)去重和字段融合
4.3.3 數(shù)據(jù)源融合
4.4 本章小結(jié)
第五章 實(shí)時處理模塊的分析與實(shí)現(xiàn)
5.1 模塊總體設(shè)計與功能分析
5.1.1 實(shí)時處理模塊的功能和特點(diǎn)
5.1.2 模塊結(jié)構(gòu)與工作原理
5.2 實(shí)時處理模塊的分析與實(shí)現(xiàn)
5.2.1 DataFrame結(jié)構(gòu)化數(shù)據(jù)
5.2.2 實(shí)時流轉(zhuǎn)換無限表模型
5.2.3 實(shí)時流處理方法
5.2.4 滑動窗口實(shí)時流處理方法
5.2.5 實(shí)時決策
5.3 系統(tǒng)優(yōu)化
5.3.1 數(shù)據(jù)傾斜
5.3.2 Spark與Redis結(jié)合
5.4 本章小結(jié)
第六章 系統(tǒng)實(shí)驗(yàn)與應(yīng)用
6.1 實(shí)驗(yàn)平臺和參數(shù)配置
6.2 測試數(shù)據(jù)源
6.3 實(shí)驗(yàn)測試
6.3.1 功能測試
6.3.2 性能測試
6.4 基于Spark的實(shí)時廣告點(diǎn)擊預(yù)測應(yīng)用
6.5 實(shí)驗(yàn)總結(jié)
第七章 全文工作總結(jié)與展望
7.1 工作總結(jié)
7.2 展望
致謝
參考文獻(xiàn)
攻讀碩士學(xué)位期間取得的成果
【參考文獻(xiàn)】:
期刊論文
[1]中國正迎來從IT時代到DT時代的變革[J]. 白皓. 中國廣播. 2015(07)
[2]Storm實(shí)現(xiàn)的應(yīng)用模型研究[J]. 鄧立龍,徐海水. 廣東工業(yè)大學(xué)學(xué)報. 2014(03)
[3]MapReduce:新型的分布式并行計算編程模型[J]. 李成華,張新訪,金海,向文. 計算機(jī)工程與科學(xué). 2011(03)
本文編號:3716601
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3716601.html
最近更新
教材專著