異構(gòu)數(shù)據(jù)同步系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2024-02-16 02:42
為了解決海量數(shù)據(jù)的分析需求,圍繞Hive進行大數(shù)據(jù)倉庫建設并在之上使用HiveQL進行統(tǒng)計分析是業(yè)界常用的解決方案。企業(yè)通常使用開源數(shù)據(jù)同步工具Kettle、Sqoop等將業(yè)務數(shù)據(jù)庫產(chǎn)生的歷史數(shù)據(jù)、實時增量數(shù)據(jù)以及歷史文件數(shù)據(jù)同步到Hive倉庫中。經(jīng)過前期的調(diào)研與研究,發(fā)現(xiàn)開源數(shù)據(jù)同步工具存在以下問題:a)在歷史數(shù)據(jù)同步任務中開源數(shù)據(jù)同步工具雖然提供了強大的功能,但操作復雜,使用門檻高;b)實時數(shù)據(jù)同步任務對線上業(yè)務數(shù)據(jù)庫進行I/O操作,影響線上業(yè)務數(shù)據(jù)庫性能,延遲高;c)文件數(shù)據(jù)一般存儲在單臺物理機器上,可能發(fā)生磁盤損壞導致文件丟失的情況,開源數(shù)據(jù)同步工具創(chuàng)建的文件數(shù)據(jù)同步任務無法保證客戶端文件數(shù)據(jù)的安全性,同時沒有提供方便的了解文件的元數(shù)據(jù)視圖;d)開源數(shù)據(jù)同步工具孤立、很難和大數(shù)據(jù)統(tǒng)計分析業(yè)務整合到一起。本文針對以上問題構(gòu)建了一個異構(gòu)數(shù)據(jù)同步系統(tǒng)。主要研究內(nèi)容包括以下四個部分:1)針對在歷史數(shù)據(jù)同步任務中操作復雜,使用門檻高等問題,研究實現(xiàn)了一種基于Spark的歷史數(shù)據(jù)同步子系統(tǒng);2)針對在實時數(shù)據(jù)同步任務中存在的對線上業(yè)務數(shù)據(jù)庫進行I/O操作,影響線上業(yè)務數(shù)據(jù)庫性能,延遲高等問...
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀分析
1.3 論文目標及主要研究內(nèi)容
1.4 碩士期間主要工作
1.5 論文組織結(jié)構(gòu)
第二章 異構(gòu)數(shù)據(jù)同步系統(tǒng)的需求分析和與整體架構(gòu)設計
2.1 數(shù)據(jù)同步系統(tǒng)的特點
2.2 異構(gòu)數(shù)據(jù)同步系統(tǒng)的需求分析
2.2.1 歷史數(shù)據(jù)同步需求分析
2.2.2 實時數(shù)據(jù)同步需求分析
2.2.3 文件數(shù)據(jù)同步需求分析
2.2.4 可視化大屏需求分析
2.3 異構(gòu)數(shù)據(jù)同步系統(tǒng)的整體架構(gòu)設計
2.3.1 歷史數(shù)據(jù)同步子系統(tǒng)概述
2.3.2 實時數(shù)據(jù)同步子系統(tǒng)概述
2.3.3 文件數(shù)據(jù)同步子系統(tǒng)概述
2.3.4 可視化大屏子系統(tǒng)概述
2.4 異構(gòu)數(shù)據(jù)同步系統(tǒng)的整體功能設計
2.5 異構(gòu)數(shù)據(jù)同步任務數(shù)據(jù)庫設計
2.6 本章小結(jié)
第三章 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)的研究與實現(xiàn)
3.1 研究的動機與設計目標
3.1.1 研究動機
3.1.2 設計目標
3.2 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)技術(shù)架構(gòu)設計
3.3 設計實現(xiàn)流程
3.4 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)的詳細實現(xiàn)
3.4.1 數(shù)據(jù)源讀取模塊
3.4.2 數(shù)據(jù)過濾處理模塊
3.4.3 數(shù)據(jù)裝載模塊
3.4.4 Web平臺模塊
3.5 本章小結(jié)
第四章 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)的研究與實現(xiàn)
4.1 研究的動機與設計目標
4.1.1 研究動機
4.1.2 設計目標
4.2 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)技術(shù)架構(gòu)設計
4.3 設計實現(xiàn)流程
4.4 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)的詳細實現(xiàn)
4.4.1 日志解析模塊
4.4.2 異步傳輸模塊
4.4.3 數(shù)據(jù)處理模塊
4.4.4 數(shù)據(jù)倉庫模塊
4.4.5 Web平臺模塊
4.5 本章小結(jié)
第五章 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)的研究與實現(xiàn)
5.1 研究的動機與設計目標
5.1.1 研究動機
5.1.2 設計目標
5.2 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)技術(shù)架構(gòu)設計
5.3 設計實現(xiàn)流程
5.4 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)的詳細實現(xiàn)
5.4.1 文件上傳模塊
5.4.2 元數(shù)據(jù)管理模塊
5.4.3 實現(xiàn)數(shù)據(jù)讀寫模塊
5.5 本章小結(jié)
第六章 基于Quartz定時任務的可視化大屏子系統(tǒng)的研究與實現(xiàn)
6.1 研究的動機與設計目標
6.1.1 研究動機
6.1.2 設計目標
6.2 基于Quartz定時任務的可視化大屏子系統(tǒng)技術(shù)架構(gòu)設計
6.3 設計實現(xiàn)流程
6.4 基于Quartz定時任務的可視化大屏子系統(tǒng)的詳細實現(xiàn)
6.4.1 自定義統(tǒng)計指標模塊
6.4.2 可視化大屏配置模塊
6.4.3 可視化大屏模塊
6.5 本章小結(jié)
第七章 異構(gòu)數(shù)據(jù)同步系統(tǒng)的系統(tǒng)展示與測試
7.1 測試環(huán)境
7.2 功能測試
7.2.1 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)功能測試
7.2.2 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)功能測試
7.2.3 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)功能測試
7.2.4 基于Quartz定時任務的可視化大屏子系統(tǒng)功能測試
7.3 性能測試
7.4 本章小結(jié)
第八章 總結(jié)與展望
8.1 本文工作總結(jié)
8.2 本文的不足及展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3900681
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內(nèi)外研究現(xiàn)狀分析
1.3 論文目標及主要研究內(nèi)容
1.4 碩士期間主要工作
1.5 論文組織結(jié)構(gòu)
第二章 異構(gòu)數(shù)據(jù)同步系統(tǒng)的需求分析和與整體架構(gòu)設計
2.1 數(shù)據(jù)同步系統(tǒng)的特點
2.2 異構(gòu)數(shù)據(jù)同步系統(tǒng)的需求分析
2.2.1 歷史數(shù)據(jù)同步需求分析
2.2.2 實時數(shù)據(jù)同步需求分析
2.2.3 文件數(shù)據(jù)同步需求分析
2.2.4 可視化大屏需求分析
2.3 異構(gòu)數(shù)據(jù)同步系統(tǒng)的整體架構(gòu)設計
2.3.1 歷史數(shù)據(jù)同步子系統(tǒng)概述
2.3.2 實時數(shù)據(jù)同步子系統(tǒng)概述
2.3.3 文件數(shù)據(jù)同步子系統(tǒng)概述
2.3.4 可視化大屏子系統(tǒng)概述
2.4 異構(gòu)數(shù)據(jù)同步系統(tǒng)的整體功能設計
2.5 異構(gòu)數(shù)據(jù)同步任務數(shù)據(jù)庫設計
2.6 本章小結(jié)
第三章 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)的研究與實現(xiàn)
3.1 研究的動機與設計目標
3.1.1 研究動機
3.1.2 設計目標
3.2 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)技術(shù)架構(gòu)設計
3.3 設計實現(xiàn)流程
3.4 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)的詳細實現(xiàn)
3.4.1 數(shù)據(jù)源讀取模塊
3.4.2 數(shù)據(jù)過濾處理模塊
3.4.3 數(shù)據(jù)裝載模塊
3.4.4 Web平臺模塊
3.5 本章小結(jié)
第四章 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)的研究與實現(xiàn)
4.1 研究的動機與設計目標
4.1.1 研究動機
4.1.2 設計目標
4.2 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)技術(shù)架構(gòu)設計
4.3 設計實現(xiàn)流程
4.4 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)的詳細實現(xiàn)
4.4.1 日志解析模塊
4.4.2 異步傳輸模塊
4.4.3 數(shù)據(jù)處理模塊
4.4.4 數(shù)據(jù)倉庫模塊
4.4.5 Web平臺模塊
4.5 本章小結(jié)
第五章 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)的研究與實現(xiàn)
5.1 研究的動機與設計目標
5.1.1 研究動機
5.1.2 設計目標
5.2 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)技術(shù)架構(gòu)設計
5.3 設計實現(xiàn)流程
5.4 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)的詳細實現(xiàn)
5.4.1 文件上傳模塊
5.4.2 元數(shù)據(jù)管理模塊
5.4.3 實現(xiàn)數(shù)據(jù)讀寫模塊
5.5 本章小結(jié)
第六章 基于Quartz定時任務的可視化大屏子系統(tǒng)的研究與實現(xiàn)
6.1 研究的動機與設計目標
6.1.1 研究動機
6.1.2 設計目標
6.2 基于Quartz定時任務的可視化大屏子系統(tǒng)技術(shù)架構(gòu)設計
6.3 設計實現(xiàn)流程
6.4 基于Quartz定時任務的可視化大屏子系統(tǒng)的詳細實現(xiàn)
6.4.1 自定義統(tǒng)計指標模塊
6.4.2 可視化大屏配置模塊
6.4.3 可視化大屏模塊
6.5 本章小結(jié)
第七章 異構(gòu)數(shù)據(jù)同步系統(tǒng)的系統(tǒng)展示與測試
7.1 測試環(huán)境
7.2 功能測試
7.2.1 基于Spark的歷史數(shù)據(jù)同步子系統(tǒng)功能測試
7.2.2 基于Storm的實時數(shù)據(jù)同步子系統(tǒng)功能測試
7.2.3 基于HDFS的文件數(shù)據(jù)同步子系統(tǒng)功能測試
7.2.4 基于Quartz定時任務的可視化大屏子系統(tǒng)功能測試
7.3 性能測試
7.4 本章小結(jié)
第八章 總結(jié)與展望
8.1 本文工作總結(jié)
8.2 本文的不足及展望
參考文獻
致謝
攻讀學位期間取得的研究成果
本文編號:3900681
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3900681.html
最近更新
教材專著