基于大數(shù)據(jù)技術的EAST實驗數(shù)據(jù)訪問日志分析系統(tǒng)
發(fā)布時間:2021-07-27 06:28
隨著我國自主研發(fā)的EAST(全超導托卡馬克)裝置實驗不斷地開展,產(chǎn)生的實驗數(shù)據(jù)的總量日益增加。實驗數(shù)據(jù)大部分都放在MDSplus中,目前MDSplus的數(shù)據(jù)總量已經(jīng)達到PB級。為了方便實驗人員對MDSplus服務器上的用戶行為和實驗數(shù)據(jù)進行規(guī)范管理,因此對MDSplus實驗數(shù)據(jù)有效地監(jiān)控是很有必要的。需要在現(xiàn)有的MDSplus服務器的基礎上設計一個MDSplus實驗數(shù)據(jù)訪問日志分析系統(tǒng),該系統(tǒng)主要包括日志完善模塊,離線處理模塊,實時處理模塊,監(jiān)控數(shù)據(jù)展示等模塊,F(xiàn)有的MDSplus對數(shù)據(jù)的管理并不包含完善的日志信息。因此系統(tǒng)需要對MDSplus日志模塊進行完善,對用戶和數(shù)據(jù)的訪問信息進行實時地記錄,同時日志能夠根據(jù)Logrotate機制按照時間進行切割轉儲。產(chǎn)生的大量日志信息需要及時地備份到云服務器上,并進行海量日志信息的離線計算,從而得到按照時間周期變化的用戶行為和數(shù)據(jù)信息數(shù)據(jù)。離線的日志數(shù)據(jù)計算采用的是傳統(tǒng)的大數(shù)據(jù)框架高可用的Hadoop技術。在實驗過程中,單一的離線數(shù)據(jù)的計算不能提供及時的MDSplus服務器狀態(tài)信息,包括但不限于服務器出入流量信息,據(jù)此信息可以進行判斷服務器的負...
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
其有RA的H.doop架構
)?Channel??hannel是Agent中另一個重要的組成部分,可以從Source接收來的數(shù)存起來,達到緩沖的作用。接收來的數(shù)據(jù)可以用不同的數(shù)據(jù)格式存以存儲到磁盤山也可以存到內(nèi)存中,存儲的周期和容量都可以自行el從抽象的層面來看,可以看成一個管道,這個管道是隊列的管道。數(shù)據(jù)都依次在這個管道中進行排隊,等待下游Sink進行數(shù)據(jù)的分發(fā)完全存儲到新的位置,管道中相應的數(shù)據(jù)才會刪除。這個過程是事務保證了數(shù)據(jù)傳輸?shù)陌踩院涂煽啃浴??3)?Sink??ink作為下游數(shù)據(jù)的發(fā)送器,從Channel中提取數(shù)據(jù),并將數(shù)據(jù)發(fā)送到置。新的存儲位置可以是HDFS、HBASE、logger等,也可以自行為數(shù)據(jù)采集發(fā)送器,Flume具有強大的優(yōu)勢。首先Flume在收集數(shù)的數(shù)據(jù)達到了高峰時期,下游又來不及進行數(shù)據(jù)的處理,這時候Hu
圖4.1所示,基于大數(shù)據(jù)技術的EAST實驗數(shù)據(jù)訪問日志分析系統(tǒng)的總體上分為EAST實驗數(shù)據(jù)訪問日志的完善、日志數(shù)據(jù)的采集及傳輸存儲及處理平臺、日志數(shù)據(jù)web展示四個大的部分。整個系統(tǒng)的架間耦合性不高,數(shù)據(jù)從采集到展示是全鏈路一站式處理。數(shù)據(jù)完善EAST存儲服務器MDSplus上進行完善,采用鉤子插件的方式對數(shù),可以記錄下所有MDSplus用戶對數(shù)據(jù)服務器的詳細訪問情況。數(shù)輸端,一方面利用Hnux腳本程序將離線日志定期上傳到HDFS服一方面利用Flume對服務器日志文件進行監(jiān)控,將監(jiān)控到的日志數(shù)afka中。其中Kafka作為消息數(shù)據(jù)中間件,負貴負載均衡生產(chǎn)者和數(shù)據(jù)。Hadoop作為日志數(shù)據(jù)的存儲和離線計算框架,按照規(guī)定好的月日進行日志數(shù)據(jù)的統(tǒng)計計算,然后將處理完的數(shù)據(jù)統(tǒng)一規(guī)范化到arkStreaming是整個系統(tǒng)架構中負責流數(shù)據(jù)計算的部分,能夠在秒級服務器出入數(shù)據(jù)流量。Zeppelin和web都是數(shù)據(jù)瀏覽和展示工具。in可以快速訪問HDFS和Mysql中的數(shù)據(jù),快速生成數(shù)據(jù)圖表。除此lin生成的數(shù)據(jù)圖表還可以用url的方式嵌入到web中。??usem
【參考文獻】:
期刊論文
[1]基于Spark Streaming的電力流式大數(shù)據(jù)分析架構及應用[J]. 田璐,齊林海,李青,王紅,田世明,卜凡鵬. 電力信息與通信技術. 2019(02)
[2]基于大數(shù)據(jù)的ETL中的數(shù)據(jù)清洗方案研究[J]. 周瀚章,馮廣,龔旭輝,曾虎,徐啟東. 工業(yè)控制計算機. 2018(12)
[3]基于Kafka的分布式能效管理平臺的設計與實現(xiàn)[J]. 朱幼普,盧軍. 計算機與數(shù)字工程. 2018(12)
[4]EAST實驗數(shù)據(jù)管理系統(tǒng)的設計與實現(xiàn)[J]. 王月婷,王華忠,王楓,劉鴻,章琦皓. 儀表技術. 2018(11)
[5]基于Zookeeper的配置管理中心設計與實現(xiàn)[J]. 苗凡,閻志遠,戴琳琳. 鐵路計算機應用. 2018(10)
[6]基于Spark SQL的分布式全文檢索框架的設計與實現(xiàn)[J]. 崔光范,許利杰,劉杰,葉丹,鐘華. 計算機科學. 2018(09)
[7]大數(shù)據(jù)時代信息獲取技術研究——以阿里巴巴為例[J]. 丁鑠彭. 電腦知識與技術. 2018(03)
[8]基于ECharts的數(shù)據(jù)可視化分析組件設計實現(xiàn)[J]. 王子毅,張春海. 微型機與應用. 2016(14)
[9]基于Flume、Kafka、Storm、HDFS的航空維修大數(shù)據(jù)系統(tǒng)[J]. 徐海榮,陳閔葉,張興媛. 上海工程技術大學學報. 2015(04)
[10]基于Hadoop技術的數(shù)據(jù)查詢平臺建設[J]. 夏暢,孫恒超. 電信快報. 2014(12)
碩士論文
[1]EAST實驗信息移動客戶端的設計與開發(fā)[D]. 劉鴻.中國科學技術大學 2018
[2]基于Spark的高考推薦系統(tǒng)設計與實現(xiàn)[D]. 孟真.山東師范大學 2017
[3]基于Lambda架構的城市一卡通數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)[D]. 王野.西安電子科技大學 2017
本文編號:3305272
【文章來源】:中國科學技術大學安徽省 211工程院校 985工程院校
【文章頁數(shù)】:79 頁
【學位級別】:碩士
【部分圖文】:
其有RA的H.doop架構
)?Channel??hannel是Agent中另一個重要的組成部分,可以從Source接收來的數(shù)存起來,達到緩沖的作用。接收來的數(shù)據(jù)可以用不同的數(shù)據(jù)格式存以存儲到磁盤山也可以存到內(nèi)存中,存儲的周期和容量都可以自行el從抽象的層面來看,可以看成一個管道,這個管道是隊列的管道。數(shù)據(jù)都依次在這個管道中進行排隊,等待下游Sink進行數(shù)據(jù)的分發(fā)完全存儲到新的位置,管道中相應的數(shù)據(jù)才會刪除。這個過程是事務保證了數(shù)據(jù)傳輸?shù)陌踩院涂煽啃浴??3)?Sink??ink作為下游數(shù)據(jù)的發(fā)送器,從Channel中提取數(shù)據(jù),并將數(shù)據(jù)發(fā)送到置。新的存儲位置可以是HDFS、HBASE、logger等,也可以自行為數(shù)據(jù)采集發(fā)送器,Flume具有強大的優(yōu)勢。首先Flume在收集數(shù)的數(shù)據(jù)達到了高峰時期,下游又來不及進行數(shù)據(jù)的處理,這時候Hu
圖4.1所示,基于大數(shù)據(jù)技術的EAST實驗數(shù)據(jù)訪問日志分析系統(tǒng)的總體上分為EAST實驗數(shù)據(jù)訪問日志的完善、日志數(shù)據(jù)的采集及傳輸存儲及處理平臺、日志數(shù)據(jù)web展示四個大的部分。整個系統(tǒng)的架間耦合性不高,數(shù)據(jù)從采集到展示是全鏈路一站式處理。數(shù)據(jù)完善EAST存儲服務器MDSplus上進行完善,采用鉤子插件的方式對數(shù),可以記錄下所有MDSplus用戶對數(shù)據(jù)服務器的詳細訪問情況。數(shù)輸端,一方面利用Hnux腳本程序將離線日志定期上傳到HDFS服一方面利用Flume對服務器日志文件進行監(jiān)控,將監(jiān)控到的日志數(shù)afka中。其中Kafka作為消息數(shù)據(jù)中間件,負貴負載均衡生產(chǎn)者和數(shù)據(jù)。Hadoop作為日志數(shù)據(jù)的存儲和離線計算框架,按照規(guī)定好的月日進行日志數(shù)據(jù)的統(tǒng)計計算,然后將處理完的數(shù)據(jù)統(tǒng)一規(guī)范化到arkStreaming是整個系統(tǒng)架構中負責流數(shù)據(jù)計算的部分,能夠在秒級服務器出入數(shù)據(jù)流量。Zeppelin和web都是數(shù)據(jù)瀏覽和展示工具。in可以快速訪問HDFS和Mysql中的數(shù)據(jù),快速生成數(shù)據(jù)圖表。除此lin生成的數(shù)據(jù)圖表還可以用url的方式嵌入到web中。??usem
【參考文獻】:
期刊論文
[1]基于Spark Streaming的電力流式大數(shù)據(jù)分析架構及應用[J]. 田璐,齊林海,李青,王紅,田世明,卜凡鵬. 電力信息與通信技術. 2019(02)
[2]基于大數(shù)據(jù)的ETL中的數(shù)據(jù)清洗方案研究[J]. 周瀚章,馮廣,龔旭輝,曾虎,徐啟東. 工業(yè)控制計算機. 2018(12)
[3]基于Kafka的分布式能效管理平臺的設計與實現(xiàn)[J]. 朱幼普,盧軍. 計算機與數(shù)字工程. 2018(12)
[4]EAST實驗數(shù)據(jù)管理系統(tǒng)的設計與實現(xiàn)[J]. 王月婷,王華忠,王楓,劉鴻,章琦皓. 儀表技術. 2018(11)
[5]基于Zookeeper的配置管理中心設計與實現(xiàn)[J]. 苗凡,閻志遠,戴琳琳. 鐵路計算機應用. 2018(10)
[6]基于Spark SQL的分布式全文檢索框架的設計與實現(xiàn)[J]. 崔光范,許利杰,劉杰,葉丹,鐘華. 計算機科學. 2018(09)
[7]大數(shù)據(jù)時代信息獲取技術研究——以阿里巴巴為例[J]. 丁鑠彭. 電腦知識與技術. 2018(03)
[8]基于ECharts的數(shù)據(jù)可視化分析組件設計實現(xiàn)[J]. 王子毅,張春海. 微型機與應用. 2016(14)
[9]基于Flume、Kafka、Storm、HDFS的航空維修大數(shù)據(jù)系統(tǒng)[J]. 徐海榮,陳閔葉,張興媛. 上海工程技術大學學報. 2015(04)
[10]基于Hadoop技術的數(shù)據(jù)查詢平臺建設[J]. 夏暢,孫恒超. 電信快報. 2014(12)
碩士論文
[1]EAST實驗信息移動客戶端的設計與開發(fā)[D]. 劉鴻.中國科學技術大學 2018
[2]基于Spark的高考推薦系統(tǒng)設計與實現(xiàn)[D]. 孟真.山東師范大學 2017
[3]基于Lambda架構的城市一卡通數(shù)據(jù)分析系統(tǒng)的研究與實現(xiàn)[D]. 王野.西安電子科技大學 2017
本文編號:3305272
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3305272.html
最近更新
教材專著