基于多維聯(lián)機分析的分布式審計系統(tǒng)的設(shè)計與實現(xiàn)
本文選題:聯(lián)機分析 + 數(shù)據(jù)審計。 參考:《東南大學(xué)》2016年碩士論文
【摘要】:隨著云時代的到來,海量結(jié)構(gòu)化數(shù)據(jù)的審計正成為伴隨著電子商務(wù)、物聯(lián)網(wǎng)等新興互聯(lián)網(wǎng)領(lǐng)域而逐漸興起的熱點問題,歷史數(shù)據(jù)的審計的目的在于盡可能地通過日志文件等記錄數(shù)據(jù),實現(xiàn)對威脅或潛在威脅的發(fā)現(xiàn)和防范。其中的難點在于如何實現(xiàn)其匯總數(shù)據(jù)查詢的即席性、聯(lián)機性和交互性。在數(shù)據(jù)審計領(lǐng)域,對數(shù)據(jù)倉庫的審計主要有兩種方法,即賬表還原法和基礎(chǔ)數(shù)據(jù)核查法,然而問題是,現(xiàn)階段,在數(shù)據(jù)量逐漸增大的壓力下,不管何種審計方法都無法在審計速度、審計數(shù)據(jù)存儲方面取得令人滿意的效果,審計任務(wù)完成不及時、審計數(shù)據(jù)無法妥善存儲都會給企業(yè)和政府帶來不可估量的損失。本文基于數(shù)據(jù)立方體格模型及分布式技術(shù),設(shè)計一套高效率的基于分布式和聯(lián)機分析技術(shù)的審計系統(tǒng),力求做到數(shù)據(jù)審計的快速高效。本文主要做了如下工作:(1)通過對各種分布式技術(shù)的優(yōu)劣進行比較,選取出適合大數(shù)據(jù)審計的分布式框架,并將審計數(shù)據(jù)從傳統(tǒng)的數(shù)據(jù)庫或excel移植到類Hadoop MapReduce的通用并行框架Spark上。(2)在分布式平臺上對聚集數(shù)據(jù)進行壓縮。首先對分布式存儲平臺的特點進行分析,選用封閉立方體技術(shù)對聚集數(shù)據(jù)進行壓縮,壓縮后的數(shù)據(jù)以封閉立方體的形式存儲在HDFS上,以供審計查詢。(3)得到壓縮的封閉立方體后,結(jié)合Spark編程模型RDD的特點在分布式系統(tǒng)上對其進行查詢,查詢方式與已有的查詢方式不同,因為要兼顧分布式系統(tǒng)的特點和查詢效率,做到快速準確。(4)整合前面的技術(shù),設(shè)計出合適的基于分布式系統(tǒng)的審計架構(gòu)。解決了如下兩個問題,1)海量數(shù)據(jù)的存儲和聚集數(shù)據(jù)的查詢。2)審計規(guī)則在大數(shù)據(jù)平臺的應(yīng)用。即結(jié)合封閉立方體技術(shù)、分布式技術(shù)、審計技術(shù),設(shè)計一套實用的大數(shù)據(jù)審計系統(tǒng),并以實驗的方式對其功能進行驗證。
[Abstract]:With the arrival of the cloud era, the audit of massive structured data is becoming a hot issue gradually rising along with the electronic commerce, the Internet of things and other emerging Internet fields. The purpose of the audit of historical data is to realize the discovery and prevention of threats or potential threats by recording data such as log files as much as possible. The difficulty lies in how to realize the ad hoc, online and interactivity of its aggregate data query. In the field of data audit, there are mainly two methods for data warehouse audit, namely, the method of reducing the account sheet and the method of checking the basic data. However, the problem is, at the present stage, under the pressure of increasing data volume, No matter what audit method can not be used in audit speed, audit data storage can achieve satisfactory results, audit task is not completed in time, and audit data can not be stored properly will bring incalculable losses to enterprises and governments. Based on the data cube lattice model and distributed technology, this paper designs an efficient audit system based on distributed and on-line analysis technology, which aims to achieve fast and high efficiency of data audit. The main work of this paper is as follows: (1) by comparing the advantages and disadvantages of various distributed technologies, we select a distributed framework suitable for big data audit. And the audit data is transplanted from traditional database or excel to the general parallel framework of Hadoop MapReduce, named Spark. 2) the aggregate data is compressed on distributed platform. Firstly, the characteristics of distributed storage platform are analyzed, and the aggregate data is compressed by using closed cube technology. The compressed data is stored on HDFS in the form of closed cube, so that the compressed closed cube can be obtained by audit query. According to the characteristics of Spark programming model RDD, it is queried on the distributed system. The query way is different from the existing query way, because the characteristics and query efficiency of the distributed system should be taken into account, so that the former technology can be integrated quickly and accurately. An appropriate audit architecture based on distributed system is designed. The following two problems are solved: 1) the application of the audit rules to the big data platform for the storage of massive data and the query of aggregate data. Combining the closed cube technology, distributed technology and audit technology, a set of practical big data audit system is designed, and its function is verified by experiment.
【學(xué)位授予單位】:東南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 周翔華;;使用Analysis Services對數(shù)據(jù)進行聯(lián)機分析[J];軟件導(dǎo)刊;2009年11期
2 謝嘉孟,楊東輝;決策支持與聯(lián)機分析技術(shù)[J];廣東公安科技;2000年02期
3 陳旭輝;劉東坡;武玉杰;;中間存儲的聯(lián)機分析關(guān)聯(lián)規(guī)則挖掘方法[J];廈門理工學(xué)院學(xué)報;2012年02期
4 李盛恩,陸世潮;聯(lián)機分析多維存儲結(jié)構(gòu)的研究[J];計算機應(yīng)用與軟件;2005年09期
5 吳奉亮,常心坦,李學(xué)文;安全管控數(shù)據(jù)聯(lián)機分析模式研究[J];西安科技學(xué)院學(xué)報;2002年04期
6 張楠,田盛豐,賀志;聯(lián)機分析關(guān)聯(lián)規(guī)則挖掘的研究[J];微機發(fā)展;2003年10期
7 林綺屏;圖書館聯(lián)機分析系統(tǒng)的設(shè)計與實現(xiàn)[J];情報學(xué)報;2002年05期
8 周國亮;王桂蘭;朱永利;;多核處理器上的并行聯(lián)機分析處理算法研究[J];計算機科學(xué)與探索;2013年02期
9 秦富童;劉冰峰;劉東玉;何榮茂;;基于數(shù)據(jù)倉庫的通信干擾試驗數(shù)據(jù)聯(lián)機分析研究[J];艦船電子工程;2012年03期
10 印國成;;聯(lián)機分析在公共財政管理中的應(yīng)用[J];福建電腦;2009年05期
相關(guān)博士學(xué)位論文 前1條
1 李文海;基于粗集的關(guān)系型聯(lián)機分析優(yōu)化技術(shù)研究[D];華中科技大學(xué);2007年
相關(guān)碩士學(xué)位論文 前10條
1 楊勝松;基于多維聯(lián)機分析的分布式審計系統(tǒng)的設(shè)計與實現(xiàn)[D];東南大學(xué);2016年
2 蘇立強;空間聯(lián)機分析系統(tǒng)實現(xiàn)及其在工商管理中的應(yīng)用[D];大連理工大學(xué);2006年
3 尹淑彬;達夢聯(lián)機分析系統(tǒng)查詢優(yōu)化的研究[D];華中科技大學(xué);2011年
4 嚴峰;銀行房貸信用評估的聯(lián)機分析與挖掘算法實現(xiàn)[D];大連理工大學(xué);2006年
5 毛超;多維態(tài)勢信息聯(lián)機分析的研究與實現(xiàn)[D];西安電子科技大學(xué);2011年
6 盛大栓;多維聯(lián)機分析Simplified Analysis系統(tǒng)的設(shè)計與實現(xiàn)[D];上海海事大學(xué);2006年
7 榮玨;基于.net架構(gòu)下的聯(lián)機分析系統(tǒng)[D];昆明理工大學(xué);2004年
8 唐萍;網(wǎng)格環(huán)境下空間聯(lián)機分析服務(wù)的設(shè)計與實現(xiàn)[D];福州大學(xué);2009年
9 劉煒;文件的聯(lián)機分析(OLAP)[D];南昌大學(xué);2010年
10 張小剛;面向社區(qū)服務(wù)的聯(lián)機分析系統(tǒng)研究與實現(xiàn)[D];西安電子科技大學(xué);2009年
,本文編號:2046481
本文鏈接:http://www.sikaile.net/jingjilunwen/dianzishangwulunwen/2046481.html