基于前綴樹(shù)的日志模式聚類挖掘算法研究
發(fā)布時(shí)間:2023-09-24 17:43
二十一世紀(jì)是網(wǎng)絡(luò)和信息時(shí)代,無(wú)論是個(gè)人還是企業(yè)都很依賴互聯(lián)網(wǎng),因此,網(wǎng)絡(luò)安全和隱私已成為現(xiàn)代世界人們關(guān)注的一個(gè)重要問(wèn)題。日志數(shù)據(jù)時(shí)刻記錄著各種網(wǎng)絡(luò)設(shè)備的活動(dòng),對(duì)于網(wǎng)絡(luò)攻擊、系統(tǒng)黑客攻擊等事件的取證有著重要的意義。通過(guò)日志數(shù)據(jù),運(yùn)維人員可以實(shí)時(shí)監(jiān)控系統(tǒng)和網(wǎng)絡(luò)的健康狀況,用戶的使用情況等。但是日志數(shù)據(jù)通常數(shù)量巨大,且較難讀懂,因此,對(duì)日志數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從大量數(shù)據(jù)中提取有用的知識(shí)是非常有必要的。 網(wǎng)絡(luò)設(shè)備具有多樣性,對(duì)設(shè)備逐個(gè)查看非常耗時(shí)耗力,本課題對(duì)日志采集技術(shù)進(jìn)行了系統(tǒng)的研究,提出了一種日志數(shù)據(jù)的分布采集和集中存儲(chǔ)架構(gòu),將日志消息分類存儲(chǔ)在一個(gè)集中的Syslog日志服務(wù)器上,方便對(duì)日志數(shù)據(jù)進(jìn)行集中管理和統(tǒng)計(jì)分析。然后通過(guò)對(duì)Syslog日志服務(wù)器采集到的數(shù)據(jù)進(jìn)行挖掘,得到用戶行為的頻繁模式聚類和非頻繁模式聚類。 本文通過(guò)分析日志數(shù)據(jù)和關(guān)聯(lián)規(guī)則挖掘算法,對(duì)已有的日志數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行改進(jìn),提出了一種改進(jìn)的日志模式聚類挖掘算法——-Improved Log-Pattern Cluster Algorithm (ILC算法)。然后將前綴樹(shù)和傳統(tǒng)的日志模式挖掘算法相結(jié)合,設(shè)計(jì)出一種基于前...
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 日志數(shù)據(jù)采集
1.2.2 事件關(guān)聯(lián)挖掘技術(shù)
1.2.3 數(shù)據(jù)聚類
1.2.4 頻繁模式聚類
1.3 研究?jī)?nèi)容和目標(biāo)
1.3.1 日志事件集中采集研究
1.3.2 日志模式挖掘算法研究與改進(jìn)
1.3.3 基于前綴樹(shù)的日志模式挖掘研究
1.4 本文的組織結(jié)構(gòu)
第2章 日志采集與挖掘所涉及到的技術(shù)
2.1 事件日志記錄和監(jiān)控
2.1.1 日志數(shù)據(jù)采集
2.1.2 Syslog日志
2.1.3 Syslog日志結(jié)構(gòu)
2.1.4 Syslog日志數(shù)據(jù)集中采集
2.2 日志過(guò)濾與預(yù)處理
2.2.1 數(shù)據(jù)過(guò)濾和預(yù)處理概述
2.2.2 正則表達(dá)式
2.3 數(shù)據(jù)挖掘技術(shù)
2.3.1 數(shù)據(jù)挖掘方法
2.3.2 事件關(guān)聯(lián)技術(shù)
2.3.4 關(guān)聯(lián)規(guī)則挖掘
2.3.5 高維度數(shù)據(jù)聚類
2.3.6 簡(jiǎn)單事件關(guān)聯(lián)
2.4 事件日志的模式挖掘
2.4.1 頻繁模式挖掘算法
2.4.2 日志模式挖掘概述
2.5 本章小結(jié)
第3章 日志模式挖掘和ILC算法
3.1 日志數(shù)據(jù)的特征
3.2 日志數(shù)據(jù)采集與過(guò)濾
3.2.1 日志數(shù)據(jù)采集
3.2.2 日志數(shù)據(jù)過(guò)濾
3.2.3 雙層日志分析技術(shù)
3.3 ILC算法——改進(jìn)的日志模式聚類算法
3.3.1 日志事件關(guān)聯(lián)挖掘概述
3.3.2 日志數(shù)據(jù)的hash查找
3.3.3 ILC算法的產(chǎn)生背景
3.3.4 ILC算法實(shí)現(xiàn)
3.3.5 BILC算法——字節(jié)偏移日志模式聚類算法
3.3.6 非頻繁模式的挖掘
3.4 ILC算法和BILC算法的有效性
3.4.1 ILC算法和Apriori的比較
3.4.2 ILC算法和SLC算法的比較
3.4.3 BILC算法的優(yōu)勢(shì)
3.5 本章小結(jié)
第4章 基于前綴樹(shù)的日志模式聚類
4.1 日志數(shù)據(jù)采集和過(guò)濾模型
4.1.1 Rsyslog日志數(shù)據(jù)采集
4.1.2 Rsyslog日志數(shù)據(jù)過(guò)濾和預(yù)處理
4.2 基于前綴樹(shù)的數(shù)據(jù)聚類
4.2.1 深度優(yōu)先搜索算法分析
4.2.2 基于日志特征的深度優(yōu)先搜索算法
4.3 PTLC算法——基于前綴樹(shù)的日志模式聚類算法
4.3.1 PTLC算法概述
4.3.2 PTLC算法的實(shí)現(xiàn)
4.3.3 PTLC算法的優(yōu)勢(shì)
4.3.4 BPTLC——字節(jié)偏移前綴樹(shù)日志模式聚類算法
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)結(jié)果分析
5.1 空間分析
5.1.1 SLC算法空間分析
5.1.2 ILC算法空間分析
5.1.3 BILC算法空間分析
5.1.4 PTLC算法空間分析
5.1.5 BPTLC算法空間分析
5.1.6 空間總結(jié)比較
5.2 時(shí)間分析
5.3 本章小結(jié)
第6章 總結(jié)與未來(lái)方向
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表的論文
本文編號(hào):3848469
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
Abstract
第1章 緒論
1.1 研究背景
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 日志數(shù)據(jù)采集
1.2.2 事件關(guān)聯(lián)挖掘技術(shù)
1.2.3 數(shù)據(jù)聚類
1.2.4 頻繁模式聚類
1.3 研究?jī)?nèi)容和目標(biāo)
1.3.1 日志事件集中采集研究
1.3.2 日志模式挖掘算法研究與改進(jìn)
1.3.3 基于前綴樹(shù)的日志模式挖掘研究
1.4 本文的組織結(jié)構(gòu)
第2章 日志采集與挖掘所涉及到的技術(shù)
2.1 事件日志記錄和監(jiān)控
2.1.1 日志數(shù)據(jù)采集
2.1.2 Syslog日志
2.1.3 Syslog日志結(jié)構(gòu)
2.1.4 Syslog日志數(shù)據(jù)集中采集
2.2 日志過(guò)濾與預(yù)處理
2.2.1 數(shù)據(jù)過(guò)濾和預(yù)處理概述
2.2.2 正則表達(dá)式
2.3 數(shù)據(jù)挖掘技術(shù)
2.3.1 數(shù)據(jù)挖掘方法
2.3.2 事件關(guān)聯(lián)技術(shù)
2.3.4 關(guān)聯(lián)規(guī)則挖掘
2.3.5 高維度數(shù)據(jù)聚類
2.3.6 簡(jiǎn)單事件關(guān)聯(lián)
2.4 事件日志的模式挖掘
2.4.1 頻繁模式挖掘算法
2.4.2 日志模式挖掘概述
2.5 本章小結(jié)
第3章 日志模式挖掘和ILC算法
3.1 日志數(shù)據(jù)的特征
3.2 日志數(shù)據(jù)采集與過(guò)濾
3.2.1 日志數(shù)據(jù)采集
3.2.2 日志數(shù)據(jù)過(guò)濾
3.2.3 雙層日志分析技術(shù)
3.3 ILC算法——改進(jìn)的日志模式聚類算法
3.3.1 日志事件關(guān)聯(lián)挖掘概述
3.3.2 日志數(shù)據(jù)的hash查找
3.3.3 ILC算法的產(chǎn)生背景
3.3.4 ILC算法實(shí)現(xiàn)
3.3.5 BILC算法——字節(jié)偏移日志模式聚類算法
3.3.6 非頻繁模式的挖掘
3.4 ILC算法和BILC算法的有效性
3.4.1 ILC算法和Apriori的比較
3.4.2 ILC算法和SLC算法的比較
3.4.3 BILC算法的優(yōu)勢(shì)
3.5 本章小結(jié)
第4章 基于前綴樹(shù)的日志模式聚類
4.1 日志數(shù)據(jù)采集和過(guò)濾模型
4.1.1 Rsyslog日志數(shù)據(jù)采集
4.1.2 Rsyslog日志數(shù)據(jù)過(guò)濾和預(yù)處理
4.2 基于前綴樹(shù)的數(shù)據(jù)聚類
4.2.1 深度優(yōu)先搜索算法分析
4.2.2 基于日志特征的深度優(yōu)先搜索算法
4.3 PTLC算法——基于前綴樹(shù)的日志模式聚類算法
4.3.1 PTLC算法概述
4.3.2 PTLC算法的實(shí)現(xiàn)
4.3.3 PTLC算法的優(yōu)勢(shì)
4.3.4 BPTLC——字節(jié)偏移前綴樹(shù)日志模式聚類算法
4.4 本章小結(jié)
第5章 實(shí)驗(yàn)結(jié)果分析
5.1 空間分析
5.1.1 SLC算法空間分析
5.1.2 ILC算法空間分析
5.1.3 BILC算法空間分析
5.1.4 PTLC算法空間分析
5.1.5 BPTLC算法空間分析
5.1.6 空間總結(jié)比較
5.2 時(shí)間分析
5.3 本章小結(jié)
第6章 總結(jié)與未來(lái)方向
參考文獻(xiàn)
致謝
攻讀碩士學(xué)位期間發(fā)表的論文
本文編號(hào):3848469
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3848469.html
最近更新
教材專著