基于Hadoop的IPv6網(wǎng)絡(luò)安全日志大數(shù)據(jù)的聚類分析與應(yīng)用
發(fā)布時間:2021-04-25 14:38
隨著下一代互聯(lián)網(wǎng)技術(shù)IPv6協(xié)議的不斷成熟和推廣,支持IPv6訪問的Web網(wǎng)站逐漸成為了主流。Web網(wǎng)站發(fā)生的各種各樣的事件都會產(chǎn)生相應(yīng)的網(wǎng)絡(luò)安全日志,記錄著用戶的訪問行為。實現(xiàn)IPv6網(wǎng)絡(luò)安全日志的有效分析,深度挖掘其中有價值的潛在信息,不僅可以了解用戶的訪問行為習慣,還可以發(fā)現(xiàn)隱藏的Web攻擊行為,從而維護Web服務(wù)器系統(tǒng)的安全。進入大數(shù)據(jù)時代以來,巨大的網(wǎng)絡(luò)用戶流量產(chǎn)生的IPv6網(wǎng)絡(luò)安全日志數(shù)據(jù)早已達到了TB或PB甚至以上的數(shù)據(jù)量級別。面對如此海量的IPv6網(wǎng)絡(luò)安全日志大數(shù)據(jù),單臺主機集中式的日志分析技術(shù)已經(jīng)無法滿足數(shù)據(jù)存儲和計算的需求。針對這一問題,本文利用Hadoop分布式平臺設(shè)計并實現(xiàn)一種基于Hadoop的IPv6網(wǎng)絡(luò)安全日志分析系統(tǒng)。該系統(tǒng)旨在完成對大規(guī)模Web日志的高效存儲管理和快速挖掘分析,盡可能正確區(qū)分正常訪問和Web攻擊,提高Web網(wǎng)站的安全性。本文工作的創(chuàng)新點主要包括:(1)鑒于單機集中式K-means算法無法有效地處理海量數(shù)據(jù),提出一種基于MapReduce的高效K-means改進算法。先借助最大最小距離法和輪廓系數(shù)優(yōu)化K-means算法初始聚類中心的選擇,再...
【文章來源】:蘭州交通大學甘肅省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 課題來源
1.1.2 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 日志分析研究現(xiàn)狀
1.2.2 基于分布式的日志分析研究現(xiàn)狀
1.3 論文主要內(nèi)容
1.4 論文的結(jié)構(gòu)安排
2 相關(guān)技術(shù)
2.1 Hadoop相關(guān)技術(shù)
2.1.1 HDFS
2.1.2 MapReduce
2.2 聚類分析
2.2.1 聚類分析
2.2.2 聚類常用評價指標
2.3 Web安全日志挖掘
2.4 本章小結(jié)
3 基于MapReduce的高效K-means改進算法
3.1 傳統(tǒng)K-means算法
3.1.1 K-means算法基礎(chǔ)
3.1.2 常用距離度量方法
3.1.3 K-means算法的不足
3.2 基于MapReduce的高效K-means改進算法
3.2.1 傳統(tǒng)K-means算法的改進
3.2.2 改進K-means算法的并行化
3.3 改進K-means算法的對比實驗
3.4 本章小結(jié)
4 系統(tǒng)設(shè)計與實現(xiàn)
4.1 系統(tǒng)總體設(shè)計
4.1.1 系統(tǒng)總體架構(gòu)
4.1.2 系統(tǒng)工作流程
4.2 日志收集
4.3 日志預(yù)處理
4.3.1 數(shù)據(jù)清洗
4.3.2 特征值提取
4.3.3 特征值量化
4.4 日志分析
4.4.1 統(tǒng)計分析
4.4.2 聚類分析
4.5 結(jié)果展示
4.6 本章小結(jié)
5 實驗與結(jié)果分析
5.1 Hadoop集群部署
5.1.1 集群拓撲
5.1.2 Hadoop集群搭建
5.2 實驗數(shù)據(jù)集準備
5.3 算法在Hadoop集群中的性能測試
5.3.1 加速實驗
5.3.2 擴展實驗
5.3.3 規(guī)模實驗
5.4 系統(tǒng)性能評估
5.4.1 統(tǒng)計分析實驗
5.4.2 聚類分析實驗
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻
攻讀學位期間的研究成果
【參考文獻】:
期刊論文
[1]基于Hadoop的Web日志分析系統(tǒng)的設(shè)計[J]. 何璇,馬佳琳. 軟件工程. 2019(02)
[2]基于抽樣和最大最小距離法的并行K-means聚類算法[J]. 劉燕. 智能計算機與應(yīng)用. 2018(06)
[3]IPv6規(guī)模部署:贏得互聯(lián)網(wǎng)新時代發(fā)展先機[J]. 楊潔. 中國教育網(wǎng)絡(luò). 2018(01)
[4]基于MapReduce框架下K-means的改進算法[J]. 陰愛英,吳運兵,朱敏琛,張瑩. 計算機應(yīng)用研究. 2018(08)
[5]基于離散量優(yōu)化初始聚類中心的k-means算法[J]. 劉美玲,黃名選,湯衛(wèi)東. 計算機工程與科學. 2017(06)
[6]基于平均差異度優(yōu)選初始聚類中心的改進K-均值聚類算法[J]. 李武,趙嬌燕,嚴太山. 控制與決策. 2017(04)
[7]基于Hadoop平臺的K-means聚類算法優(yōu)化研究[J]. 盧勝宇,王靜宇,張曉琳,高俊峰. 內(nèi)蒙古科技大學學報. 2016(03)
[8]基于Hadoop的PSO-KM聚類算法的并行實現(xiàn)[J]. 馬漢達,楊麗娜. 信息技術(shù). 2015(07)
[9]大數(shù)據(jù)k-Means聚類挖掘優(yōu)化算法[J]. 宋旭東,朱文輝,邱占芝. 大連交通大學學報. 2015(03)
[10]基于Apache Flume的分布式日志收集系統(tǒng)設(shè)計與實現(xiàn)[J]. 郝璇. 軟件導刊. 2014(07)
碩士論文
[1]基于WEB日志的入侵檢測算法研究[D]. 高陽.北京郵電大學 2018
[2]基于Web日志的分布式并行數(shù)據(jù)挖掘算法研究[D]. 郭沛松.電子科技大學 2017
[3]基于Hadoop平臺的分布式web日志分析系統(tǒng)的研究與實現(xiàn)[D]. 曾新勵.西南石油大學 2017
[4]基于Hadoop云計算平臺的K-Means聚類算法研究[D]. 劉洋.哈爾濱理工大學 2017
[5]基于Web應(yīng)用的日志采集與分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 于靜.北京交通大學 2016
[6]基于Hadoop的改進Apriori算法研究及應(yīng)用[D]. 陳順生.安徽理工大學 2016
[7]基于Hadoop平臺的Web日志聚類分析算法研究[D]. 劉立坤.西北大學 2016
[8]基于MapReduce的聚類算法并行化研究[D]. 劉德超.華北電力大學 2016
[9]基于MapReduce的k-means聚類算法并行化研究[D]. 張依.中央民族大學 2015
[10]基于HADOOP云計算平臺的聚類算法研究[D]. 嚴正飛.南京大學 2014
本文編號:3159562
【文章來源】:蘭州交通大學甘肅省
【文章頁數(shù)】:69 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
1 緒論
1.1 研究背景與意義
1.1.1 課題來源
1.1.2 研究背景與意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 日志分析研究現(xiàn)狀
1.2.2 基于分布式的日志分析研究現(xiàn)狀
1.3 論文主要內(nèi)容
1.4 論文的結(jié)構(gòu)安排
2 相關(guān)技術(shù)
2.1 Hadoop相關(guān)技術(shù)
2.1.1 HDFS
2.1.2 MapReduce
2.2 聚類分析
2.2.1 聚類分析
2.2.2 聚類常用評價指標
2.3 Web安全日志挖掘
2.4 本章小結(jié)
3 基于MapReduce的高效K-means改進算法
3.1 傳統(tǒng)K-means算法
3.1.1 K-means算法基礎(chǔ)
3.1.2 常用距離度量方法
3.1.3 K-means算法的不足
3.2 基于MapReduce的高效K-means改進算法
3.2.1 傳統(tǒng)K-means算法的改進
3.2.2 改進K-means算法的并行化
3.3 改進K-means算法的對比實驗
3.4 本章小結(jié)
4 系統(tǒng)設(shè)計與實現(xiàn)
4.1 系統(tǒng)總體設(shè)計
4.1.1 系統(tǒng)總體架構(gòu)
4.1.2 系統(tǒng)工作流程
4.2 日志收集
4.3 日志預(yù)處理
4.3.1 數(shù)據(jù)清洗
4.3.2 特征值提取
4.3.3 特征值量化
4.4 日志分析
4.4.1 統(tǒng)計分析
4.4.2 聚類分析
4.5 結(jié)果展示
4.6 本章小結(jié)
5 實驗與結(jié)果分析
5.1 Hadoop集群部署
5.1.1 集群拓撲
5.1.2 Hadoop集群搭建
5.2 實驗數(shù)據(jù)集準備
5.3 算法在Hadoop集群中的性能測試
5.3.1 加速實驗
5.3.2 擴展實驗
5.3.3 規(guī)模實驗
5.4 系統(tǒng)性能評估
5.4.1 統(tǒng)計分析實驗
5.4.2 聚類分析實驗
5.5 本章小結(jié)
6 總結(jié)與展望
6.1 總結(jié)
6.2 展望
致謝
參考文獻
攻讀學位期間的研究成果
【參考文獻】:
期刊論文
[1]基于Hadoop的Web日志分析系統(tǒng)的設(shè)計[J]. 何璇,馬佳琳. 軟件工程. 2019(02)
[2]基于抽樣和最大最小距離法的并行K-means聚類算法[J]. 劉燕. 智能計算機與應(yīng)用. 2018(06)
[3]IPv6規(guī)模部署:贏得互聯(lián)網(wǎng)新時代發(fā)展先機[J]. 楊潔. 中國教育網(wǎng)絡(luò). 2018(01)
[4]基于MapReduce框架下K-means的改進算法[J]. 陰愛英,吳運兵,朱敏琛,張瑩. 計算機應(yīng)用研究. 2018(08)
[5]基于離散量優(yōu)化初始聚類中心的k-means算法[J]. 劉美玲,黃名選,湯衛(wèi)東. 計算機工程與科學. 2017(06)
[6]基于平均差異度優(yōu)選初始聚類中心的改進K-均值聚類算法[J]. 李武,趙嬌燕,嚴太山. 控制與決策. 2017(04)
[7]基于Hadoop平臺的K-means聚類算法優(yōu)化研究[J]. 盧勝宇,王靜宇,張曉琳,高俊峰. 內(nèi)蒙古科技大學學報. 2016(03)
[8]基于Hadoop的PSO-KM聚類算法的并行實現(xiàn)[J]. 馬漢達,楊麗娜. 信息技術(shù). 2015(07)
[9]大數(shù)據(jù)k-Means聚類挖掘優(yōu)化算法[J]. 宋旭東,朱文輝,邱占芝. 大連交通大學學報. 2015(03)
[10]基于Apache Flume的分布式日志收集系統(tǒng)設(shè)計與實現(xiàn)[J]. 郝璇. 軟件導刊. 2014(07)
碩士論文
[1]基于WEB日志的入侵檢測算法研究[D]. 高陽.北京郵電大學 2018
[2]基于Web日志的分布式并行數(shù)據(jù)挖掘算法研究[D]. 郭沛松.電子科技大學 2017
[3]基于Hadoop平臺的分布式web日志分析系統(tǒng)的研究與實現(xiàn)[D]. 曾新勵.西南石油大學 2017
[4]基于Hadoop云計算平臺的K-Means聚類算法研究[D]. 劉洋.哈爾濱理工大學 2017
[5]基于Web應(yīng)用的日志采集與分析系統(tǒng)的設(shè)計與實現(xiàn)[D]. 于靜.北京交通大學 2016
[6]基于Hadoop的改進Apriori算法研究及應(yīng)用[D]. 陳順生.安徽理工大學 2016
[7]基于Hadoop平臺的Web日志聚類分析算法研究[D]. 劉立坤.西北大學 2016
[8]基于MapReduce的聚類算法并行化研究[D]. 劉德超.華北電力大學 2016
[9]基于MapReduce的k-means聚類算法并行化研究[D]. 張依.中央民族大學 2015
[10]基于HADOOP云計算平臺的聚類算法研究[D]. 嚴正飛.南京大學 2014
本文編號:3159562
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3159562.html
最近更新
教材專著