基于Spark的網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)研究與實現(xiàn)
發(fā)布時間:2021-06-25 02:37
隨著現(xiàn)代社會互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)逐漸變得種類繁多且數(shù)量巨大,與此同時,新型攻擊手段的不斷涌現(xiàn)也使得網(wǎng)絡(luò)安全問題變得更加棘手。因此,在大數(shù)據(jù)時代下,如何充分利用海量數(shù)據(jù)來實現(xiàn)對網(wǎng)絡(luò)異常數(shù)據(jù)的分析與檢測是一項非常重要的課題。近幾年來隨著人工智能技術(shù)的發(fā)展,利用深度學(xué)習(xí)等機器學(xué)習(xí)方法對海量數(shù)據(jù)進行分析能夠取得比較好的效果。但與此同時,深度學(xué)習(xí)會帶來非常大的計算資源的消耗。因此能夠?qū)⑸疃葘W(xué)習(xí)能力與大數(shù)據(jù)處理能力結(jié)合在一起在網(wǎng)絡(luò)數(shù)據(jù)分析中是非常重要的。針對上述問題,設(shè)計了一種基于Spark的網(wǎng)絡(luò)數(shù)據(jù)分析系統(tǒng)。首先,將深度學(xué)習(xí)框架Keras與大數(shù)據(jù)處理平臺Spark相結(jié)合,為Spark擴展深度學(xué)習(xí)能力,實現(xiàn)深度學(xué)習(xí)的分布式計算,使得大數(shù)據(jù)的獲取與處理、數(shù)據(jù)模型的學(xué)習(xí)與應(yīng)用都在一個統(tǒng)一的分布式集群中。其次,利用Spark Streaming流式計算的特點,系統(tǒng)能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)進行實時監(jiān)控,對異常數(shù)據(jù)及時作出判斷和響應(yīng)。且通過對有效參數(shù)的調(diào)整控制實現(xiàn)對Spark Streaming實時計算的性能分析與預(yù)測。最后,對于Spark Streaming實時計算性能的優(yōu)化,設(shè)計了一種批次時間間隔的動態(tài)調(diào)整...
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
MapReduce框架
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 發(fā)人員的工作效率。傳統(tǒng)的單機深度學(xué)習(xí)框架已經(jīng)無法滿足人們對于海量數(shù)據(jù)分程應(yīng)用中,許多公司以及研究人員開始將深度學(xué)習(xí)框架與大行結(jié)合,使其滿足深度學(xué)習(xí)復(fù)雜的計算需求[22]。Michael I. Joaffe 深度學(xué)習(xí)庫的基礎(chǔ)之上建立了 SparkNet[23],利用 Java 來訪la 來訪問 Caffe 參數(shù),用 ScalaBuff 來保持 Caffe 網(wǎng)絡(luò)的動態(tài)結(jié)示。Master 將任務(wù)分發(fā)到 worker 上,每個 worker 使用單獨練完成之后再將參數(shù)傳給 Master。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文分配到某個 worker 去執(zhí)行。它的彈性體現(xiàn)在流水線操作上,即對 RDD 的操作有兩種方法:轉(zhuǎn)換(transformation)和動作(action)。轉(zhuǎn)換操作在執(zhí)行過程中采用惰性調(diào)度,只記錄 RDD 之間的依賴關(guān)系,不會立即執(zhí)行。在這個過程當中,開發(fā)人員可以彈性的處理 RDD 的分區(qū)。等到遇到動作操作的時候,才會根據(jù)前面的依賴關(guān)系,生成有向無環(huán)圖 DAG,如圖 2-1 所示,從起點開始將這一系列操作執(zhí)行完成。由于在轉(zhuǎn)換操作中導(dǎo)致的父 RDD 和子 RDD 的分區(qū)不同,RDD 之間的依賴關(guān)系被分為寬依賴和窄依賴。寬依賴是指父 RDD 的每一個分區(qū)只被子 RDD 的一個分區(qū)所使用,而窄依賴是指父 RDD 的分區(qū)被多個子 RDD 的分區(qū)所使用。
【參考文獻】:
期刊論文
[1]基于多尺度主成分分析的全網(wǎng)絡(luò)異常檢測方法[J]. 錢葉魁,陳鳴,葉立新,劉鳳榮,朱少衛(wèi),張晗. 軟件學(xué)報. 2012(02)
[2]網(wǎng)絡(luò)信息安全形勢及相關(guān)熱點問題探討[J]. 黃元飛,吉利勇,金麗萍. 電信科學(xué). 2009(02)
本文編號:3248320
【文章來源】:華中科技大學(xué)湖北省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
MapReduce框架
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 發(fā)人員的工作效率。傳統(tǒng)的單機深度學(xué)習(xí)框架已經(jīng)無法滿足人們對于海量數(shù)據(jù)分程應(yīng)用中,許多公司以及研究人員開始將深度學(xué)習(xí)框架與大行結(jié)合,使其滿足深度學(xué)習(xí)復(fù)雜的計算需求[22]。Michael I. Joaffe 深度學(xué)習(xí)庫的基礎(chǔ)之上建立了 SparkNet[23],利用 Java 來訪la 來訪問 Caffe 參數(shù),用 ScalaBuff 來保持 Caffe 網(wǎng)絡(luò)的動態(tài)結(jié)示。Master 將任務(wù)分發(fā)到 worker 上,每個 worker 使用單獨練完成之后再將參數(shù)傳給 Master。
華 中 科 技 大 學(xué) 碩 士 學(xué) 位 論 文分配到某個 worker 去執(zhí)行。它的彈性體現(xiàn)在流水線操作上,即對 RDD 的操作有兩種方法:轉(zhuǎn)換(transformation)和動作(action)。轉(zhuǎn)換操作在執(zhí)行過程中采用惰性調(diào)度,只記錄 RDD 之間的依賴關(guān)系,不會立即執(zhí)行。在這個過程當中,開發(fā)人員可以彈性的處理 RDD 的分區(qū)。等到遇到動作操作的時候,才會根據(jù)前面的依賴關(guān)系,生成有向無環(huán)圖 DAG,如圖 2-1 所示,從起點開始將這一系列操作執(zhí)行完成。由于在轉(zhuǎn)換操作中導(dǎo)致的父 RDD 和子 RDD 的分區(qū)不同,RDD 之間的依賴關(guān)系被分為寬依賴和窄依賴。寬依賴是指父 RDD 的每一個分區(qū)只被子 RDD 的一個分區(qū)所使用,而窄依賴是指父 RDD 的分區(qū)被多個子 RDD 的分區(qū)所使用。
【參考文獻】:
期刊論文
[1]基于多尺度主成分分析的全網(wǎng)絡(luò)異常檢測方法[J]. 錢葉魁,陳鳴,葉立新,劉鳳榮,朱少衛(wèi),張晗. 軟件學(xué)報. 2012(02)
[2]網(wǎng)絡(luò)信息安全形勢及相關(guān)熱點問題探討[J]. 黃元飛,吉利勇,金麗萍. 電信科學(xué). 2009(02)
本文編號:3248320
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3248320.html
最近更新
教材專著