基于機器學(xué)習(xí)的P2P網(wǎng)絡(luò)流分類研究
發(fā)布時間:2017-09-13 13:16
本文關(guān)鍵詞:基于機器學(xué)習(xí)的P2P網(wǎng)絡(luò)流分類研究
更多相關(guān)文章: P2P流 機器學(xué)習(xí) 特征選擇 集成學(xué)習(xí) Bagging 決策樹
【摘要】:近年來,P2P網(wǎng)絡(luò)憑借其對等、自由、開放的特性在互聯(lián)網(wǎng)的諸多領(lǐng)域呈現(xiàn)出蓬勃發(fā)展的態(tài)勢,,已經(jīng)成為Internet網(wǎng)絡(luò)流的主宰流量。P2P網(wǎng)絡(luò)技術(shù)的發(fā)展給一方面給網(wǎng)絡(luò)安全帶來更大的威脅,另一方面,龐大的P2P流量吞噬而著網(wǎng)絡(luò)帶寬,使得非P2P網(wǎng)絡(luò)的帶寬得不到滿足,給網(wǎng)絡(luò)運營以及網(wǎng)絡(luò)管理者帶來全新的挑戰(zhàn)。通過P2P流識別技術(shù)來加強管理和控制P2P流量是解決該難題的研究方向之一。然而隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,P2P應(yīng)用為了適應(yīng)網(wǎng)絡(luò)環(huán)境,越來越多的使用動態(tài)端口、隧道技術(shù)以及協(xié)議加密等技術(shù),這使得傳統(tǒng)的利用端口和應(yīng)用層特征等識別技術(shù)無法滿足P2P流識別的要求。 隨著機器學(xué)習(xí)理論的不斷成熟,其在醫(yī)療診斷、圖像識別、音頻識別以及網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用越來越廣泛。機器學(xué)習(xí)利用數(shù)學(xué)統(tǒng)計知識和算法理論建立有效的學(xué)習(xí)模型,從數(shù)據(jù)層面挖掘內(nèi)在規(guī)則,對信息量要求不大、不會涉及用戶隱私,而且能夠應(yīng)對動態(tài)變化的數(shù)據(jù)環(huán)境,所以機器學(xué)習(xí)方法非常適合識別具有動態(tài)性的P2P網(wǎng)絡(luò)流。本課題主要研究基于機器學(xué)習(xí)的P2P流分類方法,基于機器學(xué)習(xí)的P2P流識別利用P2P流統(tǒng)計特征建立分類模型,一方面如何從大量的P2P流統(tǒng)計特征中選出高效的特征集對于分類模型的分類效果有著深刻的影響;另一方面,如何建立分類模型也是最終分類效果的關(guān)鍵,本文主要內(nèi)容如下: 1.由統(tǒng)計原理建立的P2P流數(shù)據(jù)擁有上百個特征,面對如此眾多的特征,在ReliefF的基礎(chǔ)上提出了一種改進算法ReliefF特征選擇,能夠刪除ReliefF中的冗余特征,不但降低了特征維數(shù),而且能提高特征集的分類能力。 2.對集成學(xué)習(xí)算法的研究中,比較分析了AdaBoost和Bagging集成學(xué)習(xí)的優(yōu)劣,在Bagging的學(xué)習(xí)的基礎(chǔ)上引入了選擇性集成理念,基于分類器之間的差異性度量Q統(tǒng)計量設(shè)計了通過不斷刪除差異性最小的分類器來選擇部分分類器集成的PBagging算法;跊Q策樹算法作基分類器,進行實驗驗證,發(fā)現(xiàn)PBagging能夠提升Bagging的分類正確率,在不同分類器規(guī)模下,PBagging都能表現(xiàn)出比Bagging更高的分類準確性。 3.研究不同類型的分類器集成,提出了一種由貝葉斯分類器、SVM、決策樹這3種分類器構(gòu)成的集成模型,通過相關(guān)網(wǎng)絡(luò)流數(shù)據(jù)進行實驗發(fā)現(xiàn)該集成算法的分類正確率顯著高于每個參與集成的單個分類器。本文的研究成果能有效提高特征選擇的可利用價值,結(jié)合改進的集成學(xué)習(xí)算法能夠進一步提高P2P流的識別率,對于P2P流的分類提供了全新的解決方案,將促進P2P流的管理和控制,也有助于建立更加可靠安全的互聯(lián)網(wǎng)環(huán)境,進而營造和諧的網(wǎng)絡(luò)氛圍。
【關(guān)鍵詞】:P2P流 機器學(xué)習(xí) 特征選擇 集成學(xué)習(xí) Bagging 決策樹
【學(xué)位授予單位】:江南大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP393.02;TP181
【目錄】:
- 摘要3-4
- Abstract4-9
- 第一章 緒論9-17
- 1.1 研究背景與研究意義9-11
- 1.1.1 研究背景9-10
- 1.1.2 研究意義10-11
- 1.2 P2P 流量識別的研究現(xiàn)狀11-15
- 1.2.1 基于端口的 P2P 流識別11
- 1.2.2 基于應(yīng)用層負載特征的 P2P 流識別11-12
- 1.2.3 基于行為特征的識別技術(shù)12-13
- 1.2.4 基于機器學(xué)習(xí)的 P2P 流量識別13-14
- 1.2.5 P2P 流分類面臨的問題14-15
- 1.3 本文的主要工作15-17
- 1.3.1 本文的主要工作15
- 1.3.2 本文的組織和結(jié)構(gòu)15-17
- 第二章 基于機器學(xué)習(xí)的 P2P 流量識別理論分析17-27
- 2.1 引言17
- 2.2 問題描述17-18
- 2.2.1 相關(guān)定義17-18
- 2.2.2 P2P 流識別流程18
- 2.3 機器學(xué)習(xí)算法18-24
- 2.3.1 無監(jiān)督學(xué)習(xí)算法18-20
- 2.3.2 有監(jiān)督學(xué)習(xí)算法20-24
- 2.4 識別算法評估標準24-26
- 2.4.1 混淆矩陣24-25
- 2.4.2 評估方法25-26
- 2.5 本章小結(jié)26-27
- 第三章 P2P 流特征選擇算法研究27-36
- 3.1 引言27
- 3.2 特征選擇綜述27-28
- 3.2.1 特征選擇流程27
- 3.2.2 特征選擇分類27-28
- 3.3 特征選擇算法28-32
- 3.3.1 FCBF 算法28-29
- 3.3.2 CFS 算法29-31
- 3.3.3 ReliefF&特征選擇31-32
- 3.4 實驗分析32-35
- 3.4.1 實驗數(shù)據(jù)32-33
- 3.4.2 實驗平臺和工具33-34
- 3.4.3 實驗過程34-35
- 3.4.4 結(jié)果分析35
- 3.5 本章小結(jié)35-36
- 第四章 基于集成學(xué)習(xí)算法的 P2P 流分類模型36-49
- 4.1 引言36
- 4.2 集成分類模型36-40
- 4.2.1 相關(guān)概念36-37
- 4.2.2 基于 AdaBoost 的分類模型37-38
- 4.2.3 基于 Bagging 的分類模型38-40
- 4.3 Bagging 算法的改進40-43
- 4.3.1 集成算法的原理分析40-41
- 4.3.2 Bagging 的選擇性集成41
- 4.3.3 PBagging 集成學(xué)習(xí)算法41-43
- 4.4 基分類器的選擇43-46
- 4.4.1 ID3 和 C4.5 決策樹43-44
- 4.4.2 CART 決策樹44-46
- 4.5 實驗分析46-48
- 4.5.1 實驗過程46-47
- 4.5.2 結(jié)果分析47-48
- 4.6 本章小結(jié)48-49
- 第五章 基于非同質(zhì)分類器集成的 P2P 流分類模型49-54
- 5.1 引言49
- 5.2 非同質(zhì)器集成模型49-51
- 5.2.1 集成模型設(shè)計49
- 5.2.2 WEKA 功能簡介49-51
- 5.3 實驗分析51-52
- 5.3.1 實驗過程51-52
- 5.3.2 結(jié)果分析52
- 5.4 本章小結(jié)52-54
- 主要結(jié)論與展望54-55
- 主要結(jié)論54
- 展望54-55
- 致謝55-56
- 參考文獻56-59
- 附錄:作者在攻讀碩士學(xué)位期間發(fā)表的論文59
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 李偉男;鄂躍鵬;葛敬國;錢華林;;多模式匹配算法及硬件實現(xiàn)[J];軟件學(xué)報;2006年12期
本文編號:843914
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/843914.html
最近更新
教材專著