流量識別特征選擇算法的研究與改進
發(fā)布時間:2024-03-26 22:08
為了對移動互聯(lián)網進行更細粒度的網絡管理,流量識別和檢測技術被廣泛應用,其根據應用類型的不同可將網絡流量劃分成不同的類。流量識別有很多實現(xiàn)的技術,如基于端口,基于載荷,基于主機行為的識別方法。在這其中,機器學習法由于它較高的準確率得到人們的廣泛關注。 特征選擇為機器學習法選擇最優(yōu)特征子集,其對算法的準確率和效率有非常大的影響。為了獲得最優(yōu)特征子集,往往需要對所有可能的特征組合進行測試。當特征數(shù)過多時,特征選擇將會耗費大量的時間和計算資源。 本文首先簡單介紹了流量識別的相關技術,對機器學習分類算法和常見特征選擇算法進行了概括和比較。在此基礎上提出兩種新的特征選擇法: 1、基于C4.5決策樹的組合樹算法。該算法主要利用了C4.5算法的結構特性,在沒有實際訓練和測試分類器前,可以排除原始特征集中的一些冗余屬性。 2、基于SVM-Wrapper與粗糙集相結合的RSF算法;诖植诩膶傩约s簡方法簡單易用,但當特征數(shù)過多時,計算量則會指數(shù)級增長。而本文所提出的RSF算法首先通過SVM-Wrapper對原始特征集進行初步約簡,在此基礎上再使用粗糙集進行屬性約簡,可以解決屬性約簡過程中特征數(shù)過多所引起...
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3939753
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
圖2.2Adaboost流程圖
圖2.2Adaboost流程圖其中Di為第i輪各個樣本在樣本集中參與訓練的概率。算法流程:1.按照均勻分布從初始樣本集中選取子集作為該次的訓練集;....
圖2.3二維空間的線性分類器
圖2.3二維空間的線性分類器需要區(qū)分的類別,中間的直線就是一個分類函性函數(shù)所區(qū)分則為線性可分,否則為線性不可分統(tǒng)一的名稱--超平面。平面[17....
圖2.4線性可分情況下的最優(yōu)分類線
圖2.4線性可分情況下的最優(yōu)分類線而H1和H2是平行于H,且過離H最近的兩類樣本間的距離就是幾何間隔。易看出,幾何間隔越大,表示該分類函數(shù)性能越最....
圖2.5兩類樣本處于同一直線上
圖2.5兩類樣本處于同一直線上c1x+c2x2。==2102,1cccaxyx,則:g(x)=f(y)=y維空間后就線性可分了。<w',x'>....
本文編號:3939753
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3939753.html
最近更新
教材專著