基于機器學習的移動流量識別與異常檢測研究
發(fā)布時間:2020-11-17 03:33
隨著互聯(lián)網(wǎng)的飛速發(fā)展,移動應(yīng)用產(chǎn)生的流量呈現(xiàn)爆發(fā)式增長,對于移動應(yīng)用流量的識別和檢測異常流量已成為一項艱巨的任務(wù)。雖然在該領(lǐng)域已提出許多方法,但是仍然存在幾個重要問題亟待解決:①能夠?qū)用芰髁考捌鋺?yīng)用進行識別,并且支持在線實時的識別功能;②隨機森林分類器對于不平衡數(shù)據(jù)極容易產(chǎn)生偏向性分類問題而忽略少數(shù)類樣本;③目前沒有權(quán)威的移動應(yīng)用異常流量數(shù)據(jù),從而導致移動應(yīng)用異常流量檢測不夠全面和準確。本文針對以上問題對移動應(yīng)用的流量識別和異常檢測進行研究,主要工作分為以下兩部分。第一,通過提出一種基于隨機森林的不平衡數(shù)據(jù)改進算法,以實現(xiàn)對加密或不加密流量的在線實時識別。①本文針對采集到的上萬量級的移動應(yīng)用流量數(shù)據(jù)進行處理,采用數(shù)據(jù)包長度作為數(shù)據(jù)特征提取的基礎(chǔ),在數(shù)據(jù)預處理的方式上進行了優(yōu)化。通過優(yōu)化突發(fā)、網(wǎng)絡(luò)流等概念,將流量數(shù)據(jù)離散化為流量塊,以更小粒度的劃分,使得模型能夠達到在線實時識別的目的。②針對不平衡數(shù)據(jù)的偏向性問題,本文提出了一種基于稀疏度權(quán)重值法的不平衡數(shù)據(jù)改進算法,與以往研究不同的是,首先對數(shù)據(jù)整體進行聚類而不是單獨對多數(shù)類或者少數(shù)類樣本聚類,這樣可以避免過擬合的問題;其次,在聚類后加入了稀疏度權(quán)重值法,充分考慮了數(shù)據(jù)分布、邊緣情況,改善了以往研究出現(xiàn)的問題。第二,考慮到目前移動異常流量數(shù)據(jù)的不全面性,設(shè)計了一種半合成流量生成的方法,以此使得數(shù)據(jù)集更接近真實、全面的情況。同時結(jié)合了基于相關(guān)性特征選擇和C4.5決策樹算法,首先選擇特征最優(yōu)子集,根據(jù)數(shù)據(jù)集選擇出與異常流量類型最相關(guān)的特征,然后采用C4.5決策樹算法多分類的特性,可以同時達到自動化檢測異常流量和識別異常類型的目的。綜上所述,本文所設(shè)計的框架模型十分輕量并具有高度擴展性和移植性。對于移動應(yīng)用流量的識別,實驗中通過采用控制變量法的參數(shù)優(yōu)化方案,運行一組完整的實驗和對比實驗,準確率可以達到98%以上。對于移動流量的異常檢測,對三種常見的異常類型的檢測準確率均可以達到94%以上,通過結(jié)合算法第三種異常類型的檢測準確率更是提高了7%,同時也驗證了半合成數(shù)據(jù)生成方法和采用結(jié)合算法檢測器的可靠性和有效性。
【學位單位】:電子科技大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP393.06;TP181
【部分圖文】:
魂王自:理請求消啟籍式
使得模型的輸出結(jié)果盡可能接近真實結(jié)果。模型訓練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學習方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機等等。有監(jiān)督學習方法的模型訓練流程如圖2-4所示:??訓練樣本?—|??箕法訓練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學習方法模型訓練流程??基于無監(jiān)督學習的方法,其算法的實質(zhì)為對數(shù)據(jù)樣本進行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進行改進,將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學習方法在本質(zhì)上只能對相同類型進行聚??類并不能進行識別,但是如果后續(xù)對數(shù)據(jù)樣本進行標記以明確分類,也可達到分??類和識別的目的,這種方法也叫做半監(jiān)督學習方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標記,此時半監(jiān)督的學習方法就可發(fā)揮其優(yōu)勢,將不帶有標??記的數(shù)據(jù)集進行聚類,從而擴大數(shù)據(jù)集的覆蓋率和分類準確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標記??分類模型?—?分類????圖2-5無監(jiān)螫學習方法模型訓練流程??12??
使得模型的輸出結(jié)果盡可能接近真實結(jié)果。模型訓練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學習方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機等等。有監(jiān)督學習方法的模型訓練流程如圖2-4所示:??訓練樣本?—|??箕法訓練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學習方法模型訓練流程??基于無監(jiān)督學習的方法,其算法的實質(zhì)為對數(shù)據(jù)樣本進行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進行改進,將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學習方法在本質(zhì)上只能對相同類型進行聚??類并不能進行識別,但是如果后續(xù)對數(shù)據(jù)樣本進行標記以明確分類,也可達到分??類和識別的目的,這種方法也叫做半監(jiān)督學習方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標記,此時半監(jiān)督的學習方法就可發(fā)揮其優(yōu)勢,將不帶有標??記的數(shù)據(jù)集進行聚類,從而擴大數(shù)據(jù)集的覆蓋率和分類準確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標記??分類模型?—?分類????圖2-5無監(jiān)螫學習方法模型訓練流程??12??
【參考文獻】
本文編號:2887045
【學位單位】:電子科技大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:TP393.06;TP181
【部分圖文】:
魂王自:理請求消啟籍式
使得模型的輸出結(jié)果盡可能接近真實結(jié)果。模型訓練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學習方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機等等。有監(jiān)督學習方法的模型訓練流程如圖2-4所示:??訓練樣本?—|??箕法訓練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學習方法模型訓練流程??基于無監(jiān)督學習的方法,其算法的實質(zhì)為對數(shù)據(jù)樣本進行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進行改進,將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學習方法在本質(zhì)上只能對相同類型進行聚??類并不能進行識別,但是如果后續(xù)對數(shù)據(jù)樣本進行標記以明確分類,也可達到分??類和識別的目的,這種方法也叫做半監(jiān)督學習方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標記,此時半監(jiān)督的學習方法就可發(fā)揮其優(yōu)勢,將不帶有標??記的數(shù)據(jù)集進行聚類,從而擴大數(shù)據(jù)集的覆蓋率和分類準確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標記??分類模型?—?分類????圖2-5無監(jiān)螫學習方法模型訓練流程??12??
使得模型的輸出結(jié)果盡可能接近真實結(jié)果。模型訓練完成后,即可用于識別未知??的數(shù)據(jù)。有監(jiān)督學習方法中具有代表性的方法有決策樹、樸素貝葉斯算法、支持??向量機等等。有監(jiān)督學習方法的模型訓練流程如圖2-4所示:??訓練樣本?—|??箕法訓練?未知數(shù)據(jù)??理論模型?卜?分類模型???分類????圖2-4有監(jiān)督學習方法模型訓練流程??基于無監(jiān)督學習的方法,其算法的實質(zhì)為對數(shù)據(jù)樣本進行聚類,大多數(shù)的方??法都在聚類原理的基礎(chǔ)上對其進行改進,將具有相似屬性的特征聚類成為多個簇,??即將同類型的數(shù)據(jù)聚類到一起。無監(jiān)督學習方法在本質(zhì)上只能對相同類型進行聚??類并不能進行識別,但是如果后續(xù)對數(shù)據(jù)樣本進行標記以明確分類,也可達到分??類和識別的目的,這種方法也叫做半監(jiān)督學習方法。在某些應(yīng)用領(lǐng)域中,,不是所??有的樣本數(shù)據(jù)集都被標記,此時半監(jiān)督的學習方法就可發(fā)揮其優(yōu)勢,將不帶有標??記的數(shù)據(jù)集進行聚類,從而擴大數(shù)據(jù)集的覆蓋率和分類準確率。其流程如圖2-5??所示:??gl1^^???聚類筲法??生成類簇??類標記??分類模型?—?分類????圖2-5無監(jiān)螫學習方法模型訓練流程??12??
【參考文獻】
相關(guān)期刊論文 前3條
1 梁偉;陳福才;李海濤;;一種基于C4.5決策樹的VoIP流量識別方法[J];計算機應(yīng)用研究;2012年09期
2 黃愛輝;;決策樹C4.5算法的改進及應(yīng)用[J];科學技術(shù)與工程;2009年01期
3 唐華松,姚耀文;數(shù)據(jù)挖掘中決策樹算法的探討[J];計算機應(yīng)用研究;2001年08期
相關(guān)碩士學位論文 前1條
1 張睿;ID3決策樹算法分析與改進[D];蘭州大學;2010年
本文編號:2887045
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2887045.html
最近更新
教材專著