一種基于深度學(xué)習(xí)的惡意軟件家族分類模型
發(fā)布時間:2021-07-29 11:55
惡意軟件的家族分類問題是網(wǎng)絡(luò)安全研究中的重要課題,惡意軟件的動態(tài)執(zhí)行特征能夠準(zhǔn)確的反映惡意軟件的功能性與家族屬性。本文通過研究惡意軟件調(diào)用Windows API的行為特點,發(fā)現(xiàn)惡意軟件的惡意行為與序列前后向API調(diào)用具有一定的依賴關(guān)系,而雙向LSTM模型的特征計算方式符合這樣的依賴特點。通過設(shè)計基于雙向LSTM的深度學(xué)習(xí)模型,對惡意軟件的前后API調(diào)用概率關(guān)系進(jìn)行了建模,經(jīng)過實驗驗證,測試準(zhǔn)確率達(dá)到了99.28%,所提出的模型組合方式對惡意軟件調(diào)用系統(tǒng)API的行為具有良好的建模能力,為了深入的測試深度學(xué)習(xí)方法的分類性能,實驗部分進(jìn)一步設(shè)置了對抗樣本實驗,通過隨機(jī)插入API序列的方式構(gòu)造模擬對抗樣本來測試原始參數(shù)模型的分類性能,對抗樣本實驗表明,深度學(xué)習(xí)方法相對某些淺層機(jī)器學(xué)習(xí)方法具有更高的穩(wěn)定性。文中實驗為深度學(xué)習(xí)技術(shù)向工業(yè)界普及提供了一定的參考意義。
【文章來源】:信息安全學(xué)報. 2020,5(01)CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
惡意代碼家族分類的系統(tǒng)框架圖
本文數(shù)據(jù)集與微軟在kaggle的惡意軟件分類大賽中的公開數(shù)據(jù)集[8]做對比,本文數(shù)據(jù)集在數(shù)量上略少于微軟惡意軟件分類比賽中訓(xùn)練集數(shù)據(jù)的個數(shù)。4 數(shù)據(jù)集處理與實驗
如圖3所示,圖片上排為序列長度為220時,分別對測試樣本插入0組,1組,2組,3組,4組,5組對抗序列之后,普通機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)方法性能指標(biāo)的損失情況。從圖形中可以看出,插入對抗序列之后明顯會降低惡意軟件家族分類的性能,但是相對傳統(tǒng)的樸素貝葉斯(NB)與隨機(jī)森林(RF)方法,深度學(xué)習(xí)方法可以獲得更加穩(wěn)定的性能,良好的實現(xiàn)惡意軟件家族檢測的分類。序列長度為400時,深度學(xué)習(xí)模型同樣表現(xiàn)較好。測試樣本序列長度為400時,可以看到五角星線條的LSTM方法相對其他的方法下降趨勢較小。但是序列長度為220時則沒有這樣的趨勢,可以推斷,這是因為序列長度為400的LSTM識別模型參數(shù)較多,而LSTM參數(shù)較少的情況下具有更高的魯棒性。
本文編號:3309275
【文章來源】:信息安全學(xué)報. 2020,5(01)CSCD
【文章頁數(shù)】:9 頁
【部分圖文】:
惡意代碼家族分類的系統(tǒng)框架圖
本文數(shù)據(jù)集與微軟在kaggle的惡意軟件分類大賽中的公開數(shù)據(jù)集[8]做對比,本文數(shù)據(jù)集在數(shù)量上略少于微軟惡意軟件分類比賽中訓(xùn)練集數(shù)據(jù)的個數(shù)。4 數(shù)據(jù)集處理與實驗
如圖3所示,圖片上排為序列長度為220時,分別對測試樣本插入0組,1組,2組,3組,4組,5組對抗序列之后,普通機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)方法性能指標(biāo)的損失情況。從圖形中可以看出,插入對抗序列之后明顯會降低惡意軟件家族分類的性能,但是相對傳統(tǒng)的樸素貝葉斯(NB)與隨機(jī)森林(RF)方法,深度學(xué)習(xí)方法可以獲得更加穩(wěn)定的性能,良好的實現(xiàn)惡意軟件家族檢測的分類。序列長度為400時,深度學(xué)習(xí)模型同樣表現(xiàn)較好。測試樣本序列長度為400時,可以看到五角星線條的LSTM方法相對其他的方法下降趨勢較小。但是序列長度為220時則沒有這樣的趨勢,可以推斷,這是因為序列長度為400的LSTM識別模型參數(shù)較多,而LSTM參數(shù)較少的情況下具有更高的魯棒性。
本文編號:3309275
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3309275.html
最近更新
教材專著