基于機(jī)器學(xué)習(xí)的多源威脅情報(bào)質(zhì)量評價方法
發(fā)布時間:2021-04-06 00:27
在多源威脅情報(bào)收集過程中,由于存在數(shù)據(jù)價值密度低、情報(bào)重復(fù)度高、失效時間快等問題,情報(bào)中心難以對海量情報(bào)數(shù)據(jù)做出科學(xué)決策。針對上述問題,提出一種基于機(jī)器學(xué)習(xí)的多源威脅情報(bào)質(zhì)量評價方法。首先基于標(biāo)準(zhǔn)情報(bào)格式,設(shè)計(jì)了一套多源情報(bào)數(shù)據(jù)標(biāo)準(zhǔn)化流程;其次,針對情報(bào)數(shù)據(jù)的特點(diǎn),分別從情報(bào)來源、情報(bào)內(nèi)容、活躍周期、黑名單庫匹配程度4個維度提取特征作為評估情報(bào)質(zhì)量的依據(jù);然后針對提取的特征編碼,設(shè)計(jì)了一套基于深度神經(jīng)網(wǎng)絡(luò)算法和Softmax分類器的情報(bào)質(zhì)量評價模型,并利用反向誤差傳播算法最小化重構(gòu)誤差;最后根據(jù)2000條開源已標(biāo)注樣本數(shù)據(jù),利用K折交叉驗(yàn)證法對模型進(jìn)行驗(yàn)證,得到了平均91.37%的宏查準(zhǔn)率和84.89%的宏查全率,為多源威脅情報(bào)質(zhì)量評估提供借鑒和參考。
【文章來源】:電信科學(xué). 2020,36(01)
【文章頁數(shù)】:8 頁
【部分圖文】:
情報(bào)數(shù)據(jù)標(biāo)準(zhǔn)化流程
情報(bào)的來源能在很大程度上反映出一條情報(bào)的可信程度,一般來說,多來源情報(bào)比單來源情報(bào)質(zhì)量更高,知名威脅情報(bào)廠商、專業(yè)情報(bào)評估機(jī)構(gòu)比個人情報(bào)數(shù)據(jù)質(zhì)量更高[10]。由于情報(bào)來源之間的關(guān)聯(lián)性較小,為了保證每個情報(bào)來源特征的獨(dú)立性,本文對其采用onehot編碼方式,將每個情報(bào)源映射到不同維度上。情報(bào)源onehot特征編碼示意圖如圖2所示,對n個不同的情報(bào)源,對其順序編號,分別將其映射到n維的0、1特征空間。由于威脅情報(bào)具有很強(qiáng)的時效性,發(fā)布時間是評價情報(bào)是否有效的重要特征指標(biāo)。一般來說,當(dāng)前時間離情報(bào)發(fā)布時間越近,其失效的可能性越小[11]。同時,由于一條情報(bào)可能會在不同時間段多次發(fā)布,通過記錄其最近3次的發(fā)現(xiàn)時間,能夠表征情報(bào)的波動趨勢,有助于分析當(dāng)前情報(bào)的可信程度。本方法情報(bào)基于時間特征的編碼見表1。
對情報(bào)數(shù)據(jù)進(jìn)行特征提取后,本文采用深度神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練質(zhì)量分類模型。深度神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)結(jié)構(gòu)上由輸入層、輸出層和多個全連接層3部分組成,如圖3所示,輸入層神經(jīng)元負(fù)責(zé)接收特征輸入,全連接層和輸出層通過功能神經(jīng)元對輸入進(jìn)行函數(shù)處理。函數(shù)處理與局部模型和感知機(jī)相同,由一個線性函數(shù)(xi為上一層神經(jīng)元的輸入,wi為上一層神經(jīng)元與當(dāng)前神經(jīng)元的連接權(quán))與一個激活函數(shù)構(gòu)成。為提高模型復(fù)雜度和訓(xùn)練準(zhǔn)確率,深度神經(jīng)網(wǎng)絡(luò)有增加全連接層神經(jīng)元數(shù)目和增加神經(jīng)網(wǎng)絡(luò)層數(shù)兩種方法。但一般情況下,增加神經(jīng)網(wǎng)絡(luò)層數(shù)更加可靠有效。因?yàn)樵黾尤B接層數(shù)不僅增加了擁有激活函數(shù)的神經(jīng)元數(shù)目,還增加了激活函數(shù)嵌套層數(shù),具有更強(qiáng)的特征表達(dá)和函數(shù)模擬能力。但是隨著層數(shù)的增加,網(wǎng)絡(luò)中無法使用單層的反向誤差傳播算法進(jìn)行模型訓(xùn)練,因?yàn)樵诙鄬泳W(wǎng)絡(luò)中誤差逆?zhèn)鞑r往往會出現(xiàn)梯度消失或梯度爆炸的情況,訓(xùn)練無法達(dá)到穩(wěn)定收斂的狀態(tài)。
【參考文獻(xiàn)】:
期刊論文
[1]一種多源網(wǎng)絡(luò)安全威脅情報(bào)采集與封裝技術(shù)[J]. 徐留杰,翟江濤,楊康,丁晨鵬. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2018(10)
[2]基于自更新威脅情報(bào)庫的大數(shù)據(jù)安全分析方法[J]. 侯艷芳,王錦華. 電信科學(xué). 2018(03)
[3]定義網(wǎng)絡(luò)空間安全[J]. 方濱興. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2018(01)
[4]應(yīng)急信息可信度研究范式的三維闡釋與構(gòu)建——基于工程化思維與WSR方法論[J]. 劉春年,張凌宇. 現(xiàn)代情報(bào). 2017(06)
碩士論文
[1]多源異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)研究及其應(yīng)用[D]. 賀雅琪.電子科技大學(xué) 2018
[2]網(wǎng)絡(luò)空間中威脅情報(bào)可信度多維度分析模型研究[D]. 李蕾.北京郵電大學(xué) 2018
本文編號:3120393
【文章來源】:電信科學(xué). 2020,36(01)
【文章頁數(shù)】:8 頁
【部分圖文】:
情報(bào)數(shù)據(jù)標(biāo)準(zhǔn)化流程
情報(bào)的來源能在很大程度上反映出一條情報(bào)的可信程度,一般來說,多來源情報(bào)比單來源情報(bào)質(zhì)量更高,知名威脅情報(bào)廠商、專業(yè)情報(bào)評估機(jī)構(gòu)比個人情報(bào)數(shù)據(jù)質(zhì)量更高[10]。由于情報(bào)來源之間的關(guān)聯(lián)性較小,為了保證每個情報(bào)來源特征的獨(dú)立性,本文對其采用onehot編碼方式,將每個情報(bào)源映射到不同維度上。情報(bào)源onehot特征編碼示意圖如圖2所示,對n個不同的情報(bào)源,對其順序編號,分別將其映射到n維的0、1特征空間。由于威脅情報(bào)具有很強(qiáng)的時效性,發(fā)布時間是評價情報(bào)是否有效的重要特征指標(biāo)。一般來說,當(dāng)前時間離情報(bào)發(fā)布時間越近,其失效的可能性越小[11]。同時,由于一條情報(bào)可能會在不同時間段多次發(fā)布,通過記錄其最近3次的發(fā)現(xiàn)時間,能夠表征情報(bào)的波動趨勢,有助于分析當(dāng)前情報(bào)的可信程度。本方法情報(bào)基于時間特征的編碼見表1。
對情報(bào)數(shù)據(jù)進(jìn)行特征提取后,本文采用深度神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練質(zhì)量分類模型。深度神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)結(jié)構(gòu)上由輸入層、輸出層和多個全連接層3部分組成,如圖3所示,輸入層神經(jīng)元負(fù)責(zé)接收特征輸入,全連接層和輸出層通過功能神經(jīng)元對輸入進(jìn)行函數(shù)處理。函數(shù)處理與局部模型和感知機(jī)相同,由一個線性函數(shù)(xi為上一層神經(jīng)元的輸入,wi為上一層神經(jīng)元與當(dāng)前神經(jīng)元的連接權(quán))與一個激活函數(shù)構(gòu)成。為提高模型復(fù)雜度和訓(xùn)練準(zhǔn)確率,深度神經(jīng)網(wǎng)絡(luò)有增加全連接層神經(jīng)元數(shù)目和增加神經(jīng)網(wǎng)絡(luò)層數(shù)兩種方法。但一般情況下,增加神經(jīng)網(wǎng)絡(luò)層數(shù)更加可靠有效。因?yàn)樵黾尤B接層數(shù)不僅增加了擁有激活函數(shù)的神經(jīng)元數(shù)目,還增加了激活函數(shù)嵌套層數(shù),具有更強(qiáng)的特征表達(dá)和函數(shù)模擬能力。但是隨著層數(shù)的增加,網(wǎng)絡(luò)中無法使用單層的反向誤差傳播算法進(jìn)行模型訓(xùn)練,因?yàn)樵诙鄬泳W(wǎng)絡(luò)中誤差逆?zhèn)鞑r往往會出現(xiàn)梯度消失或梯度爆炸的情況,訓(xùn)練無法達(dá)到穩(wěn)定收斂的狀態(tài)。
【參考文獻(xiàn)】:
期刊論文
[1]一種多源網(wǎng)絡(luò)安全威脅情報(bào)采集與封裝技術(shù)[J]. 徐留杰,翟江濤,楊康,丁晨鵬. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2018(10)
[2]基于自更新威脅情報(bào)庫的大數(shù)據(jù)安全分析方法[J]. 侯艷芳,王錦華. 電信科學(xué). 2018(03)
[3]定義網(wǎng)絡(luò)空間安全[J]. 方濱興. 網(wǎng)絡(luò)與信息安全學(xué)報(bào). 2018(01)
[4]應(yīng)急信息可信度研究范式的三維闡釋與構(gòu)建——基于工程化思維與WSR方法論[J]. 劉春年,張凌宇. 現(xiàn)代情報(bào). 2017(06)
碩士論文
[1]多源異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)研究及其應(yīng)用[D]. 賀雅琪.電子科技大學(xué) 2018
[2]網(wǎng)絡(luò)空間中威脅情報(bào)可信度多維度分析模型研究[D]. 李蕾.北京郵電大學(xué) 2018
本文編號:3120393
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3120393.html
最近更新
教材專著