基于機(jī)器學(xué)習(xí)的惡意網(wǎng)址識別方法的研究與發(fā)現(xiàn)
發(fā)布時間:2021-01-10 07:03
隨著互聯(lián)網(wǎng)的快速發(fā)展以及網(wǎng)民數(shù)量的不斷攀升,信息在高速與頻繁的交換過程中木馬注入、網(wǎng)絡(luò)釣魚、分布式攻擊等網(wǎng)絡(luò)攻擊不斷涌現(xiàn),嚴(yán)重威脅個人用戶的隱私、網(wǎng)絡(luò)環(huán)境的生態(tài)及國家信息財產(chǎn)安全。許多網(wǎng)絡(luò)攻擊借助傳播惡意URLs來實現(xiàn)。本文針對惡意URLs的檢測問題進(jìn)行了相關(guān)研究。針對基于黑名單機(jī)制只能檢測識別已發(fā)現(xiàn)的惡意URLs,無法預(yù)測新近出現(xiàn)及未標(biāo)記的惡意網(wǎng)址的問題,本文對大量URLs進(jìn)行統(tǒng)計分析,設(shè)計并提出具有高檢出率的惡意URLs檢測特征空間,包含基于時間、元輔音比等34維特征。為驗證比較特征有效性,結(jié)合機(jī)器學(xué)習(xí)及深度學(xué)習(xí)算法進(jìn)行檢測實驗,證明對惡意URLs檢測識別具有良好的區(qū)分能力,檢測準(zhǔn)確率高達(dá)99.5%。通過對特征集的對比分析發(fā)現(xiàn):時間、子路徑最大長度、URLs中元組在負(fù)向數(shù)據(jù)集概率和、URLs中元組在正向數(shù)據(jù)集概率和、域名最長字串占域名比例、域名中不同種類的字符占域名比例等15維特征在先前研究中未被使用或較少被使用,但在本特征集中起關(guān)鍵性區(qū)分作用。針對人工設(shè)計特征規(guī)則過程中會引入不相關(guān)、冗余、噪聲特征等問題,本文提出一種發(fā)現(xiàn)綜合特征空間的方法,主要采用隨機(jī)森林、J48、貝葉斯等機(jī)器學(xué)...
【文章來源】:北京建筑大學(xué)北京市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
ID3和C4.5算法流程圖
第 2 章 相關(guān)研究特征組合作為特征選擇的結(jié)果。2.5 深度學(xué)習(xí)算法2.5.1 卷積神經(jīng)網(wǎng)絡(luò)由于人工智能的發(fā)展推進(jìn)與 AlphaGo 的驚人表現(xiàn),使得近期深度學(xué)習(xí)算法受到廣泛關(guān)注,其優(yōu)良的智能計算學(xué)習(xí)能力也被人贊賞。目前深度學(xué)習(xí)網(wǎng)絡(luò)中卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)等主要算法被重點應(yīng)用,主要應(yīng)用于圖像數(shù)據(jù)的相關(guān)處理,同時少量研究是基于信號數(shù)據(jù)[53],字符串?dāng)?shù)據(jù)進(jìn)行處理的。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)在特征提取方面具有良好的表現(xiàn),通過 CNN 可以完成輸入中多種特征的識別。因此,在此基礎(chǔ)上嘗試以 CNN 對 URLs進(jìn)行學(xué)習(xí)分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet-5 結(jié)構(gòu),其中包括 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為池化層,第六層為全連接層,第七層為輸出層,具體如圖 2-3 所示。
CNN 可以完成輸入中多種特征的識別。因此,在此基礎(chǔ)上嘗試以 CNN分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為全連接層,第七層為輸出層,具體如圖 2-3 所示。圖 2-3 LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)Fig 2-3 LeNet-5 Convolutional neural network積神經(jīng)網(wǎng)絡(luò)中卷積層的主要功能是特征提取,通過卷積核將輸入數(shù)據(jù),強化特征輸出。圖 2-4 所示是卷積的具體過程,設(shè)定 2×2 的卷積陣,以步長為 2 進(jìn)行運算轉(zhuǎn)化后輸出,實現(xiàn)原信號特征增強,并且降
【參考文獻(xiàn)】:
期刊論文
[1]面向惡意網(wǎng)址檢測的廣譜特征選擇與評估[J]. 張慧,錢麗萍,汪立東,袁辰,張婷. 現(xiàn)代電子技術(shù). 2019(09)
[2]高維小樣本分類問題中特征選擇研究綜述[J]. 王翔,胡學(xué)鋼. 計算機(jī)應(yīng)用. 2017(09)
[3]網(wǎng)絡(luò)數(shù)據(jù)特征選擇的優(yōu)化方法研究與仿真[J]. 張浩. 計算機(jī)仿真. 2017(02)
[4]基于多維度特征的不良網(wǎng)站檢測[J]. 田雙柱,陳勇,延志偉,李曉東. 計算機(jī)系統(tǒng)應(yīng)用. 2017(02)
[5]采用機(jī)器學(xué)習(xí)的聚類模型特征選擇方法比較[J]. 趙瑋. 華僑大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[6]基于集成學(xué)習(xí)的釣魚網(wǎng)頁深度檢測系統(tǒng)[J]. 馮慶,連一峰,張穎君. 計算機(jī)系統(tǒng)應(yīng)用. 2016(10)
[7]基于信息熵的網(wǎng)絡(luò)安全研究[J]. 宣宇才,楊海軍,李論. 學(xué)術(shù)探索. 2016(09)
[8]基于改進(jìn)正則表達(dá)式規(guī)則分組的內(nèi)網(wǎng)行為審計方案[J]. 俞藝涵,付鈺,吳曉平. 計算機(jī)應(yīng)用. 2016(08)
[9]基于SVM和TF-IDF的惡意URL識別分析與研究[J]. 甘宏,潘丹. 計算機(jī)與現(xiàn)代化. 2016(07)
[10]基于多元屬性特征的惡意域名檢測[J]. 張洋,柳廳文,沙泓州,時金橋. 計算機(jī)應(yīng)用. 2016(04)
博士論文
[1]基于深度學(xué)習(xí)的暴力檢測及人臉識別方法研究[D]. 丁春輝.中國科學(xué)技術(shù)大學(xué) 2017
[2]機(jī)器學(xué)習(xí)中特征選問題研究[D]. 孫鑫.吉林大學(xué) 2013
碩士論文
[1]高混淆掛馬網(wǎng)頁的分析與檢測系統(tǒng)[D]. 楊明.上海交通大學(xué) 2014
[2]基于DNS流量的惡意軟件域名挖掘[D]. 章思宇.上海交通大學(xué) 2014
本文編號:2968281
【文章來源】:北京建筑大學(xué)北京市
【文章頁數(shù)】:63 頁
【學(xué)位級別】:碩士
【部分圖文】:
ID3和C4.5算法流程圖
第 2 章 相關(guān)研究特征組合作為特征選擇的結(jié)果。2.5 深度學(xué)習(xí)算法2.5.1 卷積神經(jīng)網(wǎng)絡(luò)由于人工智能的發(fā)展推進(jìn)與 AlphaGo 的驚人表現(xiàn),使得近期深度學(xué)習(xí)算法受到廣泛關(guān)注,其優(yōu)良的智能計算學(xué)習(xí)能力也被人贊賞。目前深度學(xué)習(xí)網(wǎng)絡(luò)中卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)等主要算法被重點應(yīng)用,主要應(yīng)用于圖像數(shù)據(jù)的相關(guān)處理,同時少量研究是基于信號數(shù)據(jù)[53],字符串?dāng)?shù)據(jù)進(jìn)行處理的。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)在特征提取方面具有良好的表現(xiàn),通過 CNN 可以完成輸入中多種特征的識別。因此,在此基礎(chǔ)上嘗試以 CNN 對 URLs進(jìn)行學(xué)習(xí)分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet-5 結(jié)構(gòu),其中包括 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為池化層,第六層為全連接層,第七層為輸出層,具體如圖 2-3 所示。
CNN 可以完成輸入中多種特征的識別。因此,在此基礎(chǔ)上嘗試以 CNN分辨,完成特征提取。其中,最經(jīng)典通用的 CNN 網(wǎng)絡(luò)結(jié)構(gòu)為 LeNet 7 層網(wǎng)絡(luò)結(jié)構(gòu),第一層、第三層和第五層為卷積層,第二層和第四層為全連接層,第七層為輸出層,具體如圖 2-3 所示。圖 2-3 LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)Fig 2-3 LeNet-5 Convolutional neural network積神經(jīng)網(wǎng)絡(luò)中卷積層的主要功能是特征提取,通過卷積核將輸入數(shù)據(jù),強化特征輸出。圖 2-4 所示是卷積的具體過程,設(shè)定 2×2 的卷積陣,以步長為 2 進(jìn)行運算轉(zhuǎn)化后輸出,實現(xiàn)原信號特征增強,并且降
【參考文獻(xiàn)】:
期刊論文
[1]面向惡意網(wǎng)址檢測的廣譜特征選擇與評估[J]. 張慧,錢麗萍,汪立東,袁辰,張婷. 現(xiàn)代電子技術(shù). 2019(09)
[2]高維小樣本分類問題中特征選擇研究綜述[J]. 王翔,胡學(xué)鋼. 計算機(jī)應(yīng)用. 2017(09)
[3]網(wǎng)絡(luò)數(shù)據(jù)特征選擇的優(yōu)化方法研究與仿真[J]. 張浩. 計算機(jī)仿真. 2017(02)
[4]基于多維度特征的不良網(wǎng)站檢測[J]. 田雙柱,陳勇,延志偉,李曉東. 計算機(jī)系統(tǒng)應(yīng)用. 2017(02)
[5]采用機(jī)器學(xué)習(xí)的聚類模型特征選擇方法比較[J]. 趙瑋. 華僑大學(xué)學(xué)報(自然科學(xué)版). 2017(01)
[6]基于集成學(xué)習(xí)的釣魚網(wǎng)頁深度檢測系統(tǒng)[J]. 馮慶,連一峰,張穎君. 計算機(jī)系統(tǒng)應(yīng)用. 2016(10)
[7]基于信息熵的網(wǎng)絡(luò)安全研究[J]. 宣宇才,楊海軍,李論. 學(xué)術(shù)探索. 2016(09)
[8]基于改進(jìn)正則表達(dá)式規(guī)則分組的內(nèi)網(wǎng)行為審計方案[J]. 俞藝涵,付鈺,吳曉平. 計算機(jī)應(yīng)用. 2016(08)
[9]基于SVM和TF-IDF的惡意URL識別分析與研究[J]. 甘宏,潘丹. 計算機(jī)與現(xiàn)代化. 2016(07)
[10]基于多元屬性特征的惡意域名檢測[J]. 張洋,柳廳文,沙泓州,時金橋. 計算機(jī)應(yīng)用. 2016(04)
博士論文
[1]基于深度學(xué)習(xí)的暴力檢測及人臉識別方法研究[D]. 丁春輝.中國科學(xué)技術(shù)大學(xué) 2017
[2]機(jī)器學(xué)習(xí)中特征選問題研究[D]. 孫鑫.吉林大學(xué) 2013
碩士論文
[1]高混淆掛馬網(wǎng)頁的分析與檢測系統(tǒng)[D]. 楊明.上海交通大學(xué) 2014
[2]基于DNS流量的惡意軟件域名挖掘[D]. 章思宇.上海交通大學(xué) 2014
本文編號:2968281
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2968281.html
最近更新
教材專著