基于加密流量分析和深度學(xué)習(xí)的移動(dòng)應(yīng)用程序識(shí)別關(guān)鍵技術(shù)研究
發(fā)布時(shí)間:2020-12-13 03:43
近年來(lái),移動(dòng)互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I詈凸ぷ髦胁豢苫蛉钡闹匾M成部分,針對(duì)不同的移動(dòng)應(yīng)用類型提供差異化的QOS服務(wù)成為了網(wǎng)絡(luò)運(yùn)營(yíng)部門的重要任務(wù)之一;陔[私保護(hù)等安全目的,移動(dòng)應(yīng)用大多采用加密技術(shù),這為移動(dòng)應(yīng)用的識(shí)別增加了挑戰(zhàn)。因而基于密文流量的移動(dòng)應(yīng)用類型識(shí)別技術(shù)成為了國(guó)內(nèi)外學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。本文以加密流量分析和深度學(xué)習(xí)相關(guān)技術(shù)為基礎(chǔ),針對(duì)移動(dòng)應(yīng)用類型識(shí)別技術(shù)中的數(shù)據(jù)預(yù)處理、加密數(shù)據(jù)流特征提取和加密數(shù)據(jù)流算法建模三個(gè)組成模塊分別進(jìn)行了改進(jìn)和創(chuàng)新,具體內(nèi)容如下:(1)針對(duì)不同移動(dòng)應(yīng)用產(chǎn)生的相似干擾加密流樣本,提出了一種基于信息熵的聚類簇純度分析算法。該算法首先利用DBSCAN密度聚類算法對(duì)所有加密流樣本進(jìn)行聚類分析,接著根據(jù)每個(gè)樣本的真實(shí)標(biāo)簽計(jì)算每個(gè)聚類簇的信息熵從而為聚類簇進(jìn)行純度打分,最后根據(jù)實(shí)驗(yàn)合理設(shè)置熵閾值過(guò)濾信息熵較大的聚類簇樣本,實(shí)現(xiàn)相似干擾樣本的過(guò)濾。(2)針對(duì)加密數(shù)據(jù)流特征提取階段,提出了一種將加密數(shù)據(jù)包頭部信息和負(fù)載信息相結(jié)合的特征提取方案。該方案將加密數(shù)據(jù)流抽象為數(shù)據(jù)包時(shí)間序列,提取數(shù)據(jù)包頭部的數(shù)據(jù)包長(zhǎng)度、端口號(hào)、TCP窗口等明文信息作為數(shù)據(jù)包頭部特征,計(jì)算...
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
統(tǒng)計(jì)特征的基尼指數(shù)分布圖
定為最優(yōu)特征集合。表 4.2 CA-SFS 特征選擇過(guò)程迭代輪次 特征子集 算法識(shí)別準(zhǔn)確率(%)1 數(shù)據(jù)包首部特征 92.36%2 …,3h 93.23%3 …,1h ,4h93.98%4 …,7h94.16%5 …,2h94.63%M 模型訓(xùn)練期間訓(xùn)練集和測(cè)試集的損失函數(shù)變化曲線。對(duì)各參數(shù)的導(dǎo)數(shù)較大,損失函數(shù)迅速減小。訓(xùn)練輪數(shù)超對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)的導(dǎo)數(shù)趨近于 0,加之 RMSProp 算法通學(xué)習(xí)步長(zhǎng),參數(shù)更新較慢,逐步穩(wěn)定收斂于最優(yōu)解。為確性評(píng)估,本文隨機(jī)采樣數(shù)據(jù)集中每個(gè)應(yīng)用程序樣本的 8 種移動(dòng)應(yīng)用的識(shí)別效果如圖 4.9 所示。
圖 4.9 移動(dòng)應(yīng)用識(shí)別效果本章小結(jié)本章針對(duì)加密數(shù)據(jù)包的數(shù)據(jù)包頭部和數(shù)據(jù)包負(fù)載分別提取了兩類特征,并利用 LSTM 算法最加密數(shù)據(jù)流時(shí)間序列進(jìn)行動(dòng)態(tài)建模。就數(shù)據(jù)而言,本章抓取了國(guó)內(nèi) 8 種流行移動(dòng)應(yīng)用的通信數(shù)據(jù)流,共計(jì) 105208 條樣本,以驗(yàn)證算法應(yīng)用識(shí)別效果。最后,通過(guò)實(shí)驗(yàn)證明了本章提出的頭部信息和負(fù)載信息相結(jié)合的特征提取方案對(duì)應(yīng)用類型識(shí)別的有效性。
本文編號(hào):2913831
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:65 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
統(tǒng)計(jì)特征的基尼指數(shù)分布圖
定為最優(yōu)特征集合。表 4.2 CA-SFS 特征選擇過(guò)程迭代輪次 特征子集 算法識(shí)別準(zhǔn)確率(%)1 數(shù)據(jù)包首部特征 92.36%2 …,3h 93.23%3 …,1h ,4h93.98%4 …,7h94.16%5 …,2h94.63%M 模型訓(xùn)練期間訓(xùn)練集和測(cè)試集的損失函數(shù)變化曲線。對(duì)各參數(shù)的導(dǎo)數(shù)較大,損失函數(shù)迅速減小。訓(xùn)練輪數(shù)超對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)的導(dǎo)數(shù)趨近于 0,加之 RMSProp 算法通學(xué)習(xí)步長(zhǎng),參數(shù)更新較慢,逐步穩(wěn)定收斂于最優(yōu)解。為確性評(píng)估,本文隨機(jī)采樣數(shù)據(jù)集中每個(gè)應(yīng)用程序樣本的 8 種移動(dòng)應(yīng)用的識(shí)別效果如圖 4.9 所示。
圖 4.9 移動(dòng)應(yīng)用識(shí)別效果本章小結(jié)本章針對(duì)加密數(shù)據(jù)包的數(shù)據(jù)包頭部和數(shù)據(jù)包負(fù)載分別提取了兩類特征,并利用 LSTM 算法最加密數(shù)據(jù)流時(shí)間序列進(jìn)行動(dòng)態(tài)建模。就數(shù)據(jù)而言,本章抓取了國(guó)內(nèi) 8 種流行移動(dòng)應(yīng)用的通信數(shù)據(jù)流,共計(jì) 105208 條樣本,以驗(yàn)證算法應(yīng)用識(shí)別效果。最后,通過(guò)實(shí)驗(yàn)證明了本章提出的頭部信息和負(fù)載信息相結(jié)合的特征提取方案對(duì)應(yīng)用類型識(shí)別的有效性。
本文編號(hào):2913831
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2913831.html
最近更新
教材專著