天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于集成學(xué)習(xí)的異常電話(huà)識(shí)別分析與建模

發(fā)布時(shí)間:2021-11-22 02:14
  通信以及網(wǎng)絡(luò)技術(shù)的高速發(fā)展極大的豐富了人們的生活。但網(wǎng)絡(luò)安全的漏洞造成了大量的個(gè)人信息泄漏,進(jìn)而導(dǎo)致騷擾和詐騙電話(huà)等異常電話(huà)像病毒一樣蔓延在人們的日常生活中。為了降低由異常電話(huà)帶來(lái)的財(cái)產(chǎn)損失和困擾,許多研究人員提出了一些異常電話(huà)檢測(cè)的解決方案。但是現(xiàn)有的工作更多的是關(guān)注人群的數(shù)據(jù)標(biāo)注,忽略了特征挖掘的有效性和數(shù)據(jù)分布帶來(lái)的影響。這些檢測(cè)方法大多數(shù)為被動(dòng)的檢測(cè),不能及時(shí)、主動(dòng)的給出準(zhǔn)確的預(yù)測(cè)。電信運(yùn)營(yíng)商通過(guò)構(gòu)建數(shù)據(jù)中心存儲(chǔ)了海量的電信用戶(hù)行為記錄,這些大數(shù)據(jù)為主動(dòng)識(shí)別異常電話(huà)提供了新的機(jī)會(huì)。如何從海量數(shù)據(jù)中準(zhǔn)確的獲取能代表用戶(hù)類(lèi)別的用戶(hù)行為特征、構(gòu)建異常電話(huà)識(shí)別模型進(jìn)而主動(dòng)的識(shí)別異常電話(huà),成為通信運(yùn)營(yíng)商和研究人員迫切關(guān)注的問(wèn)題。本文研究了一種基于特征挖掘和集成學(xué)習(xí)技術(shù)相結(jié)合的異常電話(huà)檢測(cè)模型,主要工作如下:1、提出一種電信數(shù)據(jù)預(yù)處理和特征提取分析方法(Data preprocessing and Feature extraction analysis,簡(jiǎn)稱(chēng)DF)來(lái)處理電信數(shù)據(jù),并對(duì)用戶(hù)歷史行為數(shù)據(jù)進(jìn)行特征提取、分析與特征降維。首先對(duì)電信樣本數(shù)據(jù)進(jìn)行預(yù)處理,并從七個(gè)大的維度充分挖掘電信用戶(hù)... 

【文章來(lái)源】:濟(jì)南大學(xué)山東省

【文章頁(yè)數(shù)】:79 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于集成學(xué)習(xí)的異常電話(huà)識(shí)別分析與建模


整體研究框架

流程圖,流程圖,電話(huà),電信


基于集成學(xué)習(xí)的異常電話(huà)識(shí)別分析與建模16全下實(shí)現(xiàn)多源異構(gòu)電信數(shù)據(jù)的獲取與融合,從而擴(kuò)展了傳統(tǒng)單一數(shù)據(jù)源分析方法,如圖3.1所示。圖3.1獲取數(shù)據(jù)流程圖項(xiàng)目的核心目標(biāo)是以電信運(yùn)營(yíng)商數(shù)據(jù)中心為依托,以移動(dòng)安全應(yīng)用為重要補(bǔ)充,基于時(shí)間窗口內(nèi)積累的電信大數(shù)據(jù),探究異常電信用戶(hù)的行為特征與通信機(jī)制。在前期多源異構(gòu)數(shù)據(jù)接入與用戶(hù)身份保護(hù)等數(shù)據(jù)基礎(chǔ)工作完成下我們從運(yùn)營(yíng)商數(shù)據(jù)平臺(tái)中獲取了包括300000條的正常用戶(hù)和520條確定的異常電話(huà)數(shù)據(jù),數(shù)據(jù)樣本分布如表3.1。本文將根據(jù)此數(shù)據(jù)展開(kāi)一系列的研究和探索。表3.1電信數(shù)據(jù)集樣本分布正常用戶(hù)異常用戶(hù)樣本數(shù)量3000005203.2.2數(shù)據(jù)分析在運(yùn)營(yíng)商提供給我們的300000條正常用戶(hù)中存在著一些不確定性。在用戶(hù)數(shù)據(jù)中一些用戶(hù)具備一些異常行為的屬性但沒(méi)有被發(fā)現(xiàn)被誤當(dāng)成了正常電話(huà),另外有一些正常用戶(hù)可能突變?yōu)楫惓k娫?huà)但是沒(méi)有被正確歸類(lèi),我們將這種數(shù)據(jù)統(tǒng)一稱(chēng)為臟數(shù)據(jù)。因此,在研究中如何克服數(shù)據(jù)的不確定性,構(gòu)建魯棒性強(qiáng)、分類(lèi)精準(zhǔn)的異常電話(huà)模型是一個(gè)關(guān)鍵的問(wèn)題。在獲取的數(shù)據(jù)中有另外一個(gè)顯著的特點(diǎn)為不平衡性。在運(yùn)營(yíng)商平臺(tái)中有大量

流程圖,數(shù)據(jù)集,流程圖,電信


基于集成學(xué)習(xí)的異常電話(huà)識(shí)別分析與建模18()0DiN=Lph(3-1)()1DiP=Lph(3-2)為了最大程度降低用戶(hù)隱私泄露的風(fēng)險(xiǎn),實(shí)驗(yàn)采用小樣本的數(shù)據(jù)進(jìn)行研究。由于真實(shí)電信樣本中往往存在一些不能確定類(lèi)別的“臟數(shù)據(jù)”,我們通過(guò)構(gòu)建混合數(shù)據(jù)集的方式更真實(shí)的還原樣本分布情況、構(gòu)建抗干擾能力強(qiáng)的異常電話(huà)識(shí)別模型。從原始數(shù)據(jù)的300000條DN中隨機(jī)抽取3000條dN放入新的數(shù)據(jù)集D中,從DP的520條數(shù)據(jù)樣本中隨機(jī)抽取100條混入dN中作為正常電信用戶(hù)數(shù)據(jù),混合后的正常電信用戶(hù)表示為d"N,最后將剩下的420條DP放入數(shù)據(jù)集D中。具體的混合方式如圖3.3所示。圖3.3混合數(shù)據(jù)集流程圖經(jīng)過(guò)混合后的混合數(shù)據(jù)集D中有3100條Nd’,420條PD,如表3.2所示。通過(guò)混合數(shù)據(jù)集來(lái)更好的還原真實(shí)數(shù)據(jù)中正常用戶(hù)數(shù)據(jù)中的“臟數(shù)據(jù)”的情況,訓(xùn)練異常電話(huà)識(shí)別模型,來(lái)增加模型的抗干擾能力以及魯棒性。表3.2電信混合數(shù)據(jù)集樣本分布DNd’PD樣本數(shù)量31004203.2.4數(shù)據(jù)規(guī)范在構(gòu)建混合集后,分析數(shù)據(jù)內(nèi)容,整理重復(fù)和缺失數(shù)據(jù),對(duì)數(shù)據(jù)特征缺失值進(jìn)行填充。在本文所研究的異常電話(huà)識(shí)別中,對(duì)于電信用戶(hù),單一的指標(biāo)不能夠合理的評(píng)價(jià)用戶(hù)類(lèi)別,需要全面的多指標(biāo)的來(lái)考慮。由于各個(gè)維度的指標(biāo)的性質(zhì)不同,通常具有不同的數(shù)據(jù)范圍和數(shù)量級(jí)。在特征數(shù)據(jù)值水平范圍相差較大的情況下,直接進(jìn)行分析時(shí)數(shù)值


本文編號(hào):3510726

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3510726.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)47de6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com