天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大規(guī)模圖譜分析的海量網(wǎng)絡(luò)流量數(shù)據(jù)挖掘

發(fā)布時(shí)間:2018-11-14 17:02
【摘要】:得益于以3G/4G為代表的無(wú)線通信技術(shù)的發(fā)展與普及、個(gè)人移動(dòng)網(wǎng)絡(luò)終端處理能力的增強(qiáng)以及個(gè)性化網(wǎng)絡(luò)應(yīng)用的日益豐富,移動(dòng)互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪兄匾慕M成部分,以及獲取、分享信息的主要渠道。這使得移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)流量在無(wú)線通信網(wǎng)絡(luò)流量中所占的比例快速增加。在語(yǔ)音通信業(yè)務(wù)逐漸飽和的情況下,面臨利潤(rùn)增長(zhǎng)壓力的移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商和服務(wù)提供商必須通過(guò)精細(xì)化的互聯(lián)網(wǎng)業(yè)務(wù)流量經(jīng)營(yíng),以達(dá)到提高用戶ARPU (Average Revenue Per User用戶平均收入)值,實(shí)現(xiàn)收入持續(xù)增長(zhǎng)的目標(biāo)。但目前網(wǎng)絡(luò)運(yùn)營(yíng)商無(wú)論是用戶量還是業(yè)務(wù)數(shù)據(jù)量都進(jìn)入了一個(gè)海量數(shù)據(jù)時(shí)代,動(dòng)輒以億為單位計(jì)算的用戶規(guī)模,結(jié)合早已超出語(yǔ)音、短信等傳統(tǒng)業(yè)務(wù)范疇的豐富互聯(lián)網(wǎng)業(yè)務(wù),當(dāng)今的無(wú)線通信網(wǎng)絡(luò)時(shí)時(shí)刻刻都在產(chǎn)生著海量的流量數(shù)據(jù),這些數(shù)據(jù)包括移動(dòng)互聯(lián)網(wǎng)網(wǎng)頁(yè)數(shù)據(jù)、用戶交互數(shù)據(jù)、設(shè)備產(chǎn)生的活動(dòng)數(shù)據(jù)、DNS查詢數(shù)據(jù)等等。這些數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)在三個(gè)不同的維度上呈現(xiàn)出了顯著的不同特征:(1)數(shù)據(jù)量大小-大容量;(2)數(shù)據(jù)類型-多類型;(3)數(shù)據(jù)時(shí)效性-高時(shí)效。面對(duì)大容量、多類型、高時(shí)效的流量數(shù)據(jù),傳統(tǒng)的流量分析技術(shù)已經(jīng)不能滿足網(wǎng)絡(luò)運(yùn)營(yíng)商的需求,需要采用面向海量數(shù)據(jù)處理的并行算法。在此背景下,本文提出了處理海量網(wǎng)絡(luò)流量的分布式并行計(jì)算分析解決方法。分布式并行計(jì)算方法主要使用目前比較流行的Hadoop技術(shù)框架和Spark技術(shù)框架。Hadoop技術(shù)框架揭開(kāi)了海量數(shù)據(jù)處理的新篇章,而Spark技術(shù)框架可以說(shuō)是Hadoop技術(shù)框架的升級(jí)版本。Spark技術(shù)框架通過(guò)使用內(nèi)存計(jì)算,使得對(duì)海量數(shù)據(jù)的處理更加快捷。本文根據(jù)不同的應(yīng)用場(chǎng)景和問(wèn)題需求使用不同的技術(shù)框架。同時(shí),由于互聯(lián)網(wǎng)應(yīng)用爆炸性的增長(zhǎng),網(wǎng)絡(luò)流量變得異常復(fù)雜。僅僅通過(guò)簡(jiǎn)單流量統(tǒng)計(jì)分析已經(jīng)不能很好的揭示網(wǎng)絡(luò)流量的內(nèi)在特征。為了精細(xì)分析網(wǎng)絡(luò)流量,揭示網(wǎng)絡(luò)中各個(gè)功能實(shí)體間的復(fù)雜關(guān)系,本文將網(wǎng)絡(luò)分析問(wèn)題進(jìn)行圖譜建模,運(yùn)用多種圖譜分析方法來(lái)解決網(wǎng)絡(luò)流量分析的實(shí)際問(wèn)題,并將分析結(jié)果用圖形進(jìn)行可視化呈現(xiàn)。本文的主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)如下:(1)根據(jù)用戶網(wǎng)頁(yè)瀏覽行為以及網(wǎng)頁(yè)加載過(guò)程,對(duì)網(wǎng)頁(yè)中的單元實(shí)體進(jìn)行圖形建模,并對(duì)該圖模型進(jìn)行分析,以便了解互聯(lián)網(wǎng)實(shí)體間的關(guān)系。該模型構(gòu)建系統(tǒng)具有以下三個(gè)特色:第一個(gè)特色為,對(duì)真實(shí)移動(dòng)網(wǎng)絡(luò)環(huán)境下的互聯(lián)網(wǎng)實(shí)體進(jìn)行統(tǒng)一的圖形建模。如實(shí)反映互聯(lián)網(wǎng)實(shí)體間的結(jié)構(gòu)和關(guān)系。第二個(gè)特色為,基于該圖模型可以進(jìn)行多種應(yīng)用分析,其中一個(gè)主要應(yīng)用就是用戶的點(diǎn)擊請(qǐng)求識(shí)別。設(shè)計(jì)實(shí)現(xiàn)了一個(gè)并行的點(diǎn)擊識(shí)別算法,算法可以從海量流量數(shù)據(jù)中準(zhǔn)確的識(shí)別出用戶的點(diǎn)擊請(qǐng)求。第三個(gè)特色為,使用實(shí)驗(yàn)室自主研發(fā)的TMS (Traffic Monitoring System)來(lái)采集真實(shí)移動(dòng)網(wǎng)絡(luò)中的海量鏡像報(bào)文數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)參數(shù)的選擇上,設(shè)計(jì)了一種自學(xué)習(xí)參數(shù)選擇方法。實(shí)驗(yàn)驗(yàn)證了模型的可行性和模型應(yīng)用的準(zhǔn)確性。(2)整個(gè)互聯(lián)網(wǎng)實(shí)體圖是一個(gè)巨大的、稀疏、復(fù)雜圖,為了揭示網(wǎng)絡(luò)實(shí)體間的內(nèi)部結(jié)構(gòu),以及對(duì)實(shí)體間的內(nèi)部結(jié)構(gòu)進(jìn)行可視化,設(shè)計(jì)提出了基于依賴圖的Web實(shí)體連接結(jié)構(gòu)模式分析方法。對(duì)運(yùn)營(yíng)商真實(shí)網(wǎng)絡(luò)環(huán)境下的海量流量數(shù)據(jù)進(jìn)行圖形建模,模型的規(guī)模是巨大的,不適合直接觀察和分析,為此設(shè)計(jì)了基于依賴圖的Web實(shí)體連接結(jié)構(gòu)模式分析方法,來(lái)將圖模型進(jìn)行分解。分解的結(jié)果是具有緊密連接結(jié)構(gòu)的、便于觀察的小圖。(3)圖模型是物理實(shí)體的一種數(shù)學(xué)抽象形式,圖模型的分析需要運(yùn)用大量的數(shù)學(xué)計(jì)算和圖形算法,為此設(shè)計(jì)了基于Spark計(jì)算框架的海量數(shù)據(jù)處理算法庫(kù),以此作為其他流量分析算法的基礎(chǔ)。Spark計(jì)算框架相比于Hadoop計(jì)算框架具有更豐富的計(jì)算表達(dá)能力,因此設(shè)計(jì)實(shí)施了多種基于Spark計(jì)算框架的基本數(shù)學(xué)算法,包括矩陣乘法、矩陣求逆等。(4) DNS查詢數(shù)據(jù)是網(wǎng)絡(luò)流量分析的重要數(shù)據(jù)之一。將查詢記錄和返回結(jié)果進(jìn)行圖形建模,并將圖形屬性信息應(yīng)用于惡意域名識(shí)別中。惡意域名識(shí)別是網(wǎng)絡(luò)監(jiān)管部門(mén)和網(wǎng)絡(luò)運(yùn)營(yíng)商都十分關(guān)心的問(wèn)題,但惡意域名隱蔽性極強(qiáng)、難于發(fā)現(xiàn),需要綜合惡意域名多方面的特性,通過(guò)有效的分類方法將其與正常域名進(jìn)行分離,才能達(dá)到惡意域名識(shí)別的目的。為此設(shè)計(jì)使用了 DNS圖模型的多個(gè)屬性值,例如出度、入度、中心性等,作為域名分類的屬性值,結(jié)合域名自身的特性對(duì)域名進(jìn)行分類處理,最終發(fā)現(xiàn)DNS查詢記錄中的惡意域名。(5)對(duì)于移動(dòng)網(wǎng)絡(luò)運(yùn)營(yíng)商環(huán)境下的超高速流式數(shù)據(jù),采用并行流式算法,對(duì)流量數(shù)據(jù)進(jìn)行精細(xì)化分析。網(wǎng)絡(luò)運(yùn)營(yíng)商的流量分析任務(wù)可以分為兩大類:1.網(wǎng)絡(luò)流量數(shù)據(jù)靜態(tài)存儲(chǔ)后的批量分析。2.超高速流式數(shù)據(jù)的實(shí)時(shí)在線分析。近年來(lái)隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,運(yùn)營(yíng)商骨干網(wǎng)的鏈路已經(jīng)大量采用1OOGbps端口。這給網(wǎng)絡(luò)流量數(shù)據(jù)的實(shí)時(shí)性分析帶來(lái)新的技術(shù)挑戰(zhàn),為此設(shè)計(jì)了快速流式流量分析算法,對(duì)運(yùn)營(yíng)商環(huán)境下的超高速流式數(shù)據(jù)進(jìn)行分析,并對(duì)移動(dòng)網(wǎng)頁(yè)流量進(jìn)行了精細(xì)化分析。
[Abstract]:......
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:博士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP393.0;TP311.13

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 曹云海,熊華平,吳鈞,杜召;網(wǎng)絡(luò)流量數(shù)據(jù)管理系統(tǒng)的開(kāi)發(fā)與應(yīng)用[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2002年06期

2 張大方;沈永堅(jiān);黎文偉;;一種基于歷史記錄的網(wǎng)絡(luò)流量數(shù)據(jù)采樣方法[J];湖南大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年06期

3 吳亞?wèn)|,孫世新;低分辨率小規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)的混沌特性鑒別[J];計(jì)算機(jī)應(yīng)用研究;2005年09期

4 楊波;劉淵;;基于算術(shù)平均值的網(wǎng)絡(luò)流量數(shù)據(jù)采樣方法[J];微計(jì)算機(jī)信息;2007年24期

5 張瑞;胡蓉;;基于季節(jié)時(shí)間序列模型的網(wǎng)絡(luò)流量實(shí)證分析[J];四川文理學(xué)院學(xué)報(bào);2012年05期

6 唐紅,吳勇軍;利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)流量數(shù)據(jù)分析[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2003年11期

7 歐陽(yáng)e,

本文編號(hào):2331773


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2331773.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶22001***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com