天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于協(xié)同聚類算法的互聯(lián)網(wǎng)流量與用戶行為分析

發(fā)布時(shí)間:2019-11-06 08:51
【摘要】:到目前為止,我國的網(wǎng)絡(luò)用戶數(shù)已經(jīng)接近我國總?cè)丝诘?0%,這充分地表明了互聯(lián)網(wǎng)已經(jīng)在人們的日;顒(dòng)中得到了廣泛的使用,并且極大地改變了人們的生活工作方式。因此,研究和分析互聯(lián)網(wǎng)流量和網(wǎng)絡(luò)用戶行為已經(jīng)成為網(wǎng)絡(luò)研究工作的重要內(nèi)容。與此同時(shí),海量數(shù)據(jù)的不斷產(chǎn)生也為互聯(lián)網(wǎng)流量與用戶行為的研究帶來了挑戰(zhàn)。本文的主要工作是運(yùn)用數(shù)據(jù)挖掘算法和工具實(shí)現(xiàn)對(duì)大規(guī)模的網(wǎng)絡(luò)流量和用戶行為的研究與分析。具體來說,本文首先基于用戶點(diǎn)擊識(shí)別構(gòu)建出對(duì)象級(jí)互聯(lián)網(wǎng)流量分析模型——網(wǎng)頁對(duì)象依賴圖。該圖模型描述了網(wǎng)頁對(duì)象之間的依賴關(guān)系,具有維度高、稀疏、復(fù)雜,但局部稠密的特點(diǎn)。因此,為了深入研究該圖模型的內(nèi)部結(jié)構(gòu)特征,本文設(shè)計(jì)并實(shí)現(xiàn)了一種協(xié)同聚類算法——非負(fù)矩陣分解算法,用于對(duì)大規(guī)模網(wǎng)頁對(duì)象依賴圖的分解,提取出四類典型的網(wǎng)頁結(jié)構(gòu)模式。最后,本文對(duì)這四類網(wǎng)頁結(jié)構(gòu)的特點(diǎn)和形成原因進(jìn)行了深入研究與分析。本文的主要貢獻(xiàn)包括以下三點(diǎn):第一,本文創(chuàng)新性地提出了基于用戶點(diǎn)擊識(shí)別的對(duì)象級(jí)互聯(lián)網(wǎng)流量分析模型——網(wǎng)頁對(duì)象依賴圖。該圖模型描述了網(wǎng)絡(luò)中用戶請(qǐng)求的主對(duì)象和內(nèi)嵌對(duì)象的依賴關(guān)系,為進(jìn)一步研究和挖掘網(wǎng)頁結(jié)構(gòu)模式提供了有效的數(shù)學(xué)模型。第二,本文基于Spark分布式架構(gòu)實(shí)現(xiàn)并優(yōu)化了并行正交非負(fù)矩陣分解(ONMTF)算法。該算法可以實(shí)現(xiàn)對(duì)高維、稀疏的非負(fù)矩陣的降維,同時(shí)分解結(jié)果的非負(fù)性和近似正交性使其具有更強(qiáng)的解釋能力;赟VD的矩陣初始化方法使ONMTF算法可以得到較好的局部最優(yōu)解。第三,本文利用并行的ONMTF算法實(shí)現(xiàn)了對(duì)大規(guī)模網(wǎng)頁對(duì)象依賴圖的分解,提取出四類典型的網(wǎng)頁結(jié)構(gòu),從而挖掘出網(wǎng)絡(luò)中存在的網(wǎng)頁結(jié)構(gòu)模式。
【圖文】:

過程圖,通信流程,目標(biāo)網(wǎng),服務(wù)器


=:::二逡逑圖3-1網(wǎng)頁訪問通信流程逡逑圖3-1表示了典型的網(wǎng)頁訪問流程,具體過程如下:逡逑1)邐Web客戶端向首選DNS服務(wù)器查詢目標(biāo)網(wǎng)站的IP。若響應(yīng)超時(shí),則根據(jù)本逡逑地網(wǎng)絡(luò)中配置的DNS服務(wù)器列表順序依次進(jìn)行查詢。逡逑2)邐Web客戶端通過三次握手與目標(biāo)網(wǎng)站的Web服務(wù)器建立TCP連接。若響應(yīng)逡逑9逡逑

過程圖,過程,網(wǎng)頁,點(diǎn)擊


要做一些假設(shè),例如一個(gè)頁面點(diǎn)擊只取決于最后一次點(diǎn)擊。然而,普遍使用多標(biāo)逡逑簽瀏覽器的并行瀏覽行為打破了這些假設(shè),使得這些識(shí)別方法無效。逡逑隨著現(xiàn)代瀏覽器技術(shù)和Web技術(shù)的迅速發(fā)展,用戶在訪問網(wǎng)頁時(shí)的點(diǎn)擊行逡逑為也變得復(fù)雜多變。針對(duì)以上研究中存在的問題和不足,我們提出了基于請(qǐng)求依逡逑賴關(guān)系圖的用戶點(diǎn)擊識(shí)別算法。在網(wǎng)絡(luò)中,用戶的點(diǎn)擊行為會(huì)產(chǎn)生大量請(qǐng)求。首逡逑先,我們建立起這些請(qǐng)求之間的依賴關(guān)系并抽象成請(qǐng)求依賴關(guān)系圖模型[26】。然后,逡逑我們?cè)谠搱D模型上應(yīng)用了一種可擴(kuò)展的點(diǎn)擊識(shí)別算法。通過實(shí)驗(yàn)對(duì)比分析,該點(diǎn)逡逑擊識(shí)別算法的準(zhǔn)確率明顯高于己有的算法,并且可擴(kuò)展以滿足大規(guī)模的分析需求。逡逑3.1.3邐基于圖模型的用戶點(diǎn)擊識(shí)別逡逑圖3-2描述了用戶網(wǎng)頁訪問的兩種方式,圖中的用戶1和用戶2在同一時(shí)段逡逑內(nèi)訪問了同一網(wǎng)站的3個(gè)網(wǎng)頁ppp2,p3,其中用戶1采用了順序訪問網(wǎng)頁的方式,逡逑每個(gè)網(wǎng)頁的所有請(qǐng)求響應(yīng)完畢后再去訪問新的網(wǎng)頁,所以網(wǎng)頁Pl,p2,,p3&請(qǐng)求之逡逑間保持了一定時(shí)間間隔;用戶2采用的是并行訪問網(wǎng)頁的方式,在網(wǎng)頁?1的請(qǐng)求逡逑沒有完全響應(yīng)之前就訪問了新的網(wǎng)頁廠2,所以Pl的請(qǐng)求r和p2的請(qǐng)求r之間產(chǎn)生逡逑了重疊。逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13;TP393.06

【參考文獻(xiàn)】

相關(guān)期刊論文 前1條

1 田暢,王海,鄭少仁;基于用戶行為的網(wǎng)絡(luò)流量模型及自相似性分析[J];通信學(xué)報(bào);2000年09期



本文編號(hào):2556633

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2556633.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a0a7e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com