運營商數(shù)據(jù)管理平臺中的獨立用戶識別研究
發(fā)布時間:2017-04-21 16:24
本文關(guān)鍵詞:運營商數(shù)據(jù)管理平臺中的獨立用戶識別研究,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的飛速發(fā)展,越來越多的用戶使用互聯(lián)網(wǎng)來獲取信息、網(wǎng)上購物等,形成了規(guī)模龐大的網(wǎng)絡(luò)用戶群體。這些用戶在上網(wǎng)的過程中,一方面使用運營商提供的ADSL(一種互聯(lián)網(wǎng)接入方式)訪問互聯(lián)網(wǎng),另一方面也給運營商提供了海量的Web日志。一家擁有四百多萬ADSL用戶的大型運營商,每日采集的Web日志記錄就高達4億多條。這些日志數(shù)據(jù)中蘊含著豐富的用戶興趣信息,例如用戶的消費傾向、購物習慣等,具有潛在的價值。為此,運營商通過構(gòu)建數(shù)據(jù)管理平臺(Data Management Platform, DMP),對用戶的Web日志進行采集、存儲、處理與分析,獲取用戶的興趣,為實現(xiàn)精準的廣告投放提供數(shù)據(jù)依據(jù)。 眾所周知,一個ADSL設(shè)備通常由一個家庭、或一個辦公室、或一個實驗室的多個成員共用。換言之,一個ADSL的后端可能會有多個用戶使用各自的終端,如電腦、智能手機、iPad等,進行互聯(lián)網(wǎng)訪問。對于運營商而言,一個ADSL背后可能隱藏了多個用戶。分析用戶興趣的前提是要準確地識別出各個獨立用戶。由此可見,獨立用戶識別是運營商數(shù)據(jù)管理平臺中最基本的功能。 由于現(xiàn)有的Web日志用戶識別技術(shù)大多是針對單個網(wǎng)站的,只能識別出與該站點交互的用戶。而運營商提供的Web日志包括了不同網(wǎng)站不同用戶的信息,這些信息數(shù)據(jù)量巨大、來源廣泛,造成獨立用戶識別的難度很大。為解決此難題,本文以某運營商提供的ADSL網(wǎng)絡(luò)用戶的Web日志數(shù)據(jù)為基礎(chǔ),在數(shù)據(jù)管理平臺建設(shè)的背景下,結(jié)合流行的大數(shù)據(jù)技術(shù)Hadoop,,設(shè)計并實現(xiàn)基于MapReduce并行計算框架的獨立用戶識別系統(tǒng)。 首先,本文介紹了獨立用戶識別系統(tǒng)的需求,說明了數(shù)據(jù)管理平臺與獨立用戶識別系統(tǒng)之間的聯(lián)系?紤]到運營商Web日志數(shù)據(jù)量巨大、來源廣泛和Cookie數(shù)據(jù)格式不統(tǒng)一等特點,本文設(shè)計了一種新的獨立用戶識別處理流程。 其次,考慮到運營商Web日志的存儲規(guī)模和計算復(fù)雜度,本文詳細地分析了獨立用戶識別流程中三個主要階段的具體任務(wù),給出了各階段的MapReduce算法描述及實現(xiàn)代碼。針對第一階段即會話識別階段,提出了一種基于時間和引用的啟發(fā)式規(guī)則的會話提取算法,實現(xiàn)對運營商Web日志進行會話識別;針對第二階段即會話合并階段,在對ADSL進行分組的基礎(chǔ)上,分別采用了不同規(guī)則:1)Cookie近似規(guī)則;2)UUID相同規(guī)則;3)賬號近似規(guī)則等對識別的會話進行合并;針對第三階段即用戶識別階段,取消了ADSL分組限制,數(shù)據(jù)按照用戶進行分組,將同一用戶的不同會話合并在一起,得到各用戶對應(yīng)的完整數(shù)據(jù)集。 最后,本文采用開源的分布式大數(shù)據(jù)平臺Hadoop開發(fā)并實現(xiàn)了獨立用戶識別系統(tǒng)。系統(tǒng)測試數(shù)據(jù)選自運營商大數(shù)據(jù)中網(wǎng)站流量排名top-100的Web日志,數(shù)據(jù)覆蓋了總體數(shù)據(jù)的約百分之七十,包括了淘寶、天貓、QQ、百度等有代表性的大型互聯(lián)網(wǎng)站點。通過真實數(shù)據(jù)的測試,結(jié)果表明獨立用戶識別系統(tǒng)取得了預(yù)期的研究效果。
【關(guān)鍵詞】:數(shù)據(jù)預(yù)處理 用戶識別 Cookie MapReduce Hadoop
【學位授予單位】:東華大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:TP311.13
【目錄】:
- 摘要4-7
- ABSTRACT7-11
- 第一章 緒論11-16
- 1.1 研究背景與意義11-12
- 1.2 用戶識別的研究現(xiàn)狀12-14
- 1.3 本文的主要研究內(nèi)容14
- 1.4 本文的組織框架14-16
- 第二章 相關(guān)技術(shù)研究16-23
- 2.1 Web 日志用戶識別16-19
- 2.1.1 Web 日志格式16-17
- 2.1.2 Web 日志預(yù)處理流程17-18
- 2.1.3 Cookie18-19
- 2.2 MapReduce 并行計算框架19-22
- 2.2.1 MapReduce 技術(shù)20
- 2.2.2 Hadoop20-21
- 2.2.3 HDFS21-22
- 2.3 本章小結(jié)22-23
- 第三章 獨立用戶識別流程設(shè)計23-29
- 3.1 用戶識別需求描述23-25
- 3.2 數(shù)據(jù)管理平臺25-26
- 3.3 獨立用戶識別流程26-28
- 3.3.1 流程描述26-27
- 3.3.2 獨立用戶識別數(shù)據(jù)流27-28
- 3.4 本章小結(jié)28-29
- 第四章 基于 MapReduce 的獨立用戶識別算法29-51
- 4.1 數(shù)據(jù)預(yù)處理29-30
- 4.2 會話識別階段30-34
- 4.2.1 問題分析30-31
- 4.2.2 會話提取算法描述31-32
- 4.2.3 MapReduce 實現(xiàn)32-34
- 4.3 會話合并階段34-48
- 4.3.1 賬號提取34-37
- 4.3.2 Cookie 成員提取37-39
- 4.3.3 UUID 提取39-42
- 4.3.4 會話合并42-48
- 4.4 獨立用戶識別階段48-50
- 4.4.1 問題分析48-49
- 4.4.2 算法描述49
- 4.4.3 MapReduce 實現(xiàn)49-50
- 4.5 本章小結(jié)50-51
- 第五章 系統(tǒng)實現(xiàn)與測試51-60
- 5.1 Hadoop 平臺配置51-53
- 5.1.1 環(huán)境簡介51
- 5.1.2 準備工作51-52
- 5.1.3 配置工作52-53
- 5.2 獨立用戶識別實現(xiàn)53-55
- 5.2.1 會話識別模塊53-54
- 5.2.2 會話合并模塊54-55
- 5.2.3 用戶識別模塊55
- 5.3 系統(tǒng)測試55-59
- 5.3.1 數(shù)據(jù)覆蓋范圍56-57
- 5.3.2 系統(tǒng)運行時間57-58
- 5.3.3 準確性驗證58-59
- 5.4 本章小結(jié)59-60
- 第六章 總結(jié)與展望60-63
- 6.1 總結(jié)60-61
- 6.2 展望61-63
- 參考文獻63-66
- 攻讀碩士學位期間的研究成果目錄66-67
- 致謝67
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前7條
1 周增國;龐有軍;;Cookie技術(shù)在Web日志挖掘預(yù)處理中的應(yīng)用[J];大連大學學報;2006年02期
2 李煊,莊鎮(zhèn)泉;Web訪問挖掘預(yù)處理的用戶識別算法[J];計算機工程與應(yīng)用;2002年07期
3 張健沛,劉建東,楊靜;基于Web的日志挖掘數(shù)據(jù)預(yù)處理方法的研究[J];計算機工程與應(yīng)用;2003年10期
4 吳強;梁繼民;楊萬海;;Web日志挖掘預(yù)處理中的用戶識別技術(shù)[J];計算機科學;2002年04期
5 陸麗娜,楊怡玲,管旭東,魏恒義;Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J];計算機工程;2000年04期
6 趙偉,何丕廉,陳霞,謝振亮;Web日志挖掘中的數(shù)據(jù)預(yù)處理技術(shù)研究[J];計算機應(yīng)用;2003年05期
7 方成效;袁可風;;Web日志挖掘的數(shù)據(jù)預(yù)處理研究[J];計算機與現(xiàn)代化;2006年04期
本文關(guān)鍵詞:運營商數(shù)據(jù)管理平臺中的獨立用戶識別研究,由筆耕文化傳播整理發(fā)布。
本文編號:320748
本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/320748.html
最近更新
教材專著