天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于大數(shù)據(jù)平臺的電信用戶行為日志分析研究

發(fā)布時間:2019-01-24 13:48
【摘要】:隨著互聯(lián)網(wǎng)技術不斷快速深入發(fā)展,許多大型企業(yè)、機構及政府部門持續(xù)獲得了各種海量Web日志數(shù)據(jù),而Web日志中記錄了用戶的行為及具體的消費情況,對網(wǎng)站的建設及特定商品的推廣并提供精確的服務具有非常重要的指導意義。當今對Web日志分析的要求是持續(xù)變化和增加的,同時在分析Web日志時也要求具有一定的快捷性和準確性,然而如何預處理海量日志,如何存儲海量數(shù)據(jù),如何獲取有效的信息成為學術界和商業(yè)界重點研究的內(nèi)容,F(xiàn)今,人們的生活離不開網(wǎng)絡,而生活中的各種需求基本上都是通過訪問網(wǎng)站來實現(xiàn),因此各個企業(yè)為了獲得用戶的顯性需求和隱性需求,深入挖掘用戶的網(wǎng)絡行為習慣已形成一門重點關注的學科。因為訪問網(wǎng)站的用戶越來越多,所產(chǎn)生的數(shù)據(jù)也迅速增長,如何預處理和存儲海量數(shù)據(jù),并從中獲取有效的數(shù)據(jù)成為了另一個挑戰(zhàn)。根據(jù)人們的研究成果,目前基于Hadoop的相關技術是解決大數(shù)據(jù)問題最適合的方法和工具。原始Web日志中的數(shù)據(jù)是不一致的、缺陷的、含有大量臟數(shù)據(jù)和噪聲,假如不通過數(shù)據(jù)采集和預處理過程對其進行過濾和篩選,會使數(shù)據(jù)分析階段的工作量增大,甚至可能造成錯誤的結果。所以,在對數(shù)據(jù)進行分析之前應先對Web日志實行采集和預處理操作。每天電信系統(tǒng)都會產(chǎn)生海量的Web日志數(shù)據(jù),單節(jié)點數(shù)據(jù)處理和傳統(tǒng)的關系型數(shù)據(jù)庫已不能滿足其需求,對于怎樣存儲海量電信數(shù)據(jù)成為必要的研究課題。Web日志的挖掘需要通過算法來實現(xiàn),因此算法的選取和設計也是關鍵之處。本文對基于電信系統(tǒng)的Web日志進行研究,其內(nèi)容主要包含以下幾點:1)Web日志的采集預處理Web日志采集和預處理是Web日志挖掘的前提條件,其作用是為后續(xù)數(shù)據(jù)分析提供準確的日志文件。而原有的Web日志中存在大量噪聲和不一致的信息,因此對其進行采集和預處理操作是很有必要的。然而,隨著用戶訪問數(shù)量的急劇增長,大量高并發(fā)的數(shù)據(jù)給Web預處理操作帶來了巨大的挑戰(zhàn)。本文提出了一種基于MapReduce的Web日志預處理機制,能更好的提高日志數(shù)據(jù)采集預處理階段的效率,并最大限度的利用計算機硬件資源,從而降低不必要的資源浪費。2)Web日志的數(shù)據(jù)存儲由于電信用戶和網(wǎng)站的訪問量在不斷增加,Web日志也在每日劇增,傳統(tǒng)的數(shù)據(jù)存儲技術存在成本高、運行繁雜、擴展性極低等諸多不足。本文將采用HDFS和Hbase的組合來實現(xiàn),并充分利用Hadoop集群的分布式存儲優(yōu)勢。3)電信系統(tǒng)日志挖掘及聚類算法的改進數(shù)據(jù)挖掘作為大數(shù)據(jù)技術的核心問題之一,面臨著計算復雜度高和計算能力不足等問題,本系統(tǒng)中應用了一種基于Hadoop的分布式改進聚類算法即CFK-means聚類算法。本算法是對K-means聚類算法的一種改進,本文通過實驗結果闡明該聚類算法具有良好的可移植性和準確性。本文通過搭建一個模擬電信系統(tǒng)日志分析大數(shù)據(jù)平臺,驗證MapReduce并行化在Web日志采集和預處理階段的高效性,HDFS和Hbase組合在數(shù)據(jù)存儲中的高擴展性,通過多次對比實驗結果分析,驗證本文中CFK-means聚類算法的準確性和快捷性。本文通過對電信系統(tǒng)的日志分析,挖掘出用戶的行為信息,通過分析用戶訪問網(wǎng)站的行為特點,幫助電信運營商制定合理的套餐和推薦信息。
[Abstract]:......
【學位授予單位】:成都理工大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:F626;TP311.13

【參考文獻】

相關期刊論文 前10條

1 周潤物;李智勇;陳少淼;陳京;李仁發(fā);;面向大數(shù)據(jù)處理的并行優(yōu)化抽樣聚類K-means算法[J];計算機應用;2016年02期

2 吳韶鴻;;信息通信領先廠商多管齊下發(fā)展大數(shù)據(jù)[J];世界電信;2014年Z1期

3 毛嚴奇;彭沛夫;;基于MapReduce的Web日志挖掘預處理[J];計算機與現(xiàn)代化;2013年09期

4 周峰;李龍澍;;結合蟻群聚類算法的模糊C均值聚類[J];計算機技術與發(fā)展;2012年07期

5 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學報;2011年11期

6 劉永增;張曉景;李先毅;;基于Hadoop/Hive的web日志分析系統(tǒng)的設計[J];廣西大學學報(自然科學版);2011年S1期

7 仝雪姣;孟凡榮;王志曉;;對k-means初始聚類中心的優(yōu)化[J];計算機工程與設計;2011年08期

8 李喬;鄭嘯;;云計算研究現(xiàn)狀綜述[J];計算機科學;2011年04期

9 張建勛;古志民;鄭超;;云計算研究進展綜述[J];計算機應用研究;2010年02期

10 吳海燕;朱靖君;程志銳;戚麗;;Web日志集中管理系統(tǒng)的研究與實現(xiàn)[J];實驗技術與管理;2008年07期

相關碩士學位論文 前6條

1 宋園園;基于Hadoop的Web日志存儲及預處理優(yōu)化研究[D];河北工程大學;2016年

2 周海靖;日志大數(shù)據(jù)分析平臺技術研究[D];山東大學;2015年

3 婁乾;用電計量裝置在線監(jiān)測與診斷系統(tǒng)的研究與開發(fā)[D];華北電力大學;2015年

4 肖俊良;基于云計算的WEB日志分析系統(tǒng)的設計與實現(xiàn)[D];電子科技大學;2014年

5 李榮榮;基于Hadoop平臺的日志分析系統(tǒng)[D];復旦大學;2013年

6 孫寅林;基于分布式計算平臺的海量日志分析系統(tǒng)的設計與實現(xiàn)[D];西安電子科技大學;2012年

,

本文編號:2414534

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/xxjj/2414534.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶7d7b1***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com