天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 管理論文 > 移動網絡論文 >

基于聚類的網站訪問數(shù)據分析技術及實現(xiàn)

發(fā)布時間:2020-04-09 10:33
【摘要】:近幾年,云計算飛速發(fā)展,大數(shù)據處理技術也在不斷成熟。與此同時,隨著國內移動互聯(lián)網市場規(guī)模不斷擴大,用戶數(shù)量也隨之快速增長,并帶來了海量的移動互聯(lián)網數(shù)據。但大部分數(shù)據仍處于沉睡狀態(tài),基于此,如何利用大數(shù)據處理技術來承載海量網絡數(shù)據處理業(yè)務,挖掘其潛在的應用價值,為用戶提供個性化的服務,成為亟需解決的問題。針對網絡海量數(shù)據處于待開發(fā)的狀態(tài),該技術主要面向應用開發(fā)商,對其產品在各種不同終端設備上用戶產生的行為數(shù)據,利用大數(shù)據處理技術對其進行收集、清洗、過濾出有價值的信息,統(tǒng)計分析用戶所需的各種信息,對應用開發(fā)商的一些決策提供比較可靠的數(shù)據支持。為了解決與日俱增的應用訪問日志的存儲與處理的問題,該平臺采用“分布式”的框架,利用大數(shù)據技術實現(xiàn)系統(tǒng)的功能。該分析技術主要包括數(shù)據采集落地模塊,通過自主開發(fā)的SDK實時采集數(shù)據+Nginx服務器實現(xiàn)數(shù)據落地的處理;數(shù)據收集和聚合模塊模塊,通過Flume的二次開發(fā)實現(xiàn)數(shù)據的非重復、無丟失收集到Kafka,進而將數(shù)據存儲在HDFS上;hive數(shù)據清洗模塊,自定義UDTF函數(shù)實現(xiàn)日志聚合體的拆分,中間結果通過Sqoop導出到MySql中;數(shù)據分析,Hive和Spark結合實現(xiàn)數(shù)據的離線分析、spark streaming實現(xiàn)準實時分析;azkaban job調度模塊實現(xiàn)作業(yè)的定期調度等。本文所介紹的基于聚類的網站訪問數(shù)據分析技術及實現(xiàn)已經經過詳盡的系統(tǒng)測試,包含硬件、軟件環(huán)境和功能性的測試,現(xiàn)在已正式投入使用。
【學位授予單位】:大連理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP311.13;TP393.092

【參考文獻】

相關期刊論文 前8條

1 董春濤;李文婷;沈晴霓;吳中海;;Hadoop YARN大數(shù)據計算框架及其資源調度機制研究[J];信息通信技術;2015年01期

2 何非;何克清;;大數(shù)據及其科學問題與方法的探討[J];武漢大學學報(理學版);2014年01期

3 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學報;2011年11期

4 薛潔;劉希玉;;數(shù)據挖掘技術與網上購物推薦系統(tǒng)[J];網絡安全技術與應用;2011年03期

5 楊道衡;;數(shù)據挖掘與數(shù)據挖掘服務實現(xiàn)研究[J];現(xiàn)代商貿工業(yè);2010年17期

6 趙瑩瑩;韓元杰;;Web日志數(shù)據挖掘中數(shù)據預處理模型的研究與建立[J];現(xiàn)代電子技術;2007年04期

7 王凱;渠芳;王輝;;利用Web挖掘技術實現(xiàn)個性化推送服務[J];情報雜志;2006年11期

8 張春紅;;淺談頁面置換算法之LRU算法[J];廊坊師范學院學報;2006年04期

,

本文編號:2620641

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2620641.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶8a4e7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com