基于Spark的實(shí)時(shí)高效處理算法在互聯(lián)網(wǎng)用戶行為分析平臺(tái)中的應(yīng)用
發(fā)布時(shí)間:2020-06-14 23:26
【摘要】:隨著互聯(lián)網(wǎng)技術(shù)的普及和飛速發(fā)展,人們的日常生活已經(jīng)逐步走入電子化、輕量化和高效化;ヂ(lián)網(wǎng)技術(shù)定義了新型的工作方式和娛樂(lè)模式,并隨著衍生的用戶行為和需求,不斷進(jìn)步,不斷超越,強(qiáng)有力地推動(dòng)了當(dāng)前時(shí)代的發(fā)展;ヂ(lián)網(wǎng)的用戶行為分析中,涵蓋了人類學(xué)、社會(huì)學(xué)及心理學(xué)等知識(shí),若能夠充分高效地使用這些龐大的用戶行為數(shù)據(jù),對(duì)其進(jìn)行有序化、標(biāo)量化地挖掘和分析,則可以讓企業(yè)更加詳細(xì)地了解用戶的行為習(xí)慣、更精準(zhǔn)地判斷出企業(yè)運(yùn)營(yíng)、營(yíng)銷環(huán)境等問(wèn)題,讓企業(yè)對(duì)自身政策的決斷更加準(zhǔn)確和高效,進(jìn)而為用戶提供更優(yōu)良的服務(wù)。本文首先介紹了互聯(lián)網(wǎng)用戶行為分析平臺(tái)的概念及一些相關(guān)的理論基礎(chǔ),包括Spark體系架構(gòu)和計(jì)算模式、Spark圖計(jì)算框架、譜聚類算法、Hive的原理及DubboRPC框架。其次,在互聯(lián)網(wǎng)用戶行為分析平臺(tái)的基礎(chǔ)上,解決了一系列現(xiàn)實(shí)生活中的實(shí)際問(wèn)題,具體如下:針對(duì)于用戶上網(wǎng)終端類型識(shí)別問(wèn)題,本文利用Spark大數(shù)據(jù)處理技術(shù),并基于用戶上網(wǎng)數(shù)據(jù)中的OUI、廠商信息、終端型號(hào)等特征數(shù)據(jù),提出了終端識(shí)別算法,實(shí)現(xiàn)了對(duì)用戶上網(wǎng)終端類型的識(shí)別;針對(duì)于用戶上網(wǎng)流量采集設(shè)備的區(qū)域歸類問(wèn)題,本文通過(guò)SparkGraphx圖計(jì)算組件和SparkCore技術(shù),實(shí)現(xiàn)了兩種比對(duì)歸并算法并進(jìn)行了性能分析;針對(duì)于智慧機(jī)場(chǎng)調(diào)度車(chē)的分析問(wèn)題,本文利用Hive數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及SparkSQL的結(jié)合,實(shí)現(xiàn)了對(duì)智慧機(jī)場(chǎng)被調(diào)度人群軌跡數(shù)據(jù)的分析與轉(zhuǎn)換,為應(yīng)用展現(xiàn)提供了一系列指標(biāo);本文在最后,通過(guò)DubboRPC框架,利用參數(shù)傳輸?shù)姆绞?為互聯(lián)網(wǎng)用戶行為分析平臺(tái)搭建了一個(gè)靈活通用的監(jiān)測(cè)系統(tǒng),來(lái)實(shí)現(xiàn)平臺(tái)的實(shí)時(shí)狀態(tài)監(jiān)測(cè)與異常告警。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP311.13;TP393.0
【圖文】:
組件具體說(shuō)明如下:逡逑1)數(shù)據(jù)存儲(chǔ):RDD中文名為彈性分布式數(shù)據(jù)集,是Spark實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)鍵概念。RDD通過(guò)HDFS文件系統(tǒng)來(lái)實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ),分布在集群上,可視作為一"1、規(guī)模較為龐大的數(shù)組。RDD也可以通過(guò)Hive,邋HBase,邋Cassanda實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。逡逑2)邐API:邋Spark是由Scala語(yǔ)言開(kāi)發(fā)完成的,對(duì)夕卜提供了邋Scala、Java、Pytho種編程語(yǔ)言的API,用來(lái)滿足各類開(kāi)發(fā)人員的編程需求。與HadoopapReduce編程模型相比較,Spark的RDD算子提供了更多種類的數(shù)據(jù)操作,包括flatMap、reduce等操作,而基于MapReduce執(zhí)行的多個(gè)串行任務(wù)也通過(guò)一個(gè)Spark邋Application下的RDD算子的多步驟操作來(lái)實(shí)現(xiàn),這從一定上縮減了開(kāi)發(fā)人員的編程難度,縮短了編程時(shí)間。逡逑3)資源管理:Spark既可以部署在Yam集群上,使用Yarn集群的資源管調(diào)度功能,也可以部署在分布式計(jì)算框架如Mesos上。逡逑.1.3彈性分布式數(shù)據(jù)集RDD逡逑RDD是Sark體系架構(gòu)中的重要組成概念,其中文名稱為彈性分布式數(shù)
第二章相關(guān)理論基礎(chǔ)邐逡逑隨著流動(dòng)計(jì)算架構(gòu)支持的服務(wù)越發(fā)龐大時(shí),各種資源浪費(fèi)問(wèn)題、容量評(píng)估問(wèn)逡逑漸出現(xiàn),此時(shí)迫切需要一個(gè)基于訪問(wèn)壓力實(shí)時(shí)管理集群容量的調(diào)度中心,來(lái)逡逑整體集群的使用率,解決方案則是提高機(jī)器利用率的資源調(diào)度和治理中心逡逑A)。如圖2-8即為利用Dubbo實(shí)現(xiàn)服務(wù)治理的架構(gòu)圖。逡逑Dubbo服務(wù)治理逡逑
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:TP311.13;TP393.0
【圖文】:
組件具體說(shuō)明如下:逡逑1)數(shù)據(jù)存儲(chǔ):RDD中文名為彈性分布式數(shù)據(jù)集,是Spark實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)鍵概念。RDD通過(guò)HDFS文件系統(tǒng)來(lái)實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ),分布在集群上,可視作為一"1、規(guī)模較為龐大的數(shù)組。RDD也可以通過(guò)Hive,邋HBase,邋Cassanda實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)。逡逑2)邐API:邋Spark是由Scala語(yǔ)言開(kāi)發(fā)完成的,對(duì)夕卜提供了邋Scala、Java、Pytho種編程語(yǔ)言的API,用來(lái)滿足各類開(kāi)發(fā)人員的編程需求。與HadoopapReduce編程模型相比較,Spark的RDD算子提供了更多種類的數(shù)據(jù)操作,包括flatMap、reduce等操作,而基于MapReduce執(zhí)行的多個(gè)串行任務(wù)也通過(guò)一個(gè)Spark邋Application下的RDD算子的多步驟操作來(lái)實(shí)現(xiàn),這從一定上縮減了開(kāi)發(fā)人員的編程難度,縮短了編程時(shí)間。逡逑3)資源管理:Spark既可以部署在Yam集群上,使用Yarn集群的資源管調(diào)度功能,也可以部署在分布式計(jì)算框架如Mesos上。逡逑.1.3彈性分布式數(shù)據(jù)集RDD逡逑RDD是Sark體系架構(gòu)中的重要組成概念,其中文名稱為彈性分布式數(shù)
第二章相關(guān)理論基礎(chǔ)邐逡逑隨著流動(dòng)計(jì)算架構(gòu)支持的服務(wù)越發(fā)龐大時(shí),各種資源浪費(fèi)問(wèn)題、容量評(píng)估問(wèn)逡逑漸出現(xiàn),此時(shí)迫切需要一個(gè)基于訪問(wèn)壓力實(shí)時(shí)管理集群容量的調(diào)度中心,來(lái)逡逑整體集群的使用率,解決方案則是提高機(jī)器利用率的資源調(diào)度和治理中心逡逑A)。如圖2-8即為利用Dubbo實(shí)現(xiàn)服務(wù)治理的架構(gòu)圖。逡逑Dubbo服務(wù)治理逡逑
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 袁帥;;社交網(wǎng)絡(luò)用戶行為分析[J];通訊世界;2017年01期
2 張治宇;;互聯(lián)網(wǎng)寬帶用戶行為分析系統(tǒng)的設(shè)計(jì)與應(yīng)用研究[J];數(shù)字通信世界;2017年08期
3 唐箭;;基于用戶行為分析的云計(jì)算計(jì)費(fèi)系統(tǒng)的分析與設(shè)計(jì)[J];遼寧經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院(遼寧經(jīng)濟(jì)管理干部學(xué)院學(xué)報(bào));2009年05期
4 吳愷;蘇新寧;鄧三鴻;;大數(shù)據(jù)、云計(jì)算與用戶行為分析[J];數(shù)字圖書(shū)館論壇;2013年06期
5 張國(guó)權(quán);顏燕紅;;基于用戶行為分析的交流充電樁設(shè)計(jì)研究[J];大眾文藝;2017年04期
6 丁筱;;網(wǎng)絡(luò)用戶行為分析專利技術(shù)[J];中國(guó)新通信;2016年04期
7 鄧博存;陳s
本文編號(hào):2713519
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2713519.html
最近更新
教材專著