基于Hadoop的用戶(hù)搜索行為分析系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2021-02-01 17:01

　　當(dāng)下我們處在科技創(chuàng)新的DT時(shí)代,網(wǎng)絡(luò)用戶(hù)的數(shù)量暴增,用戶(hù)每天訪問(wèn)互聯(lián)網(wǎng)產(chǎn)生的信息量巨大,其中主要為用戶(hù)搜索時(shí)產(chǎn)生的信息。據(jù)統(tǒng)計(jì)移動(dòng)互聯(lián)網(wǎng)每分鐘增加217名新用戶(hù),Google每分鐘產(chǎn)生240萬(wàn)新的搜索請(qǐng)求,如何處理這些海量的搜索日志信息,如何從獲得的搜索日志信息中根據(jù)用戶(hù)的行為數(shù)據(jù),挖掘出一些潛在的有商業(yè)價(jià)值的信息,吸引著許多公司,許多企業(yè)。目前用戶(hù)搜索行為分析面臨兩方面的挑戰(zhàn)。一方面是如何快速有效的處理和存儲(chǔ)海量的日志信息,另一方面就是如何為商家提供合適的平臺(tái),使之通過(guò)該平臺(tái)能夠滿(mǎn)足公司和企業(yè)的需求,抓住用戶(hù)的心理特征,興趣特點(diǎn),制定更為精準(zhǔn)的營(yíng)銷(xiāo)策略。基于以上現(xiàn)狀分析總結(jié)后,本文設(shè)計(jì)了一個(gè)用戶(hù)搜索行為分析平臺(tái),此平臺(tái)使用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop與并行計(jì)算模型MapReduce,結(jié)合相關(guān)聚類(lèi)算法實(shí)現(xiàn)了對(duì)海量日志數(shù)據(jù)的行為規(guī)律的深度挖掘。本文的主要工作如下:（1）通過(guò)與傳統(tǒng)方式對(duì)海量日志數(shù)據(jù)的處理比較,本文采用以Hadoop為平臺(tái),以MapReduce為計(jì)算框架,使用HDFS分布式文件系統(tǒng)來(lái)存儲(chǔ)海量日志數(shù)據(jù),解決了海量數(shù)據(jù)的存儲(chǔ)問(wèn)題。（2）根據(jù)系統(tǒng)的業(yè)務(wù)需求,本文按照Web文本挖...

【文章來(lái)源】：遼寧大學(xué)遼寧省 211工程院校

【文章頁(yè)數(shù)】：84 頁(yè)

【學(xué)位級(jí)別】：碩士

【部分圖文】：

012-2018年上半年中國(guó)搜索用戶(hù)規(guī)模及占比走勢(shì)圖

海量數(shù)據(jù),相關(guān)技術(shù),框架,程序擴(kuò)展

第 2 章相關(guān)技術(shù)介紹第 2 章相關(guān)技術(shù)介紹2.1 Hadoop 框架Apache Hadoop 是一款開(kāi)源框架，可以搭建服務(wù)器集群環(huán)境，把運(yùn)行在單臺(tái)機(jī)器上的程序擴(kuò)展到多臺(tái)機(jī)器上，實(shí)現(xiàn)程序的并行運(yùn)行，同時(shí)，海量數(shù)據(jù)的分布式處理在這個(gè)框架上得以實(shí)現(xiàn)�？梢宰層脩�(hù)實(shí)現(xiàn)跨平臺(tái)運(yùn)算，可以運(yùn)行在Linux 和 Windows 系統(tǒng)上，Hadoop 的構(gòu)成較為復(fù)雜，HDFS 和 MapReduce 屬于核心部分。MapReduce（分布式計(jì)算模型）引擎位于 Hive（數(shù)據(jù)倉(cāng)庫(kù)）和 Pig（數(shù)據(jù)流處理）下層，可對(duì)數(shù)據(jù)提供計(jì)算功能。它的下一層是 HDFS（分布式文件系統(tǒng)）提供對(duì)海量數(shù)據(jù)的存儲(chǔ)功能。MapReduce 的過(guò)程主要是對(duì)整個(gè)大的任務(wù)切分，分成多個(gè)小任務(wù)，分配到多個(gè)節(jié)點(diǎn)上運(yùn)行。Hadoop 生態(tài)圈還包含很多內(nèi)容，如圖 2-1 所示：

過(guò)程流程圖

圖 2-2 MapReduce 過(guò)程流程圖2.1.3 HDFSHDFS（Hadoop Distributed FileSystem）分布式文件系統(tǒng)，它是一個(gè)可以對(duì)文件進(jìn)行分塊存儲(chǔ)的系統(tǒng)，給客戶(hù)端提供了一個(gè)統(tǒng)一的抽象目錄樹(shù)，目錄樹(shù)是它的命名空間。HDFS 作為 Hadoop 的子項(xiàng)目，繼承了 Hadoop 的分布式特點(diǎn)，被設(shè)計(jì)用于大吞吐量數(shù)據(jù)，它設(shè)計(jì)的本質(zhì)就是為了大量的數(shù)據(jù)能夠橫跨成千上萬(wàn)臺(tái)機(jī)器存儲(chǔ)，但是對(duì)于用戶(hù)來(lái)說(shuō)看到的是一個(gè)文件系統(tǒng)而不是許多文件系統(tǒng)。比如說(shuō)你要獲取 /hdfs/tmp/aaa 的數(shù)據(jù)，雖然使用的是一個(gè)路徑，但找個(gè)文件的數(shù)據(jù)可能存放在很多臺(tái)不同的機(jī)器上。作為用戶(hù)來(lái)說(shuō)不需要知道數(shù)據(jù)到底存儲(chǔ)在哪兒，就像你在單機(jī)上并不關(guān)心到底存儲(chǔ)在磁盤(pán)那個(gè)扇區(qū)一樣，這些數(shù)據(jù)交由 HDFS 管理，用戶(hù)則應(yīng)該更加關(guān)注于數(shù)據(jù)的使用和處理。HDFS 的工作原理：HDFS 集群分為 NameNode 和 DataNode(SecondnaryNamenode)兩個(gè)角色，前者是管理節(jié)點(diǎn)，用來(lái)存儲(chǔ)元數(shù)據(jù)，文件按照指定規(guī)模的

【參考文獻(xiàn)】：
期刊論文
[1]聚類(lèi)算法綜述[J]. 章永來(lái),周耀鑒.  計(jì)算機(jī)應(yīng)用. 2019(07)
[2]搜索日志分析研究述評(píng)[J]. 王淼.  電腦知識(shí)與技術(shù). 2018(32)
[3]電商企業(yè)基于大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)的策略研討[J]. 王利冬.  中外企業(yè)家. 2018(25)
[4]基于大數(shù)據(jù)技術(shù)的制造企業(yè)商業(yè)模式創(chuàng)新[J]. 陳學(xué)武,肖港.  經(jīng)貿(mào)實(shí)踐. 2018(08)
[5]大數(shù)據(jù)日志分析平臺(tái)應(yīng)用探索與實(shí)踐[J]. 胡沐創(chuàng).  金融科技時(shí)代. 2018(01)
[6]基于云計(jì)算平臺(tái)Hadoop的并行k-means聚類(lèi)算法設(shè)計(jì)研究[J]. 李莉.  網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2017(12)
[7]大規(guī)模查詢(xún)?nèi)罩痉治瞿Ｐ蜆?gòu)建機(jī)制[J]. 王逸兮,馮浩,劉芬.  數(shù)字通信世界. 2017(11)
[8]大數(shù)據(jù)時(shí)代下商業(yè)模式創(chuàng)新探究[J]. 張金忠.  中國(guó)市場(chǎng). 2016(46)
[9]基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)研究[J]. 郭鵬.  黑龍江科學(xué). 2016(08)
[10]基于Hadoop云計(jì)算平臺(tái)的文本處理算法的研究與改進(jìn)[J]. 陳靜.  天津科技. 2016(01)

本文編號(hào)：3013122

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3013122.html

上一篇：混合策略改進(jìn)鯨魚(yú)優(yōu)化算法
下一篇：圖像拼接中的最佳拼接線與顏色融合方法研究

論文發(fā)表

·知網(wǎng)|萬(wàn)方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Hadoop的用戶(hù)搜索行為分析系統(tǒng)的研究與實(shí)現(xiàn)