天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于Hadoop的用戶(hù)搜索行為分析系統(tǒng)的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-02-01 17:01
  當(dāng)下我們處在科技創(chuàng)新的DT時(shí)代,網(wǎng)絡(luò)用戶(hù)的數(shù)量暴增,用戶(hù)每天訪問(wèn)互聯(lián)網(wǎng)產(chǎn)生的信息量巨大,其中主要為用戶(hù)搜索時(shí)產(chǎn)生的信息。據(jù)統(tǒng)計(jì)移動(dòng)互聯(lián)網(wǎng)每分鐘增加217名新用戶(hù),Google每分鐘產(chǎn)生240萬(wàn)新的搜索請(qǐng)求,如何處理這些海量的搜索日志信息,如何從獲得的搜索日志信息中根據(jù)用戶(hù)的行為數(shù)據(jù),挖掘出一些潛在的有商業(yè)價(jià)值的信息,吸引著許多公司,許多企業(yè)。目前用戶(hù)搜索行為分析面臨兩方面的挑戰(zhàn)。一方面是如何快速有效的處理和存儲(chǔ)海量的日志信息,另一方面就是如何為商家提供合適的平臺(tái),使之通過(guò)該平臺(tái)能夠滿(mǎn)足公司和企業(yè)的需求,抓住用戶(hù)的心理特征,興趣特點(diǎn),制定更為精準(zhǔn)的營(yíng)銷(xiāo)策略。基于以上現(xiàn)狀分析總結(jié)后,本文設(shè)計(jì)了一個(gè)用戶(hù)搜索行為分析平臺(tái),此平臺(tái)使用分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop與并行計(jì)算模型MapReduce,結(jié)合相關(guān)聚類(lèi)算法實(shí)現(xiàn)了對(duì)海量日志數(shù)據(jù)的行為規(guī)律的深度挖掘。本文的主要工作如下:(1)通過(guò)與傳統(tǒng)方式對(duì)海量日志數(shù)據(jù)的處理比較,本文采用以Hadoop為平臺(tái),以MapReduce為計(jì)算框架,使用HDFS分布式文件系統(tǒng)來(lái)存儲(chǔ)海量日志數(shù)據(jù),解決了海量數(shù)據(jù)的存儲(chǔ)問(wèn)題。(2)根據(jù)系統(tǒng)的業(yè)務(wù)需求,本文按照Web文本挖... 

【文章來(lái)源】:遼寧大學(xué)遼寧省 211工程院校

【文章頁(yè)數(shù)】:84 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于Hadoop的用戶(hù)搜索行為分析系統(tǒng)的研究與實(shí)現(xiàn)


012-2018年上半年中國(guó)搜索用戶(hù)規(guī)模及占比走勢(shì)圖

海量數(shù)據(jù),相關(guān)技術(shù),框架,程序擴(kuò)展


第 2 章 相關(guān)技術(shù)介紹第 2 章 相關(guān)技術(shù)介紹2.1 Hadoop 框架Apache Hadoop 是一款開(kāi)源框架,可以搭建服務(wù)器集群環(huán)境,把運(yùn)行在單臺(tái)機(jī)器上的程序擴(kuò)展到多臺(tái)機(jī)器上,實(shí)現(xiàn)程序的并行運(yùn)行,同時(shí),海量數(shù)據(jù)的分布式處理在這個(gè)框架上得以實(shí)現(xiàn)?梢宰層脩(hù)實(shí)現(xiàn)跨平臺(tái)運(yùn)算,可以運(yùn)行在Linux 和 Windows 系統(tǒng)上,Hadoop 的構(gòu)成較為復(fù)雜,HDFS 和 MapReduce 屬于核心部分。MapReduce(分布式計(jì)算模型)引擎位于 Hive(數(shù)據(jù)倉(cāng)庫(kù))和 Pig(數(shù)據(jù)流處理)下層,可對(duì)數(shù)據(jù)提供計(jì)算功能。它的下一層是 HDFS(分布式文件系統(tǒng))提供對(duì)海量數(shù)據(jù)的存儲(chǔ)功能。MapReduce 的過(guò)程主要是對(duì)整個(gè)大的任務(wù)切分,分成多個(gè)小任務(wù),分配到多個(gè)節(jié)點(diǎn)上運(yùn)行。Hadoop 生態(tài)圈還包含很多內(nèi)容,如圖 2-1 所示:

過(guò)程流程圖


圖 2-2 MapReduce 過(guò)程流程圖2.1.3 HDFSHDFS(Hadoop Distributed FileSystem)分布式文件系統(tǒng),它是一個(gè)可以對(duì)文件進(jìn)行分塊存儲(chǔ)的系統(tǒng),給客戶(hù)端提供了一個(gè)統(tǒng)一的抽象目錄樹(shù),目錄樹(shù)是它的命名空間。HDFS 作為 Hadoop 的子項(xiàng)目,繼承了 Hadoop 的分布式特點(diǎn),被設(shè)計(jì)用于大吞吐量數(shù)據(jù),它設(shè)計(jì)的本質(zhì)就是為了大量的數(shù)據(jù)能夠橫跨成千上萬(wàn)臺(tái)機(jī)器存儲(chǔ),但是對(duì)于用戶(hù)來(lái)說(shuō)看到的是一個(gè)文件系統(tǒng)而不是許多文件系統(tǒng)。比如說(shuō)你要獲取 /hdfs/tmp/aaa 的數(shù)據(jù),雖然使用的是一個(gè)路徑,但找個(gè)文件的數(shù)據(jù)可能存放在很多臺(tái)不同的機(jī)器上。作為用戶(hù)來(lái)說(shuō)不需要知道數(shù)據(jù)到底存儲(chǔ)在哪兒,就像你在單機(jī)上并不關(guān)心到底存儲(chǔ)在磁盤(pán)那個(gè)扇區(qū)一樣,這些數(shù)據(jù)交由 HDFS 管理,用戶(hù)則應(yīng)該更加關(guān)注于數(shù)據(jù)的使用和處理。HDFS 的工作原理:HDFS 集群分為 NameNode 和 DataNode(SecondnaryNamenode)兩個(gè)角色,前者是管理節(jié)點(diǎn),用來(lái)存儲(chǔ)元數(shù)據(jù),文件按照指定規(guī)模的

【參考文獻(xiàn)】:
期刊論文
[1]聚類(lèi)算法綜述[J]. 章永來(lái),周耀鑒.  計(jì)算機(jī)應(yīng)用. 2019(07)
[2]搜索日志分析研究述評(píng)[J]. 王淼.  電腦知識(shí)與技術(shù). 2018(32)
[3]電商企業(yè)基于大數(shù)據(jù)精準(zhǔn)營(yíng)銷(xiāo)的策略研討[J]. 王利冬.  中外企業(yè)家. 2018(25)
[4]基于大數(shù)據(jù)技術(shù)的制造企業(yè)商業(yè)模式創(chuàng)新[J]. 陳學(xué)武,肖港.  經(jīng)貿(mào)實(shí)踐. 2018(08)
[5]大數(shù)據(jù)日志分析平臺(tái)應(yīng)用探索與實(shí)踐[J]. 胡沐創(chuàng).  金融科技時(shí)代. 2018(01)
[6]基于云計(jì)算平臺(tái)Hadoop的并行k-means聚類(lèi)算法設(shè)計(jì)研究[J]. 李莉.  網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2017(12)
[7]大規(guī)模查詢(xún)?nèi)罩痉治瞿P蜆?gòu)建機(jī)制[J]. 王逸兮,馮浩,劉芬.  數(shù)字通信世界. 2017(11)
[8]大數(shù)據(jù)時(shí)代下商業(yè)模式創(chuàng)新探究[J]. 張金忠.  中國(guó)市場(chǎng). 2016(46)
[9]基于數(shù)據(jù)挖掘技術(shù)的電子商務(wù)推薦系統(tǒng)研究[J]. 郭鵬.  黑龍江科學(xué). 2016(08)
[10]基于Hadoop云計(jì)算平臺(tái)的文本處理算法的研究與改進(jìn)[J]. 陳靜.  天津科技. 2016(01)



本文編號(hào):3013122

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3013122.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)49ee3***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com