基于Spark的查詢?nèi)罩居脩粜袨橄到y(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
【文章頁(yè)數(shù)】:63 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
圖4.1數(shù)據(jù)預(yù)處理
第四章系統(tǒng)的具體實(shí)現(xiàn)32第四章系統(tǒng)的具體實(shí)現(xiàn)4.1數(shù)據(jù)來源系統(tǒng)實(shí)驗(yàn)的數(shù)據(jù)集來源于Sogou的查詢?nèi)罩荆倲?shù)量有500萬(wàn)條,主要包括兩部分,第一部分是2011年12月30日的查詢?nèi)罩居?999918條,第二部分是2011年12月31日的查詢?nèi)罩居?2條,其中第二部分的日志數(shù)量嚴(yán)重缺....
圖4.2讀取日志效果
第四章系統(tǒng)的具體實(shí)現(xiàn)334.2日志采集具體實(shí)現(xiàn)日志采集具體實(shí)現(xiàn)過程分為以下幾個(gè)部分。(1)模擬實(shí)時(shí)查詢?nèi)罩镜漠a(chǎn)生。首先封裝一個(gè)自定義的jar包,它的作用是讀取日志文件,并把日志信息實(shí)現(xiàn)一行行的寫入。然后在weblog-shell.sh文件中,填寫jar包的路徑以及需要寫入的文件路....
圖4.3HBase存儲(chǔ)數(shù)據(jù)
第四章系統(tǒng)的具體實(shí)現(xiàn)34圖4.3HBase存儲(chǔ)數(shù)據(jù)(2)Kafka存儲(chǔ)Kafka存儲(chǔ)的實(shí)現(xiàn)主要通過在Kafka集群上創(chuàng)建Topic,還需要設(shè)置分區(qū)和分區(qū)的副本數(shù),在Flume的配置文件中配置Topic的信息,實(shí)現(xiàn)把采集的數(shù)據(jù)存儲(chǔ)到Kafka集群的Topic中。本文對(duì)Topic設(shè)置....
圖4.5Hive存儲(chǔ)數(shù)據(jù)
第四章系統(tǒng)的具體實(shí)現(xiàn)34圖4.3HBase存儲(chǔ)數(shù)據(jù)(2)Kafka存儲(chǔ)Kafka存儲(chǔ)的實(shí)現(xiàn)主要通過在Kafka集群上創(chuàng)建Topic,還需要設(shè)置分區(qū)和分區(qū)的副本數(shù),在Flume的配置文件中配置Topic的信息,實(shí)現(xiàn)把采集的數(shù)據(jù)存儲(chǔ)到Kafka集群的Topic中。本文對(duì)Topic設(shè)置....
本文編號(hào):3902517
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3902517.html