基于Hadoop的Web日志存儲及預(yù)處理優(yōu)化研究
本文關(guān)鍵詞:基于Hadoop的Web日志存儲及預(yù)處理優(yōu)化研究 出處:《河北工程大學(xué)》2016年碩士論文 論文類型:學(xué)位論文
更多相關(guān)文章: Web日志預(yù)處理 Hadoop HBase負載均衡 MapReduce
【摘要】:互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等技術(shù)的發(fā)展,使得服務(wù)器上的Web日志急劇膨脹。Web日志記錄了上網(wǎng)用戶訪問Web頁面的瀏覽行為,對網(wǎng)站建設(shè)和提供精準(zhǔn)服務(wù)具有重要的指導(dǎo)意義。但是,原始Web日志文件中數(shù)據(jù)的通常是不完整、冗余甚至錯誤的,直接使用這些數(shù)據(jù)進行日志分析非常困難,而且有可能得到錯誤的結(jié)果,因此,對Web日志數(shù)據(jù)進行預(yù)處理是很有必要的。同時,考慮到傳統(tǒng)關(guān)系數(shù)據(jù)庫存儲的約束和單節(jié)點數(shù)據(jù)處理方式的局限性,本文使用Hadoop的分布式處理平臺對Web日志數(shù)據(jù)進行存儲和預(yù)處理操作,主要內(nèi)容包括:(1)Web日志數(shù)據(jù)存儲面對海量Web日志的急劇增長,傳統(tǒng)存儲技術(shù)面臨建設(shè)成本高、運維復(fù)雜、擴展性有限等問題,而現(xiàn)在流行的云數(shù)據(jù)庫具有動態(tài)可擴展、高伸縮性、高吞吐性能、低成本等優(yōu)勢,因此,本課題考慮將Web日志存儲到Hadoop數(shù)據(jù)庫HBase中,充分利用集群的分布式處理優(yōu)勢。(2)HBase負載均衡優(yōu)化數(shù)據(jù)在HBase中的存儲方式在很大程度上左右著整個集群的性能,直接影響著后續(xù)讀取操作的效率。當(dāng)MapReduce讀取HBase中Web日志數(shù)據(jù)時可能會造成訪問“熱點”問題,本文針對這種情況提出一種改進的負載均衡算法即HBase基于子表限制的負載均衡算法,在子表分配過程中除了考慮HRegionServer的負載情況外,還考慮到切割子表region的分配情況,從而實現(xiàn)最大程度上的集群負載均衡。(3)用MapReduce對Web日志進行預(yù)處理Web日志預(yù)處理操作關(guān)系到Web挖掘的質(zhì)量,而單一節(jié)點的計算能力在處理大規(guī)模增長的Web日志上逐漸顯露出弊端,MapReduce支持大規(guī)模集群操作,本文在分析Web日志預(yù)處理過程后,從HBase中讀取數(shù)據(jù),使用MapReduce計算模型處理Web日志的預(yù)處理操作。通過對比實驗,驗證了優(yōu)化后的HBase負載均衡算法在適當(dāng)集群環(huán)境中可以有效解決負載訪問失衡問題,以及驗證了MapReduce在處理Web日志預(yù)處理過程的高效性。最后,本文對預(yù)處理算法進行優(yōu)化,并驗證優(yōu)化后算法的高效性。
[Abstract]:With the development of Internet, mobile Internet and other technologies, the Web log on the server expands rapidly. The web log records the browsing behavior of the users accessing the Web page. It has important guiding significance for website construction and providing accurate service. However, the data in the original Web log file is usually incomplete, redundant and even wrong. It is very difficult to use this data directly for log analysis, and it is possible to get wrong results, so it is necessary to preprocess the Web log data. At the same time. Considering the constraints of traditional relational database storage and the limitation of single node data processing, this paper uses the distributed processing platform of Hadoop to store and preprocess the Web log data. The main contents include the rapid growth of the mass Web log data storage and the problems of the traditional storage technology such as high construction cost, complex operation and maintenance, limited expansibility and so on. Now the popular cloud database has the advantages of dynamic extensibility, high scalability, high throughput, low cost and so on. Therefore, this paper considers storing Web logs in Hadoop database HBase. Taking full advantage of the distributed processing advantage of cluster, the storage mode of optimized data of HBASE load balance in HBase greatly affects the performance of the whole cluster. It directly affects the efficiency of subsequent read operations. When MapReduce reads Web log data in HBase, it may cause access "hot spot" problems. In this paper, an improved load balancing algorithm named HBase based on sub-table constraints is proposed. In addition to considering the load of HRegionServer, the distribution of region in cutting subtable is also considered in the process of subtable allocation. Thus, to achieve maximum cluster load balancing. 3) using MapReduce to preprocess Web logs, Web log preprocessing operations are related to the quality of Web mining. However, the computing power of a single node has gradually revealed its disadvantages in dealing with large-scale Web logs. MapReduce supports large-scale cluster operations. This paper analyzes the preprocessing process of Web logs. Read the data from HBase, use the MapReduce computing model to deal with the pre-processing operation of Web log. It is verified that the optimized HBase load balancing algorithm can effectively solve the load access imbalance problem in the appropriate cluster environment. Finally, this paper optimizes the preprocessing algorithm and verifies the efficiency of the optimized algorithm.
【學(xué)位授予單位】:河北工程大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP311.13
【參考文獻】
相關(guān)期刊論文 前10條
1 逄利華;張錦春;;基于Hadoop的分布式數(shù)據(jù)庫系統(tǒng)[J];辦公自動化;2014年05期
2 毛嚴奇;彭沛夫;;基于MapReduce的Web日志挖掘預(yù)處理[J];計算機與現(xiàn)代化;2013年09期
3 鄭立山;滕少華;;改進的頁面與時間閾值的會話識別法[J];江西師范大學(xué)學(xué)報(自然科學(xué)版);2012年04期
4 李建江;崔健;王聃;嚴林;黃義雙;;MapReduce并行編程模型研究綜述[J];電子學(xué)報;2011年11期
5 夏秀峰;王宇;;一種基于個性化推薦的用戶訪問路徑補全算法[J];計算機應(yīng)用與軟件;2011年02期
6 周愛武;程博;李孫長;夏松;;Web日志挖掘中的會話識別方法[J];計算機工程與設(shè)計;2010年05期
7 黃金晶;趙雷;楊季文;;Web會話構(gòu)造中基于多窗口的路徑補充[J];計算機應(yīng)用與軟件;2009年07期
8 殷賢亮;張為;;Web使用挖掘中的一種改進的會話識別方法[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2006年07期
9 周增國;龐有軍;;Cookie技術(shù)在Web日志挖掘預(yù)處理中的應(yīng)用[J];大連大學(xué)學(xué)報;2006年02期
10 吳強;梁繼民;楊萬海;;Web日志挖掘預(yù)處理中的用戶識別技術(shù)[J];計算機科學(xué);2002年04期
相關(guān)碩士學(xué)位論文 前6條
1 康毅;HBase大對象存儲方案的設(shè)計與實現(xiàn)[D];南京大學(xué);2013年
2 劉沖;MapReduce作業(yè)調(diào)度算法研究[D];哈爾濱工程大學(xué);2013年
3 徐娟娟;基于NoSQL的Web日志分析系統(tǒng)的設(shè)計[D];安徽理工大學(xué);2012年
4 高薊超;Hadoop平臺存儲策略的研究與優(yōu)化[D];北京交通大學(xué);2012年
5 陶韜;云計算環(huán)境下基于MapReduce的資源調(diào)度模型和算法研究[D];大連海事大學(xué);2012年
6 宋愛青;基于Hadoop的日志分析系統(tǒng)的設(shè)計與實現(xiàn)[D];中國地質(zhì)大學(xué)(北京);2012年
,本文編號:1367346
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1367346.html