基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)
本文關鍵詞:基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
【摘要】:隨著Internet的迅速發(fā)展,Web網(wǎng)站逐漸成為了存儲、發(fā)布、獲取、交流信息的最重要的載體。然而,隨著Web網(wǎng)站數(shù)據(jù)的急劇增加,人們在檢索信息時遇到了極大的困難。要解決這個問題,除了依靠搜索引擎外,還應該從自身網(wǎng)站的設計做起。也就是說,在網(wǎng)站設計時就應該從用戶出發(fā)來設計和優(yōu)化自己的站點,這就要求網(wǎng)站設計者通過分析Web數(shù)據(jù)來獲得有用的信息,從而為網(wǎng)站設計提供幫助。Web日志是這些Web數(shù)據(jù)的一部分,也是較為完整與富于結(jié)構(gòu)化的數(shù)據(jù)。通過對Web日志的分析,可以挖掘出網(wǎng)站的各個頁面內(nèi)容之間的相關性,分析出各類用戶的不同喜好及訪問意圖,從而對網(wǎng)站的結(jié)構(gòu)及內(nèi)容提出改進意見,使站點的整體性能得到提高。本文查閱了國內(nèi)外大量關于Web使用挖掘的相關文獻,在這基礎上對Web使用挖掘相關算法進行分析,并對部分算法進行改進,通過實驗來驗證改進效果。設計了一個基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng),使算法得以實現(xiàn),并將該系統(tǒng)應用于具體網(wǎng)站中。本文主要包括以下內(nèi)容:(1)本文研究了Web使用挖掘數(shù)據(jù)預處理過程,包括頁面識別、用戶識別、會話識別、事務數(shù)據(jù)庫生成等等,對現(xiàn)有算法進行了分析并選擇合適的算法,提出了基于“頁面內(nèi)容特性”的數(shù)據(jù)預處理算法,該算法更加強調(diào)頁面的語義內(nèi)容,使得后面的分析結(jié)果更有價值。(2)本文研究了關聯(lián)分析與聚類分析。對經(jīng)典的Apriori關聯(lián)挖掘算法進行了分析,提出了一種改進的Apriori算法,提高了算法的效率,通過各種數(shù)據(jù)量下的對比實驗證明該算法的有效性;分析了本文所要做的聚類分析工作,提出了改進的“用戶-頁面特性訪問矩陣”,然后使用經(jīng)典的k-means算法進行聚類分析。(3)本文介紹了基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的實現(xiàn)過程,給出了本系統(tǒng)的概要設計與詳細設計,包括系統(tǒng)主要模塊的功能,數(shù)據(jù)庫設計,數(shù)據(jù)流圖,以及各個模塊所使用的算法及主要類的關鍵源代碼。(4)將本系統(tǒng)應用于一個具體的網(wǎng)站上,通過對該網(wǎng)站的日志進行挖掘與分析,得出了實驗結(jié)果,并對實驗結(jié)果進行分析,對該網(wǎng)站的結(jié)構(gòu)與內(nèi)容提出改進意見,從而證明了系統(tǒng)的有效性。(5)最后總結(jié)了本文的研究成果與不足之處,并提出下一步要努力的方向。
【關鍵詞】:Web使用挖掘 數(shù)據(jù)預處理 關聯(lián)規(guī)則 Apriori算法 聚類 k-means算法 網(wǎng)站日志分析系統(tǒng)
【學位授予單位】:福州大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP311.13;TP393.092
【目錄】:
- 中文摘要3-4
- Abstract4-8
- 第一章 引言8-13
- 1.1 論文的研究背景及意義8-9
- 1.2 國內(nèi)外與Web日志挖掘相關的研究現(xiàn)狀9-11
- 1.2.1 國外研究現(xiàn)狀9-10
- 1.2.2 國內(nèi)主要研究成果10-11
- 1.2.3 Web日志挖掘相關產(chǎn)品11
- 1.3 本文的特色與創(chuàng)新之處11
- 1.4 論文的組織結(jié)構(gòu)11-13
- 第二章 預處理算法的研究與改進13-28
- 2.1 Web日志13-15
- 2.2 數(shù)據(jù)預處理相關算法研究15-23
- 2.2.1 數(shù)據(jù)清理15-16
- 2.2.2 頁面識別16-17
- 2.2.3 用戶識別17-18
- 2.2.4 會話識別18-19
- 2.2.5 事務識別19-20
- 2.2.6 數(shù)據(jù)預處理過程舉例20-23
- 2.3 數(shù)據(jù)預處理算法的改進23-28
- 2.3.1 關于“頁面特性”23-24
- 2.3.2 基于“頁面特性”的數(shù)據(jù)預處理算法24-28
- 第三章 系統(tǒng)相關數(shù)據(jù)挖掘算法的研究及改進28-41
- 3.1 關聯(lián)分析28-36
- 3.1.1 關聯(lián)分析概述28-29
- 3.1.2 Apriori算法29-30
- 3.1.3 Apriori算法的改進30-33
- 3.1.4 Apriori算法與Trans_Apriori算法之間的效率對比33-36
- 3.2 聚類分析36-41
- 3.2.1 聚類分析概述36-37
- 3.2.2 本系統(tǒng)中的聚類分析37
- 3.2.3 改進的用戶-頁面特性訪問矩陣37-39
- 3.2.4 K-Means聚類算法39-41
- 第四章 網(wǎng)站日志分析系統(tǒng)的設計與實現(xiàn)41-64
- 4.1 網(wǎng)站日志分析系統(tǒng)的概要設計41-46
- 4.1.1 網(wǎng)站日志分析系統(tǒng)的主要功能模塊41-43
- 4.1.2 網(wǎng)站日志分析系統(tǒng)的數(shù)據(jù)庫設計43-44
- 4.1.3 網(wǎng)站日志分析系統(tǒng)的工作流程44-46
- 4.2 網(wǎng)站日志分析系統(tǒng)主要模塊的詳細設計與實現(xiàn)46-64
- 4.2.1 數(shù)據(jù)庫連接相關模塊46
- 4.2.2 數(shù)據(jù)導入模塊46
- 4.2.3 數(shù)據(jù)預處理模塊46-52
- 4.2.3.1 數(shù)據(jù)清理46-47
- 4.2.3.2 頁面識別47-48
- 4.2.3.3 用戶識別48-49
- 4.2.3.4 會話識別49-51
- 4.2.3.5 頁面特性導入51
- 4.2.3.6 事務識別51-52
- 4.2.4 基本分析模塊52-54
- 4.2.5 關聯(lián)分析模塊54-59
- 4.2.5.1 頻繁項目集的生成55-58
- 4.2.5.2 關聯(lián)規(guī)則生成58-59
- 4.2.6 聚類分析模塊59-64
- 第五章 網(wǎng)站日志分析系統(tǒng)的應用64-77
- 5.1 實驗數(shù)據(jù)介紹64
- 5.2 數(shù)據(jù)導入64-65
- 5.3 數(shù)據(jù)預處理65-70
- 5.4 基本統(tǒng)計分析70-71
- 5.5 關聯(lián)分析71-74
- 5.6 聚類分析74-77
- 總結(jié)77-79
- —、主要研究工作77
- 二、不足之處及下一步要努力的方向77-79
- 參考文獻79-83
- 致謝83-84
- 個人簡歷84-85
- 在學期間已發(fā)表和錄用的論文85
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 程舒通;徐從富;;網(wǎng)站結(jié)構(gòu)優(yōu)化技術研究進展[J];計算機應用研究;2009年06期
2 徐t;;談網(wǎng)站結(jié)構(gòu)優(yōu)化技術研究進展[J];東方企業(yè)文化;2010年03期
3 許波勇;;論企業(yè)網(wǎng)站的推廣[J];電腦開發(fā)與應用;2011年06期
4 程舒通;;網(wǎng)站結(jié)構(gòu)優(yōu)化系統(tǒng)研究[J];科技傳播;2011年24期
5 王春艷;張彥芳;;網(wǎng)站結(jié)構(gòu)規(guī)劃探討[J];東方企業(yè)文化;2013年04期
6 ;1999百家頂級網(wǎng)站(一)[J];現(xiàn)代計算機;2000年01期
7 馮江,周毅剛;網(wǎng)站介紹(5)[J];新建筑;2001年05期
8 董玉民;青島建筑工程學院網(wǎng)站的規(guī)劃與建立[J];青島建筑工程學院學報;2001年03期
9 胡綱;輕松更新自己的網(wǎng)站[Macromedia Contribute 1.0][J];個人電腦;2003年02期
10 王有為,汪定偉;基于關聯(lián)系數(shù)的電子超市網(wǎng)站結(jié)構(gòu)優(yōu)化模型及算法復雜性分析[J];小型微型計算機系統(tǒng);2004年04期
中國重要報紙全文數(shù)據(jù)庫 前10條
1 正言;企業(yè)網(wǎng)站步入互動通道[N];中國經(jīng)營報;2007年
2 王兆成;旅行社網(wǎng)站服務功能探討[N];中國旅游報;2008年
3 孟輝邋薛麗英;山西太原搗毀兩個淫穢色情網(wǎng)站[N];中國新聞出版報;2008年
4 劉安;檔案期刊與網(wǎng)絡相互強身[N];中國檔案報;2003年
5 何佳訊;撒“網(wǎng)”捕金[N];廠長經(jīng)理日報;2001年
6 小新;用BlazingTools Instant Source工具 分析網(wǎng)站代碼[N];中國電腦教育報;2004年
7 肖丹 陳蘭琴 念紅梅 陳正紅;全球“最佳中之最佳”BtoB網(wǎng)站[N];國際經(jīng)貿(mào)消息;2000年
8 本報記者 陳亮;Google重納寶馬德國網(wǎng)站[N];南方日報;2006年
9 飛飛;專業(yè)級的選擇[N];中國電腦教育報;2002年
10 ;小生產(chǎn)與大市場 網(wǎng)上溝通[N];農(nóng)民日報;2000年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 賈小娟;基于交互理論的兒童網(wǎng)站引導性界面設計研究[D];河北工業(yè)大學;2015年
2 翁錦琳;基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn)[D];福州大學;2014年
3 何坤鵬;基于本體的網(wǎng)站結(jié)構(gòu)知識獲取與分析[D];北京化工大學;2007年
4 杜華;電子商務網(wǎng)站結(jié)構(gòu)優(yōu)化模型與算法研究[D];首都師范大學;2009年
5 賈夢青;基于用戶訪問行為分析的網(wǎng)站分類研究[D];鄭州大學;2009年
6 郜鑫博;基于關鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學;2009年
7 叢帥;基于關鍵資源的網(wǎng)站分類研究[D];哈爾濱工業(yè)大學;2010年
8 李毅;交互式網(wǎng)站的設計與實現(xiàn)[D];北京郵電大學;2011年
9 韓云端;基于瀏覽者的網(wǎng)站結(jié)構(gòu)研究[D];山西財經(jīng)大學;2006年
10 夏曄;基于網(wǎng)站分類的網(wǎng)絡用戶隱私信息保護模型[D];復旦大學;2012年
本文關鍵詞:基于Web使用挖掘的網(wǎng)站日志分析系統(tǒng)的研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
本文編號:342938
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/342938.html