基于網(wǎng)絡(luò)日志挖掘技術(shù)數(shù)據(jù)信息分析的研究 南京廖華
本文關(guān)鍵詞:基于網(wǎng)絡(luò)日志挖掘技術(shù)數(shù)據(jù)信息分析的研究,由筆耕文化傳播整理發(fā)布。
龍源期刊網(wǎng)
基于網(wǎng)絡(luò)日志挖掘技術(shù)數(shù)據(jù)信息分析的研究 作者:付生
來源:《科技與創(chuàng)新》2015年第06期
摘 要:對網(wǎng)絡(luò)日志挖掘技術(shù)數(shù)據(jù)信息分析的研究,是動態(tài)交互網(wǎng)絡(luò)使用數(shù)據(jù)挖掘的一種技術(shù)實(shí)現(xiàn)。通過挖掘動態(tài)交互網(wǎng)絡(luò)日志,可以查找用戶訪問動態(tài)交互網(wǎng)絡(luò)的瀏覽方式和習(xí)慣性行為,并依據(jù)數(shù)據(jù)挖掘分析和研究動態(tài)交互網(wǎng)絡(luò)日志記錄中的規(guī)律,判斷數(shù)據(jù)價值鏈與組織結(jié)構(gòu)的適應(yīng)性問題,,從而提高信息查找的快速指向性和信息檢索的高效性,并利用統(tǒng)計和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內(nèi)在聯(lián)系。
關(guān)鍵詞:日志挖掘;數(shù)據(jù)分析;信息檢索;網(wǎng)絡(luò)日志
中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A DOI:10.15913/j.cnki.kjycx.2015.06.068 1 日志數(shù)據(jù)挖掘
動態(tài)交互網(wǎng)絡(luò)獲取信息的過程存在站點(diǎn)訪問的跳躍性和無序性,數(shù)據(jù)信息指向是呈布朗運(yùn)動分布的。超文本鏈接的跳轉(zhuǎn)過程具有一定的普遍性,并且還有數(shù)據(jù)存量大、數(shù)據(jù)更替快等大數(shù)據(jù)4V特點(diǎn)。挖掘規(guī)律即是動態(tài)交互網(wǎng)絡(luò)用戶訪問信息發(fā)現(xiàn)的重要研究內(nèi)容。動態(tài)交互網(wǎng)絡(luò)日志挖掘是對大量用戶行為和數(shù)據(jù)價值有效性的判斷,該判斷是經(jīng)過數(shù)據(jù)的預(yù)處理、數(shù)據(jù)模式識別和模式分析3個過程實(shí)現(xiàn)的。
2 動態(tài)交互網(wǎng)絡(luò)日志挖掘的過程
對于動態(tài)交互網(wǎng)絡(luò)日志挖掘,首先要研究和分析網(wǎng)絡(luò)日志記錄信息存在的變化和特點(diǎn),進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理過程。另外,要識別用戶信息,提高對用戶價值信息的服務(wù)質(zhì)量,改進(jìn)動態(tài)交互網(wǎng)絡(luò)服務(wù)系統(tǒng)的數(shù)據(jù)信息判斷和組織結(jié)構(gòu)。
2.1 數(shù)據(jù)預(yù)處理
在動態(tài)交互網(wǎng)絡(luò)日志文件記錄中,存儲的是用戶訪問站點(diǎn)信息的原始記錄,而原始記錄的數(shù)據(jù)具有多樣性和大量性,所以,直接從數(shù)據(jù)中挖掘其有效價值存在不確定性和一定的困難。在借助一定的算法和工具分析數(shù)據(jù)時,必須要對數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理過程是指對數(shù)據(jù)質(zhì)量、數(shù)據(jù)的多樣性和量級進(jìn)行處理,這會直接影響數(shù)據(jù)挖掘的結(jié)果,還會影響數(shù)據(jù)價值存在的判斷。對于數(shù)據(jù)訪問量小、數(shù)據(jù)多樣性單一的網(wǎng)絡(luò)日志信息,數(shù)據(jù)處理的準(zhǔn)確性具有非常重要的意義。日志預(yù)處理主要是通過數(shù)據(jù)凈化、用戶識別、會話識別和數(shù)據(jù)合并4個過程實(shí)現(xiàn)的。
2.2 數(shù)據(jù)模式發(fā)現(xiàn)
本文關(guān)鍵詞:基于網(wǎng)絡(luò)日志挖掘技術(shù)數(shù)據(jù)信息分析的研究,由筆耕文化傳播整理發(fā)布。
本文編號:205994
本文鏈接:http://www.sikaile.net/kejilunwen/xinxigongchenglunwen/205994.html