Web環(huán)境下地學(xué)數(shù)據(jù)共享用戶行為模式分析
本文選題:網(wǎng)絡(luò)數(shù)據(jù)挖掘 + 空間數(shù)據(jù)挖掘 ; 參考:《地球信息科學(xué)學(xué)報》2016年09期
【摘要】:了解科學(xué)數(shù)據(jù)共享用戶行為特征對實現(xiàn)高效、精準(zhǔn)的數(shù)據(jù)共享服務(wù)具有重要的參考意義。本文基于國家地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺網(wǎng)站服務(wù)器日志及服務(wù)記錄數(shù)據(jù),利用空間數(shù)據(jù)挖掘及Web使用挖掘技術(shù),探索地球系統(tǒng)科學(xué)數(shù)據(jù)共享用戶行為模式。在數(shù)據(jù)預(yù)處理階段,完成用戶識別、會話識別、位置識別,并對數(shù)據(jù)進行空間建模、空間數(shù)據(jù)庫建庫。在數(shù)據(jù)挖掘階段,分別對用戶產(chǎn)生的網(wǎng)頁瀏覽數(shù)、會話數(shù)、數(shù)據(jù)集瀏覽數(shù)為對象進行空間"熱點"分析,識別用戶行為的地域差異。針對用戶數(shù)據(jù)瀏覽和下載行為,采用FP-growth算法對用戶——數(shù)據(jù)之間進行關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)用戶對數(shù)據(jù)關(guān)注和使用的高頻規(guī)律。分析結(jié)果表明:(1)該共享平臺用戶地在國內(nèi)各省市均有分布,用戶最多的3個省(市)分別為北京市、山東省、江蘇省,該分布與國內(nèi)高校學(xué)生分布相關(guān)程度不高,但與"211工程"高校學(xué)生的空間分布相關(guān)度較高;(2)空間"熱點"分析表明,北京、天津及河北北部無論在網(wǎng)頁瀏覽、數(shù)據(jù)瀏覽還是會話量上都是"熱點"區(qū)域,但識別的"冷點"區(qū)域有較大不同,尤其是數(shù)據(jù)訪問"冷點"分布較廣,如南方沿海省份、河南省、山東省、四川省等;(3)關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)多個數(shù)據(jù)瀏覽高頻項目集以及關(guān)聯(lián)規(guī)則。數(shù)據(jù)下載高頻項與數(shù)據(jù)瀏覽高頻模式較好吻合,但下載行為未表現(xiàn)出明顯關(guān)聯(lián)規(guī)則。本文提供了一種結(jié)合Web使用挖掘和空間數(shù)據(jù)挖掘的用戶行為模式挖掘方法,該方法也可用于其他類型網(wǎng)站的數(shù)據(jù)挖掘。
[Abstract]:Understanding the behavior characteristics of scientific data sharing users has important reference significance for the realization of efficient and accurate data sharing services. Based on the web server log and service record data of National Earth system Science data sharing platform, this paper explores the user behavior pattern of Earth system Science data sharing by using spatial data mining and Web usage mining technology. In the stage of data preprocessing, user identification, session recognition, location recognition are completed, and the spatial modeling of the data is carried out, and the spatial database is built. In the stage of data mining, the spatial "hot spot" analysis is carried out to identify the regional differences of users' behavior, including the number of page views, the number of sessions and the number of views of data sets generated by users. According to the behavior of user data browsing and downloading, FP-growth algorithm is used to mine association rules between users and data, and the high frequency rules of users' attention and use of data are found. The results show that the shared platform is distributed in all provinces and cities in China, and the three provinces (cities) with the most users are Beijing, Shandong and Jiangsu respectively. The degree of correlation between this distribution and the distribution of college students in China is not high. However, the spatial "hot spot" analysis of Beijing, Tianjin and northern Hebei shows that Beijing, Tianjin and northern Hebei are "hot spots" in terms of web browsing, data browsing and conversation volume. But the "cold spot" areas identified are quite different, especially the "cold spots" of data access, such as southern coastal provinces, Henan Province, Shandong Province, The mining of association rules finds many data browsing high frequency itemsets and association rules. The data download high frequency item is in good agreement with the data browsing high frequency mode, but the downloading behavior does not show obvious association rules. This paper presents a user behavior pattern mining method combining Web usage mining and spatial data mining, which can also be used in other types of Web sites.
【作者單位】: 中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室;中國科學(xué)院大學(xué);江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心;
【基金】:國家科技基礎(chǔ)條件平臺——地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(2005DKA32300) 科技基礎(chǔ)性工作重點項目(2011FY110400) 中國工程院國際工程科技知識中心項目
【分類號】:TP311.13
【相似文獻】
相關(guān)期刊論文 前10條
1 郭巖;基于網(wǎng)絡(luò)用戶行為的相關(guān)頁面挖掘模型[J];微電子學(xué)與計算機;2003年05期
2 ,F(xiàn)云;王宇鴿;;1979-2010年圖書館讀者行p悍治鑫南籽芯縖J];公共圖書館;2012年01期
3 朱彤;劉奕群;茹立云;馬少平;;基于用戶行為的長查詢用戶滿意度分析[J];模式識別與人工智能;2012年03期
4 左渭斌;;用戶行為特征庫的構(gòu)建方法研究[J];產(chǎn)業(yè)與科技論壇;2012年10期
5 蘇紅;萬國根;;基于用戶行為關(guān)聯(lián)分析的電子取證系統(tǒng)研究[J];電信科學(xué);2010年12期
6 方彬;胡俠;王燦;;基于用戶行為的盲人圖書推薦方法[J];計算機工程;2011年15期
7 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識別[J];中文信息學(xué)報;2012年03期
8 李繼洪;黃勤;劉益良;柳玉仙;;基于用戶行為統(tǒng)計的入侵檢測判據(jù)研究[J];微計算機信息;2009年03期
9 鄭雙陽;林錦賢;;基于用戶行為聚類的搜索[J];計算機與數(shù)字工程;2009年12期
10 徐洋;王文生;謝能付;;基于用戶行為學(xué)習(xí)的元搜索結(jié)果聚類方法研究[J];現(xiàn)代圖書情報技術(shù);2010年04期
相關(guān)會議論文 前10條
1 武小年;周勝源;;數(shù)據(jù)挖掘在用戶行為可信研究中的應(yīng)用[A];第十一屆保密通信與信息安全現(xiàn)狀研討會論文集[C];2009年
2 樊旺斌;劉正捷;陳東;張海昕;;博客服務(wù)系統(tǒng)用戶行為研究——用戶訪談[A];第二屆和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2006)——第2屆中國人機交互學(xué)術(shù)會議(CHCI'06)論文集[C];2006年
3 張書娟;董喜雙;關(guān)毅;;基于電子商務(wù)用戶行為的同義詞識別[A];中國計算語言學(xué)研究前沿進展(2009-2011)[C];2011年
4 曹建勛;劉奕群;岑榮偉;馬少平;茹立云;;基于用戶行為的色情網(wǎng)站識別[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
5 李海宏;翟靜;唐常杰;李智;;基于用戶行為挖掘的個性化Web瀏覽器原型[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
6 寇玉波;李玉坤;孟小峰;張相於;趙婧;;個人數(shù)據(jù)空間管理中的任務(wù)挖掘策略[A];第26屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(B輯)[C];2009年
7 徐峗;張盼;丁婕;;只逛不買的電子商務(wù)用戶分析——以淘寶網(wǎng)為例[A];第六屆(2011)中國管理學(xué)年會——信息管理分會場論文集[C];2011年
8 蔡皖東;何得勇;;基于用戶行為監(jiān)管的內(nèi)部網(wǎng)安全機制及其實現(xiàn)技術(shù)[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會’2004論文集[C];2004年
9 鄭常熠;佘宇東;王新;薛向陽;;CDN與P2P混合網(wǎng)絡(luò)架構(gòu)下一種基于用戶行為的VoD分發(fā)策略[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(下冊)[C];2007年
10 ;Internet中的大范圍模式及其起源[A];Complexity Problems--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
相關(guān)重要報紙文章 前10條
1 張偉;在用戶行為中尋找靈感[N];中華合作時報;2014年
2 ;危險的用戶行為讓網(wǎng)絡(luò)面臨風(fēng)險[N];網(wǎng)絡(luò)世界;2007年
3 本報記者 宋麗娜;做安全旗艦品牌[N];網(wǎng)絡(luò)世界;2004年
4 群邑中國互動營銷總裁 MMA中國無線營銷聯(lián)盟聯(lián)席主席 陳建豪;移動互聯(lián)催生用戶行為變化[N];第一財經(jīng)日報;2013年
5 本報記者 張櫻贏;移動醫(yī)療 “笨”有前景[N];計算機世界;2013年
6 盎然;大數(shù)據(jù)時代來臨 你該干什么?[N];中國政府采購報;2013年
7 東軟研究院副院長 聞英友;云安全,機遇與挑戰(zhàn)并存[N];中國計算機報;2010年
8 本報記者 劉菁菁;Google力拓未來搜索[N];計算機世界;2011年
9 思杰(Citrix)系統(tǒng)工程師 李兵;安全源于架構(gòu)[N];中國計算機報;2008年
10 本報記者 張偉;“小數(shù)據(jù)”決勝大數(shù)據(jù)時代[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報;2013年
相關(guān)博士學(xué)位論文 前10條
1 蔣朦;社交媒體復(fù)雜行為分析與建模[D];清華大學(xué);2015年
2 陳亞睿;云計算環(huán)境下用戶行為認(rèn)證與安全控制研究[D];北京科技大學(xué);2012年
3 楊悅;基于網(wǎng)絡(luò)用戶行為的搜索排行榜研究[D];北京交通大學(xué);2013年
4 陽德青;面向社會網(wǎng)絡(luò)的用戶行為挖掘與應(yīng)用研究[D];復(fù)旦大學(xué);2013年
5 郭U,
本文編號:2038661
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2038661.html