基于Hive的海量搜索日志分析系統(tǒng)研究
本文選題:Hadoop + MapReduce; 參考:《計算機應用研究》2013年11期
【摘要】:針對傳統(tǒng)分布式模型在海量日志并行處理時的可擴展性和并行程序編寫困難的問題,提出了基于Hive的Web海量搜索日志分析機制。利用HQL語言以及Hadoop分布式文件系統(tǒng)(HDFS)和MapReduce編程模式對海量搜索日志進行分析處理,對用戶搜索行為進行了分析研究。對用戶搜索行為中的查詢熱點主題、用戶點擊數和URL排名、查詢會話的分析結果對于搜索引擎的排序算法和系統(tǒng)優(yōu)化都有一定的指導意義。
[Abstract]:Aiming at the scalability of traditional distributed model in parallel processing of mass log and the difficulty of programming parallel programs, a Hive based mechanism for analyzing Web mass search log is proposed. Using HQL language, Hadoop distributed file system (HDFS) and MapReduce programming mode, the massive search log is analyzed and processed, and the search behavior of users is analyzed and studied. The analysis results of query hotspots, user hits and URLs, and the analysis results of query sessions are instructive to search engine sorting algorithm and system optimization.
【作者單位】: 大連理工大學計算機學院;
【分類號】:TP391.3
【參考文獻】
相關期刊論文 前2條
1 王川;王大玲;于戈;馬海濤;劉鑫鋼;;基于用戶行為模型的搜索引擎[J];計算機工程;2008年04期
2 余慧佳;劉奕群;張敏;茹立云;馬少平;;基于大規(guī)模日志分析的搜索引擎用戶行為分析[J];中文信息學報;2007年01期
【共引文獻】
相關期刊論文 前10條
1 干娟;;基于決策樹算法的學生綜合測評系統(tǒng)的設計[J];安徽電子信息職業(yè)技術學院學報;2011年04期
2 宋平平;;基于數據挖掘的智能入侵檢測系統(tǒng)模型及實現[J];安徽工程科技學院學報(自然科學版);2006年03期
3 焦亞冰;;教學評價數據挖掘中的關聯(lián)規(guī)則分析與設計[J];遼寧科技大學學報;2010年03期
4 孫娟;張秀梅;;淺談數據挖掘理論與技術[J];辦公自動化;2008年16期
5 王建冬;王繼民;;基于日志挖掘的高校用戶期刊數據庫檢索行為研究[J];北京大學學報(自然科學版);2012年01期
6 安穎;;基于Apriori算法的興趣集加權關聯(lián)規(guī)則挖掘[J];北京聯(lián)合大學學報(自然科學版);2008年04期
7 楊曉;張迎新;;Apriori算法在消費市場價格分析中的研究與應用[J];北京工商大學學報(自然科學版);2009年03期
8 演克武;張磊;孫強;;決策樹分類法中ID3算法在航空市場客戶價值細分中的應用[J];商業(yè)研究;2008年03期
9 楊玉;;KDD在零售業(yè)客戶關系管理中的應用分析研究[J];商業(yè)研究;2008年12期
10 裘立波;姜元春;林文龍;;電子商務環(huán)境下捆綁商品研究[J];商業(yè)研究;2009年09期
相關會議論文 前10條
1 趙云鵬;石麗;劉瑩;;基于數據挖掘的高校規(guī)模分析及應用研究[A];第九屆全國信息獲取與處理學術會議論文集Ⅰ[C];2011年
2 楊紀軍;朱培棟;;關聯(lián)規(guī)則挖掘技術在蜜罐系統(tǒng)中的應用[A];中國電子學會第十六屆信息論學術年會論文集[C];2009年
3 劉智濤;;數據挖掘中的關聯(lián)規(guī)則淺析[A];甘肅成人教育協(xié)會2008年年會論文集[C];2008年
4 劉大為;馮徑;孫春風;劉子俊;;基于時間序列分析的氣象觀探測設備狀態(tài)預測研究[A];2009第五屆蘇皖兩省大氣探測、環(huán)境遙感與電子技術學術研討會專輯[C];2009年
5 原姝;;售后維修服務系統(tǒng)的智能化流程研究[A];江蘇省系統(tǒng)工程學會第十一屆學術年會論文集[C];2009年
6 孫永道;邵慧瑩;仝彥麗;;淺析電子商務中的數據挖掘技術[A];2008'中國信息技術與應用學術論壇論文集(一)[C];2008年
7 宮蕊;舒紅平;郭遠遠;;基于DBSCAN的密度聚類算法的研究[A];2008'中國信息技術與應用學術論壇論文集(二)[C];2008年
8 李志云;周國祥;;基于FP-Growth的關聯(lián)規(guī)則挖掘算法研究[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年
9 林丹龍;孫宇鋒;趙廣燕;;基于仿真的電路故障模式識別研究[A];2009第十三屆全國可靠性物理學術討論會論文集[C];2009年
10 李東園;白宇;蔡東風;;基于用戶日志分析的查詢擴展研究[A];第四屆全國學生計算語言學研討會會議論文集[C];2008年
相關博士學位論文 前10條
1 殷志偉;基于統(tǒng)計學習理論的分類方法研究[D];哈爾濱工程大學;2009年
2 李彤巖;基于數據挖掘的通信網告警相關性分析研究[D];電子科技大學;2010年
3 張曉輝;云理論和數據挖掘在水上安全分析中的應用[D];大連海事大學;2011年
4 屈嵐;三種不同膚色人種冠心病中醫(yī)證型臨床流行病學調查[D];湖南中醫(yī)藥大學;2011年
5 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學;2011年
6 盧又燃;放射科隨訪數據庫建立與粗糙集方法輔助診斷膠質瘤分級的應用分析[D];復旦大學;2009年
7 彭柳青;高維高噪聲數據聚類中關鍵問題研究[D];西安電子科技大學;2011年
8 金海浩;五行相生間接補法古代應用規(guī)律研究[D];南京中醫(yī)藥大學;2011年
9 周雪明;基于古今醫(yī)案數據分析的眩暈病證治規(guī)律研究[D];黑龍江中醫(yī)藥大學;2011年
10 岑榮偉;基于用戶行為分析的搜索引擎評價研究[D];清華大學;2010年
相關碩士學位論文 前10條
1 湯雪;時間序列線性表示方法及其相似性度量算法研究[D];山東科技大學;2010年
2 張琪;網絡輿論被主流媒體引導的必要性和可行性研究[D];上海外國語大學;2010年
3 解保忠;計算機在矽肺病早期診斷及預測中的應用研究[D];哈爾濱工程大學;2010年
4 尹麗玲;基于人工免疫算法的Web文本挖掘研究[D];哈爾濱工程大學;2010年
5 劉靖媛;個性搜索引擎中用戶興趣模型研究[D];哈爾濱工程大學;2010年
6 徐洪偉;數據挖掘中決策樹分類算法的研究與改進[D];哈爾濱工程大學;2010年
7 李麗;基于數據挖掘的用戶繳費信用風險評估研究[D];哈爾濱工程大學;2010年
8 吳迪;高校畢業(yè)生就業(yè)推薦系統(tǒng)的設計與開發(fā)[D];大連理工大學;2010年
9 趙曉燕;基于多索引的高維時間序列子序列檢索研究[D];大連理工大學;2010年
10 靳小川;模糊聚類算法在大學生心理健康分析中的應用研究[D];遼寧工程技術大學;2010年
【相似文獻】
相關期刊論文 前10條
1 陳勇飛;王羨欠;;Web日志數據挖掘技術及應用[J];硅谷;2009年04期
2 張國鵬;基于事務的Web日志挖掘在遠程教育中的應用[J];現代計算機;2004年08期
3 張麗偉;張晶;;基于關聯(lián)規(guī)則的Web日志挖掘算法研究[J];電腦編程技巧與維護;2011年16期
4 郭振英;趙文兵;魏育輝;;電子資源日志統(tǒng)計系統(tǒng)分析與設計[J];現代圖書情報技術;2008年09期
5 黃曉偉;章慧云;;基于概率關聯(lián)圖挖掘日志中關聯(lián)規(guī)則[J];硅谷;2008年22期
6 吳冰,趙林度;基于粗糙集理論的Web挖掘模型(英文)[J];Journal of Southeast University;2002年01期
7 吳瑛;王秋生;;用于挖掘Web日志的數據倉庫系統(tǒng)實現[J];計算機與信息技術;2007年09期
8 張小剛;;電子商務中數據挖掘方法淺析[J];商場現代化;2008年34期
9 劉煒;陳俊杰;;一種Web使用模式挖掘模型的設計[J];計算機應用研究;2007年03期
10 王洪偉;王彥麗;;應用Web日志挖掘技術改善企業(yè)客戶關系[J];計算機與現代化;2007年10期
相關會議論文 前8條
1 張佳寶;周斌;吳泉源;;基于Hadoop的并行化命名實體識別技術研究與實現[A];全國計算機安全學術交流會論文集·第二十五卷[C];2010年
2 李瑞;王朝坤;鄭偉;王建民;王偉平;;基于MapReduce框架的近似復制文本檢測[A];NDBC2010第27屆中國數據庫學術會議論文集(B輯)[C];2010年
3 吳雯雯;王浩;楊靜;;基于用戶訪問模式的個性化推薦算法研究[A];第六屆全國信息獲取與處理學術會議論文集(3)[C];2008年
4 孫廣中;肖鋒;熊曦;;MapReduce模型的調度及容錯機制研究[A];2007年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2007年
5 趙偉;陳承收;李立軍;;基于MapReduce云計算模型的碰撞檢測算法[A];'2010系統(tǒng)仿真技術及其應用學術會議論文集[C];2010年
6 鄭啟龍;房明;汪勝;王向前;吳曉偉;王昊;;基于MapReduce模型的并行科學計算[A];2009年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2009年
7 鄭啟龍;王昊;吳曉偉;房明;;HPMR:多核集群上的高性能計算支撐平臺[A];2008年全國開放式分布與并行計算機學術會議論文集(上冊)[C];2008年
8 李虎;鄒鵬;賈焰;周斌;;一種基于Map Reduce的分布式文本數據過濾模型研究[A];第26次全國計算機安全學術交流會論文集[C];2011年
相關重要報紙文章 前3條
1 劉琦;MapReduce:亞馬遜云服務再添新援[N];中國計算機報;2009年
2 本報記者 劉洪宇;Hadoop的中國前途[N];中國計算機報;2009年
3 王培森;從Web挖到競爭情報[N];中國計算機報;2003年
相關博士學位論文 前5條
1 李韌;基于Hadoop的大規(guī)模語義Web本體數據查詢與推理關鍵技術研究[D];重慶大學;2013年
2 史恒亮;云計算任務調度研究[D];南京理工大學;2012年
3 董一鴻;動態(tài)數據庫增量式挖掘算法及其應用的研究[D];浙江大學;2007年
4 霍旭光;基于云計算的大規(guī)模地形數據處理方法的研究[D];中國地質大學(北京);2013年
5 袁培森;基于LSH的Web數據相似性查詢研究[D];復旦大學;2011年
相關碩士學位論文 前10條
1 李志娟;MapReduce仿真及Hadoop公平調度算法研究[D];哈爾濱工程大學;2013年
2 陳艷金;MapReduce模型在Hadoop平臺下實現作業(yè)調度算法的研究和改進[D];華南理工大學;2011年
3 楊婷;基于MapReduce的好友推薦系統(tǒng)的研究與實現[D];北京郵電大學;2013年
4 程錦佳;基于Hadoop的分布式爬蟲及其實現[D];北京郵電大學;2010年
5 溫程;并行聚類算法在MapReduce上的實現[D];浙江大學;2011年
6 黃鐘元;Hadoop平臺下的關系數據庫查詢與實現[D];復旦大學;2011年
7 朱晨杰;MapReduce作業(yè)組合系統(tǒng)的研究與實現[D];上海交通大學;2013年
8 王凱;MapReduce集群多用戶作業(yè)調度方法的研究與實現[D];國防科學技術大學;2010年
9 鄒彩輝;基于Hadoop平臺的自適應局部超平面K近鄰算法的研究[D];華南理工大學;2011年
10 劉彤;基于Hadoop的數據分析系統(tǒng)設計和實現[D];北京郵電大學;2012年
,本文編號:1996987
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1996987.html