天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 軟件論文 >

一種改進K-Means算法的Web日志挖掘技術的研究

發(fā)布時間:2021-05-16 13:31
  隨著互聯(lián)網和信息技術的快速發(fā)展,從云服務上獲取知識成為了人們學習的重要途徑,同時,不斷涌現(xiàn)出的各種云服務應用使得服務器存儲的數(shù)據(jù)量急劇增加。Web日志作為云端應用的重要組成部分,大量有用的知識和待挖掘的信息被存儲在其中,人們既可以根據(jù)日志文件獲取該應用的用戶訪問情況,也可以對日志文件進行預處理之后運用數(shù)據(jù)挖掘算法進行深度知識挖掘,獲取人們需要的有價值的信息。Web日志作為服務器的記錄文件,記錄了網站最重要的信息,隨著數(shù)據(jù)量的增加,找出一種應對大數(shù)據(jù)量的數(shù)據(jù)挖掘算法,以更有效的分析日志文件迫在眉睫。本文主要分析的Web日志用戶聚類是在對日志文件進行數(shù)據(jù)預處理的基礎上,建立用戶會話序列矩陣,進而對其進行聚類分析,最終進行相關應用。對于此類研究,國內外學者主要集中在對數(shù)據(jù)挖掘算法的改進研究上,而大多方案不具備大數(shù)據(jù)環(huán)境下并發(fā)處理數(shù)據(jù)的能力,因此針對海量數(shù)據(jù)的挖掘算法并發(fā)化問題也是本文研究的重點。針對上述問題,本文重點研究了一種結合密度參數(shù)與坐標旋轉算法的ICKM(Improve cordic K-Means)算法,借助MapReduce原理及分布式理論,在解決傳統(tǒng)算法缺陷的同時使算法具備了在... 

【文章來源】:江蘇科技大學江蘇省

【文章頁數(shù)】:73 頁

【學位級別】:碩士

【文章目錄】:
摘要
Abstract
第1章 緒論
    1.1 研究背景及意義
        1.1.1 Web日志挖掘
        1.1.2 云計算和大數(shù)據(jù)技術
    1.2 國內外研究現(xiàn)狀
        1.2.1 Web挖掘技術
        1.2.2 K-均值聚類算法
        1.2.3 分布式計算
    1.3 本文研究內容
    1.4 本文的組織框架
第2章 Web日志挖掘技術的研究
    2.1 Web數(shù)據(jù)挖掘
        2.1.1 數(shù)據(jù)挖掘
        2.1.2 Web數(shù)據(jù)挖掘
    2.2 Web日志挖掘概述
    2.3 Web日志挖掘數(shù)據(jù)預處理技術
        2.3.1 數(shù)據(jù)清洗
        2.3.2 用戶識別
        2.3.3 會話識別
    2.4 本章小結
第3章 K-均值聚類算法相關研究
    3.1 聚類分析
        3.1.1 聚類分析簡介
        3.1.2 聚類分析方法
    3.2 基于聚類的Web日志挖掘
    3.3 K-均值聚類算法
        3.3.1 算法描述
        3.3.2 基于K-均值聚類的用戶聚類
        3.3.3 算法缺陷
    3.4 改進的K-均值聚類算法
        3.4.1 ICKM算法描述
        3.4.2 算法特點
    3.5 本章小結
第4章 基于MapReduce的 K-均值算法
    4.1 云計算
    4.2 分布式相關技術
        4.2.1 Hadoop運行框架
        4.2.2 HDFS分布式文件系統(tǒng)
        4.2.3 MapReduce編程模型
    4.3 ICKM算法的MapReduce并行化
        4.3.1 ICKM并行化可行性分析
        4.3.2 ICKM算法的Map階段
        4.3.3 ICKM算法的Reduce階段
    4.4 本章小結
第5章 實驗設計與結果分析
    5.1 實驗環(huán)境與實驗樣本
        5.1.1 實驗環(huán)境
        5.1.2 實驗樣本
    5.2 Web日志挖掘系統(tǒng)數(shù)據(jù)模型建立
    5.3 實驗結果與分析
        5.3.1 實驗性能參數(shù)
        5.3.2 實驗結果與分析
    5.4 實驗性能分析
    5.5 本章小結
總結和展望
參考文獻
攻讀碩士期間發(fā)表的學術論文
致謝


【參考文獻】:
期刊論文
[1]云計算視域下數(shù)據(jù)挖掘技術[J]. 楊繼武.  電子技術與軟件工程. 2019(05)
[2]大數(shù)據(jù)時代下計算機信息處理技術研究[J]. 陳冠宇.  網絡安全技術與應用. 2019(03)
[3]基于Hadoop平臺的數(shù)據(jù)挖掘算法應用研究[J]. 陳娥祥.  渤海大學學報(自然科學版). 2018(03)
[4]基于K-means聚類的疊放螺母的定位研究[J]. 陳佳濤,劉琦.  技術與市場. 2017(12)
[5]基于相鄰請求的動態(tài)時間閾值會話識別算法[J]. 曾令,肖如良.  計算機應用. 2017(11)
[6]web日志挖掘中會話識別方法[J]. 袁藝,陳海光.  上海師范大學學報(自然科學版). 2016(05)
[7]Web數(shù)據(jù)挖掘綜述[J]. 熊富琴.  電子世界. 2016(18)
[8]Web日志挖掘中的數(shù)據(jù)預處理研究[J]. 黃宏濤.  黑龍江科技信息. 2014(31)
[9]Web日志挖掘中的數(shù)據(jù)預處理技術研究[J]. 楊玉梅.  科技視界. 2014(12)
[10]最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 翟東海,魚江,高飛,于磊,丁鋒.  計算機應用研究. 2014(03)

博士論文
[1]聚類分析及其應用研究[D]. 唐東明.電子科技大學 2010

碩士論文
[1]基于微博文本和社交信息的性別分類方法研究[D]. 戴斌.蘇州大學 2017
[2]基于Web挖掘的個性化推薦系統(tǒng)研究[D]. 潘磊.江蘇科技大學 2017
[3]基于用戶Web訪問日志聚類的推薦算法研究與應用[D]. 于福生.大連海事大學 2017
[4]基于Web使用挖掘的網站結構優(yōu)化技術研究[D]. 劉明鳴.電子科技大學 2016
[5]基于海量WEB日志的網絡惡意行為分析系統(tǒng)設計與實現(xiàn)[D]. 徐安林.中國科學院大學(工程管理與信息技術學院) 2015
[6]基于用戶興趣和模糊聚類的Web日志挖掘應用研究[D]. 謝建麗.福州大學 2015
[7]數(shù)據(jù)挖掘K-means聚類算法的研究[D]. 楊陽.湖南師范大學 2015
[8]云計算環(huán)境下大GML空間數(shù)據(jù)并行存取關鍵技術研究[D]. 吳學饒.江西理工大學 2015
[9]k-均值聚類算法的改進與實現(xiàn)[D]. 董騏瑞.吉林大學 2015
[10]基于序列模式的Web日志挖掘及其應用[D]. 王合清.華南理工大學 2014



本文編號:3189777

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3189777.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶38b64***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com