大數(shù)據(jù)環(huán)境下的頻繁模式挖掘算法研究
發(fā)布時間:2023-06-10 14:15
關(guān)聯(lián)規(guī)則挖掘作為數(shù)據(jù)挖掘的一個重要分支,用于發(fā)現(xiàn)數(shù)據(jù)當(dāng)中隱藏的聯(lián)系,為決策提供支持,在web挖掘、推薦系統(tǒng)、故障診斷等諸多領(lǐng)域有著廣泛的應(yīng)用。關(guān)聯(lián)規(guī)則挖掘最核心、最耗時的步驟是頻繁模式的獲取。目前國內(nèi)外已經(jīng)開展了大量的研究來加快頻繁模式的挖掘速度,但是隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量越來越大,目前的頻繁模式挖掘算法仍然無法滿足日益增長的對挖掘算法時效性的要求。如何提升大數(shù)據(jù)環(huán)境下的頻繁模式挖掘效率仍然是目前數(shù)據(jù)挖掘領(lǐng)域面臨的一個巨大挑戰(zhàn)。為了提升頻繁模式挖掘效率,本文開展了以下研究:(1)結(jié)合頻繁模式挖掘算法當(dāng)中經(jīng)典的Apriori算法、FP-growth算法、ECLaT算法,提出一種基于事務(wù)映射區(qū)間求交的頻繁模式挖掘算法IITM(Interval Interaction and Transaction Mapping)。該算法只需掃描兩次數(shù)據(jù)集,第一次掃描生成頻繁1-項集,第二次掃描生成條件模式樹,接著掃描條件模式樹將頻繁1-項集映射到區(qū)間當(dāng)中,通過區(qū)間求交來進(jìn)行模式增長,從而避免了遞歸生成條件模式樹帶來的開銷。同時本文還通過引入Hash存儲結(jié)構(gòu)存儲項集的區(qū)間、利用布隆過濾器對候選項集進(jìn)...
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 單機(jī)頻繁模式挖掘算法
1.2.2 并行頻繁模式挖掘算法
1.3 課題來源
1.4 主要研究內(nèi)容和論文結(jié)構(gòu)
第二章 相關(guān)理論和技術(shù)
2.1 數(shù)據(jù)挖掘流程
2.2 關(guān)聯(lián)規(guī)則相關(guān)理論
2.2.1 事務(wù)數(shù)據(jù)
2.2.2 關(guān)聯(lián)規(guī)則
2.2.3 頻繁項集
2.2.4 FP樹
2.3 大數(shù)據(jù)相關(guān)概念
2.3.1 Hadoop
2.3.2 HDFS
2.3.3 MapReduce
2.3.4 Spark
2.4 布隆過濾器
第三章 基于事務(wù)映射區(qū)間求交的頻繁模式挖掘算法
3.1 IITM算法概述
3.1.1 IITM算法的創(chuàng)新點
3.1.2 IITM算法的整體流程概述
3.2 事務(wù)映射
3.2.1 事務(wù)映射技術(shù)的提出
3.2.2 事務(wù)映射流程
3.2.3 區(qū)間的存儲
3.3 候選項集生成
3.3.1 生成候選項集的方式的選擇
3.3.2 布隆過濾器剪枝
3.4 區(qū)間求交
3.5 本章小結(jié)
第四章 IITM算法的并行化及優(yōu)化
4.1 IITM算法的并行化策略
4.2 并行化IITM算法PIITM的整體流程
4.2.1 挖掘頻繁1-項集
4.2.2 條件模式基重分區(qū)
4.2.3 并行頻繁模式挖掘
4.3 并行化算法優(yōu)化
4.3.1 負(fù)載優(yōu)化
4.3.2 通信優(yōu)化
4.4 本章小結(jié)
第五章 實驗驗證及結(jié)果分析
5.1 IITM算法的實驗分析
5.1.1 實驗數(shù)據(jù)
5.1.2 實驗環(huán)境
5.1.3 實驗結(jié)果分析
5.2 PIITM算法的實驗及分析
5.2.1 實驗環(huán)境
5.2.2 實驗數(shù)據(jù)集
5.2.3 實驗結(jié)果及分析
5.3 本章小結(jié)
結(jié)論
總結(jié)
展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的論文
攻讀學(xué)位期間參加的科研項目
致謝
本文編號:3833007
【文章頁數(shù)】:74 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景和意義
1.2 國內(nèi)外研究現(xiàn)狀
1.2.1 單機(jī)頻繁模式挖掘算法
1.2.2 并行頻繁模式挖掘算法
1.3 課題來源
1.4 主要研究內(nèi)容和論文結(jié)構(gòu)
第二章 相關(guān)理論和技術(shù)
2.1 數(shù)據(jù)挖掘流程
2.2 關(guān)聯(lián)規(guī)則相關(guān)理論
2.2.1 事務(wù)數(shù)據(jù)
2.2.2 關(guān)聯(lián)規(guī)則
2.2.3 頻繁項集
2.2.4 FP樹
2.3 大數(shù)據(jù)相關(guān)概念
2.3.1 Hadoop
2.3.2 HDFS
2.3.3 MapReduce
2.3.4 Spark
2.4 布隆過濾器
第三章 基于事務(wù)映射區(qū)間求交的頻繁模式挖掘算法
3.1 IITM算法概述
3.1.1 IITM算法的創(chuàng)新點
3.1.2 IITM算法的整體流程概述
3.2 事務(wù)映射
3.2.1 事務(wù)映射技術(shù)的提出
3.2.2 事務(wù)映射流程
3.2.3 區(qū)間的存儲
3.3 候選項集生成
3.3.1 生成候選項集的方式的選擇
3.3.2 布隆過濾器剪枝
3.4 區(qū)間求交
3.5 本章小結(jié)
第四章 IITM算法的并行化及優(yōu)化
4.1 IITM算法的并行化策略
4.2 并行化IITM算法PIITM的整體流程
4.2.1 挖掘頻繁1-項集
4.2.2 條件模式基重分區(qū)
4.2.3 并行頻繁模式挖掘
4.3 并行化算法優(yōu)化
4.3.1 負(fù)載優(yōu)化
4.3.2 通信優(yōu)化
4.4 本章小結(jié)
第五章 實驗驗證及結(jié)果分析
5.1 IITM算法的實驗分析
5.1.1 實驗數(shù)據(jù)
5.1.2 實驗環(huán)境
5.1.3 實驗結(jié)果分析
5.2 PIITM算法的實驗及分析
5.2.1 實驗環(huán)境
5.2.2 實驗數(shù)據(jù)集
5.2.3 實驗結(jié)果及分析
5.3 本章小結(jié)
結(jié)論
總結(jié)
展望
參考文獻(xiàn)
攻讀學(xué)位期間發(fā)表的論文
攻讀學(xué)位期間參加的科研項目
致謝
本文編號:3833007
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3833007.html
最近更新
教材專著