面向大數(shù)據(jù)的高效用模式挖掘方法研究
發(fā)布時間:2017-08-01 09:04
本文關鍵詞:面向大數(shù)據(jù)的高效用模式挖掘方法研究
更多相關文章: 大數(shù)據(jù) Hadoop MapReduce框架 頻繁模式挖掘 高效用項集
【摘要】:隨著各行業(yè)對數(shù)據(jù)越來越重視和信息技術的快速發(fā)展,產(chǎn)生的數(shù)據(jù)越來越全面,同時數(shù)據(jù)量也在快速的增長,并且各行業(yè)又要求能及時對已產(chǎn)生的數(shù)據(jù)進行挖掘和分析,這使得高效用的模式挖掘技術愈發(fā)重要。由于大數(shù)據(jù)具有海量性、實時性和動態(tài)變化性的特點,這就要求挖掘算法有較高的時空效率。盡管模式數(shù)據(jù)挖掘技術取得了一定的進展,但是挖掘算法的效率仍然是當前數(shù)據(jù)挖掘領域中的研究焦點之一。提出了一種基于包含索引的高效用項集挖掘算法IHUI-Mine;诎饕Y構,不但可以快速發(fā)現(xiàn)共同出現(xiàn)的項目,而且還有利于搜索空間的快速剪枝。此外,算法基于二進制位圖來表示數(shù)據(jù)庫,不但能夠節(jié)省存儲空間,而且還可以充分利用位運算來提高算法的效率。實驗結果表明,算法的挖掘效率高,存儲開銷小,可擴展性好。對高效用模式挖掘方法進行了研究。根據(jù)大數(shù)據(jù)的特點,以及典型挖掘算法在大數(shù)據(jù)中面臨的問題,提出了一種面向大數(shù)據(jù)的高效用模式挖掘算法,該算法采用滑動窗口的方法來維護數(shù)據(jù)流中當前被關注的數(shù)據(jù),并給出一種圖形化的數(shù)據(jù)結構和一個表結構來維護當前窗口中的數(shù)據(jù),使該結構可以用來挖掘當前窗口中高效用項集,同時也不會丟失數(shù)據(jù)影響下一個窗口中數(shù)據(jù)的完整性。
【關鍵詞】:大數(shù)據(jù) Hadoop MapReduce框架 頻繁模式挖掘 高效用項集
【學位授予單位】:北方工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要3-4
- ABSTRACT4-8
- 第一章 緒論8-12
- 1.1 研究背景8
- 1.2 國內(nèi)外研究現(xiàn)狀8-10
- 1.3 主要研究內(nèi)容10
- 1.4 論文組織結構10-12
- 第二章 相關理論與技術分析12-18
- 2.1 大數(shù)據(jù)概述12-13
- 2.2 云計算平臺HADOOP13-14
- 2.3 MAPREDUCE框架14-17
- 2.4 本章小結17-18
- 第三章 頻繁模式挖掘算法分析18-25
- 3.1 頻繁模式挖掘相關定義18-19
- 3.2 頻繁模式挖掘的典型算法19-22
- 3.3 典型算法在大數(shù)據(jù)中的問題22-24
- 3.4 本章小結24-25
- 第四章 基于包含索引的高效用項集挖掘算法研究25-35
- 4.1 高效用項集定義25-26
- 4.2 基于包含索引的高效用項集挖掘算法提出依據(jù)26-27
- 4.3 基于包含索引的高效用項集挖掘算法設計思想27-31
- 4.3.1 包含索引結構27-28
- 4.3.2 枚舉與剪枝策略28-29
- 4.3.3 算法描述29-31
- 4.4 算法驗證31-35
- 4.4.1 真實數(shù)據(jù)集的實驗結果32-33
- 4.4.2 可擴展性測試實驗結果33-35
- 第五章 大數(shù)據(jù)上的高效用項集挖掘算法35-45
- 5.1 算法設計思想35-37
- 5.2 面向大數(shù)據(jù)的高效用模式挖掘算法37-40
- 5.3 仿真實驗與結果分析40-44
- 5.4 本章小結44-45
- 第六章 結論與展望45-47
- 6.1 結論45
- 6.2 展望45-47
- 參考文獻47-51
- 在學期間的研究成果51-52
- 致謝52
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 燕彩蓉;孫圭寧;高念高;;基于擴展樹狀知識庫的海量數(shù)據(jù)清洗算法[J];計算機工程與應用;2010年28期
2 華銓平;;面向數(shù)據(jù)特征的分布式數(shù)據(jù)挖掘研究[J];計算機工程與設計;2010年06期
中國碩士學位論文全文數(shù)據(jù)庫 前6條
1 封俊;基于Hadoop的分布式搜索引擎研究與實現(xiàn)[D];太原理工大學;2010年
2 李軍華;云計算及若干數(shù)據(jù)挖掘算法的MapReduce化研究[D];電子科技大學;2010年
3 劉洋;基于MapReduce的中醫(yī)藥并行數(shù)據(jù)挖掘服務[D];浙江大學;2010年
4 紀俊;一種基于云計算的數(shù)據(jù)挖掘平臺架構設計與實現(xiàn)[D];青島大學;2009年
5 鄧自立;云計算中的網(wǎng)絡拓撲設計和Hadoop平臺研究[D];中國科學技術大學;2009年
6 朱珠;基于Hadoop的海量數(shù)據(jù)處理模型研究和應用[D];北京郵電大學;2008年
,本文編號:603439
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/603439.html
最近更新
教材專著