基于Hadoop多維時態(tài)數據挖掘模型的研究與應用
本文關鍵詞:基于Hadoop多維時態(tài)數據挖掘模型的研究與應用
更多相關文章: 多維時態(tài)數據挖掘 Hadoop系統(tǒng) FPCpb-Growth算法 并行化編程
【摘要】:隨著信息技術與互聯(lián)網技術的深入發(fā)展,全球數據量呈現出爆炸式增長。大規(guī)模數據集不僅具有時間特性,隨著社會生活資料和生產資料日益繁雜,還具有明顯的多維屬性。如何真實的反應出現實世界中事物和事物之間、事物的不同屬性之間以及不同事物的不同屬性之間的聯(lián)系,從而挖掘出有效的、新穎的、潛在可用的模式和規(guī)則,具有重要的研究意義。數據挖掘是從規(guī)模龐大的、有噪聲的數據中提取出數據內部規(guī)律的表現特征的方法和技術。面對海量的多維時態(tài)數據,傳統(tǒng)的存儲系統(tǒng)以及數據挖掘模式已經不能勝任其所面臨的在效率、擴展性和成本等方面的挑戰(zhàn)。云計算技術,特別是Hadoop平臺以其擴展性強、性價比高、容錯性好等優(yōu)勢給出了解決大數據挖掘的方案。結合Hadoop云計算平臺,實現大規(guī)模多維時態(tài)數據的挖掘是本論文要進行研究的。首先,從時態(tài)數據入手,構造出多維時態(tài)數據SDTE模型。總結歸納了時間相關的概念,以時間特性為中心,討論了時態(tài)數據的多維性。從現實世界和數據庫系統(tǒng)角度出發(fā),結合時態(tài)數據的數值型序列、事務型序列以及事件性序列挖掘的研究,提出了并建立了統(tǒng)一規(guī)范的多維時態(tài)數據SDTE模型。其次,結合大規(guī)模數據挖掘和Hadoop技術平臺,架構出基于Hadoop技術框架的大規(guī)模多維時態(tài)數據挖掘模型。模型采用分布式文件系統(tǒng)實現超大文件數據的存儲和容錯,同時使用MapReduce的編程模式進行并行計算。自頂向下分層分為動態(tài)交互層、業(yè)務應用層、數據挖掘層和分布式平臺層。著重對數據挖掘層的數據管理模塊和并行化編程模塊進了整合和優(yōu)化。提出了Hive-HBase集成模型對HDFS進行操作,構建了通用性的并行化編程模型。然后,基于模型改進了關聯(lián)規(guī)則FP-Growth算法并進行實驗;趯Χ嗑S關聯(lián)規(guī)則概念的研究,在FP-Growth算法的基礎上對影響算法效率較大的求子條件模式基的算法進行改進,提出了FPCpb算法。并對FPCpb算法進行并行化。最后,搭建實驗環(huán)境進行實驗,依據評估標準對數據進行分析,驗證了Hadoop多維時態(tài)數據挖掘模型的可行性以及FPCpb-Growth算法的高效性。
【關鍵詞】:多維時態(tài)數據挖掘 Hadoop系統(tǒng) FPCpb-Growth算法 并行化編程
【學位授予單位】:浙江理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-5
- ABSTRACT5-9
- 第一章 緒論9-15
- 1.1 選題背景與意義9-10
- 1.2 研究現狀10-12
- 1.2.1 基于Hadoop大規(guī)模數據挖掘研究現狀10-11
- 1.2.2 時態(tài)數據與多維數據挖掘現狀研究11-12
- 1.3 本文主要研究內容12
- 1.4 論文組織結構12-15
- 第二章 多維時態(tài)數據模型構造15-23
- 2.1 時間相關的概念與時間特征提取15-18
- 2.2 時態(tài)數據的多維性18-20
- 2.3 多維時態(tài)數據模型研究20-21
- 2.4 建立多維時態(tài)數據SDTE模型21-22
- 2.5 本章小結22-23
- 第三章 基于Hadoop技術框架的大規(guī)模多維時態(tài)數據挖掘模型研究23-36
- 3.1 基于Hadoop技術框架的研究23-26
- 3.1.1 Hadoop平臺系統(tǒng)結構簡介23-24
- 3.1.2 MapReduce計算模式24
- 3.1.3 Hadoop數據管理24-26
- 3.2 大規(guī)模數據挖掘過程研究26-27
- 3.3 基于Hadoop技術框架的大規(guī)模多維時態(tài)數據挖掘模型總體架構27-29
- 3.4 大規(guī)模多維時態(tài)數據管理優(yōu)化29-32
- 3.5 MapReduce并行編程模型研究32-35
- 3.6 本章小結35-36
- 第四章 多維時態(tài)關聯(lián)規(guī)則算法的并行化改進36-47
- 4.1 關聯(lián)規(guī)則挖掘技術36-42
- 4.1.1 關聯(lián)規(guī)則的基本概念36-38
- 4.1.2 關聯(lián)規(guī)則的分類與拓展38-40
- 4.1.3 關聯(lián)規(guī)則的算法描述40-42
- 4.2 基于多維時態(tài)數據的關聯(lián)規(guī)則算法改進42-44
- 4.2.1 多維事件時態(tài)關聯(lián)規(guī)則模型42-43
- 4.2.2 多維時態(tài)關聯(lián)規(guī)則算法改進43-44
- 4.3 多維時態(tài)關聯(lián)規(guī)則算法的并行化改進44-46
- 4.4 本章小結46-47
- 第五章 實驗與分析47-58
- 5.1 實驗平臺的搭建47-52
- 5.1.1 實驗環(huán)境47
- 5.1.2 搭建Hadoop集群47-51
- 5.1.3 HBase分布式數據庫的配置與運行51
- 5.1.4 Hive數據倉庫分析工具的配置與運行51-52
- 5.2 數據與數據預處理52-55
- 5.3 多維時態(tài)關聯(lián)規(guī)則算法改進算法FPCpb-Growth實驗55-56
- 5.4 基于Hadoop多維時態(tài)數據挖掘模型的并行FPCpb-Growth算法實驗56-57
- 5.5 本章小結57-58
- 第六章 總結與展望58-60
- 6.1 論文總結58-59
- 6.2 進一步工作展望59-60
- 參考文獻60-65
- 致謝65-66
- 攻讀學位期間的研究成果66
【相似文獻】
中國期刊全文數據庫 前10條
1 魏檳澤;;相似發(fā)現技術在時態(tài)數據挖掘中的應用[J];硅谷;2012年10期
2 劉念祖;時態(tài)數據挖掘的探討[J];上海第二工業(yè)大學學報;2001年02期
3 陳海慶 ,趙峰 ,金莉 ,方新城;時態(tài)數據的一種挖掘算法[J];計算機與數字工程;2003年02期
4 江蘭;方思行;;電子病歷管理系統(tǒng)中的時態(tài)數據處理[J];微計算機信息;2006年09期
5 丁國芳;湯庸;章云;;基于時態(tài)數據類型的時態(tài)數據索引方法[J];計算機工程;2006年19期
6 吳遠紅;陳愛萍;;共享數據庫平臺中的時態(tài)數據處理研究[J];電腦知識與技術;2006年32期
7 潘定;沈鈞毅;;持續(xù)時態(tài)數據挖掘的研究[J];控制與決策;2007年03期
8 潘定;沈鈞毅;;時態(tài)數據挖掘的相似性發(fā)現技術[J];軟件學報;2007年02期
9 莊彬;孟志青;;基于支持向量機的時態(tài)數據預測方法[J];計算機工程與應用;2007年19期
10 莊彬;孟志青;周曉昕;;基于支持向量回歸機的時態(tài)數據預測研究[J];溫州大學學報(自然科學版);2007年05期
中國重要會議論文全文數據庫 前7條
1 蔡智;岳麗華;蔡慶生;;時態(tài)數據的一種周期函數模式發(fā)現研究[A];第十六屆全國數據庫學術會議論文集[C];1999年
2 金文;洪潤秋;陳鋼;王能斌;;一個時態(tài)數據模型[A];第十一屆全國數據庫學術會議論文集[C];1993年
3 姚小巍;陳瀅;冒志鴻;董逸生;;一個支持模式演變的時態(tài)數據模型[A];第十二屆全國數據庫學術會議論文集[C];1994年
4 湯庸;劉海;郭歡;葉小平;;TempDB:時態(tài)數據管理系統(tǒng)[A];NDBC2010第27屆中國數據庫學術會議論文集(B輯)[C];2010年
5 黃亞靜;鄭振楣;石樹剛;;面向實體的時態(tài)數據模型EOTDM[A];第十屆全國數據庫學術會議論文集[C];1992年
6 孟志青;萬天明;楊斌;;數據倉庫的時態(tài)數據采掘形式化研究[A];第十八屆全國數據庫學術會議論文集(技術報告篇)[C];2001年
7 冒志鴻;邵勃;姚小巍;董逸生;;ETSQL:一個基于模式演變時態(tài)數據模型的查詢語言[A];第十二屆全國數據庫學術會議論文集[C];1994年
中國博士學位論文全文數據庫 前2條
1 任淑霞;基于概率的不確定時態(tài)數據建模與挖掘問題的研究[D];天津大學;2013年
2 陳填銳;確定學習理論與智能振動故障診斷[D];華南理工大學;2010年
中國碩士學位論文全文數據庫 前10條
1 張云龍;基于Hadoop多維時態(tài)數據挖掘模型的研究與應用[D];浙江理工大學;2016年
2 龔冰;多粒度雙時態(tài)數據模型的研究與應用[D];燕山大學;2006年
3 來升強;時態(tài)數據挖掘及其應用[D];廈門大學;2006年
4 彭慧麗;支持時間不確定性的時態(tài)數據模型研究[D];燕山大學;2006年
5 張潔;電子病歷的時態(tài)數據研究[D];中南大學;2008年
6 梁曉蕾;關于時態(tài)數據關聯(lián)規(guī)則挖掘的研究[D];山東大學;2008年
7 程昱;時態(tài)數據周期挖掘理論與算法的研究[D];湘潭大學;2005年
8 張慶文;應急系統(tǒng)中時態(tài)數據的本體表示與檢索研究[D];太原理工大學;2008年
9 羅來鵬;關于時態(tài)數據關聯(lián)規(guī)則挖掘研究[D];西南交通大學;2004年
10 張錫琴;時態(tài)數據流的增量聚類算法研究及其應用[D];浙江工業(yè)大學;2009年
,本文編號:664548
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/664548.html