基于閉合模式的數(shù)據(jù)挖掘技術研究
本文選題:數(shù)據(jù)流 切入點:頻繁模式挖掘 出處:《北京交通大學》2016年博士論文 論文類型:學位論文
【摘要】:數(shù)據(jù)流是一個有時間順序的,連續(xù)的,無限的事務(或實例,記錄)序列.數(shù)據(jù)流與傳統(tǒng)的靜態(tài)數(shù)據(jù)或數(shù)據(jù)庫相比具有非常不同的特性,如動態(tài)、無限、有序、非重復性、高速和變化.在真實的數(shù)據(jù)流環(huán)境中,一些數(shù)據(jù)源分布是隨著時間改變的,即具有概念漂移特征,稱此類數(shù)據(jù)流為可變數(shù)據(jù)流或概念漂移數(shù)據(jù)流.因此處理數(shù)據(jù)流的方法需要自動調(diào)整以適應概念變化.為了得到無損壓縮的且滿足用戶不同需求的有趣模式結果集合,研究數(shù)據(jù)流中滿足約束的、閉合的頻繁模式挖掘算法;為了提高數(shù)據(jù)流分類效率,研究基于頻繁模式的分類算法;研究模式挖掘和分類過程中概念漂移問題的處理方法.主要的工作包括:(1)在數(shù)據(jù)流中挖掘頻繁模式面臨的主要挑戰(zhàn)是數(shù)據(jù)的無限性使得模式不斷的產(chǎn)生,因此數(shù)量巨大.尤其是支持度閾值低時可能導致輸出模式的數(shù)量爆炸.由于概念漂移特性,在一些數(shù)據(jù)流應用中通常認為最新的數(shù)據(jù)比歷史數(shù)據(jù)重要.為此,研究使用閉合算子方法提高閉合模式挖掘的效率.研究并設計了一種均值衰減因子提高模式結果集合的準確性和完整性.研究并設計了一種基于滑動窗口模型和時間衰減模型的閉合頻繁模式挖掘算法TDMCS.通過實驗分析,與已有同類算法相比TDMCS算法可以得到穩(wěn)定的模式集合,且具有更加均衡的查全率和查準率.(2)已有的衰減因子設置方式對歷史事務和最新事務權重采用相同的衰減強度,這樣不能更一步的區(qū)分新舊事務的重要性.為此,研究并設計了一種基于高斯函數(shù)的衰減方式.與已有的衰減方式相比,它對新近事務的衰減程度更低,而對歷史事務的衰減程度更高.研究采用多種衰減因子設置時間衰減模型的方式.在高斯衰減因子的基礎上,研究并設計了基于堆積衰減值的TDMCS+算法.對已有的常見衰減因子進行分析總結,并通過理論和實驗對比分析使用高斯衰減因子的優(yōu)勢.(3)一些高維數(shù)據(jù)中包含大量的重復項,已有的模式挖掘算法處理此類數(shù)據(jù)會產(chǎn)生大量的短的、非連續(xù)的無用模式.針對此類數(shù)據(jù)的特征,研究并設計了三種支持度,包括支持度、局部支持度和全局支持度.局部支持度和全局支持度可用于挖掘在一條數(shù)據(jù)中多次出現(xiàn)的模式.研究并設計了算法MCCPM挖掘基于三種支持度的、連續(xù)的、閉合的模式.因此,挖掘過程中需要記錄模式在每條數(shù)據(jù)中出現(xiàn)的位置和次數(shù).實驗分析證明與已有方式相比,MCCPM算法可以減少內(nèi)存消耗,可以得到更加有趣的模式結果集合.通過對模式結果進行分析表明,這些有趣模式可以用于序列的對比,或者用于對未知序列的分類.(4)無限的數(shù)據(jù)流中可能存在著大量無用的信息或者噪聲,而模式挖掘可以去除數(shù)據(jù)中的無用信息且不受噪聲的影響.因此,挖掘有趣的、頻繁的和有區(qū)分力的模式,可以用于有效的分類.研究并設計了一種兩層結構的頻繁模式?jīng)Q策樹分類算法PatHT.第一層設計算法CCFPM挖掘具有約束的閉合頻繁模式集合,該算法使用可變滑動窗口,當檢測到概念漂移時進行窗口的收縮,同時對歷史模式進行刪除.接著對模式結果抽樣產(chǎn)生集合CFTSet;第二層設計算法HTreeGrow使用CFTSet生成分類模型.PatHT算法為不同特征的數(shù)據(jù)流,設計不同的模式使用策略.算法中采用概念漂移檢測器跟蹤概念變化,從而自適應的調(diào)整分類模型.通過對真實和虛擬數(shù)據(jù)流的實驗分析,與已有數(shù)據(jù)流分類算法相比PatHT算法可以提高分類正確率或明顯降低時空消耗。
[Abstract]:......
【學位授予單位】:北京交通大學
【學位級別】:博士
【學位授予年份】:2016
【分類號】:TP311.13
【參考文獻】
相關期刊論文 前8條
1 羅謙;張永輝;程華;李川;;基于航空信息網(wǎng)絡的樞紐機場航班延誤預測模型[J];系統(tǒng)工程理論與實踐;2014年S1期
2 程華;李艷梅;羅謙;李川;;基于C4.5決策樹方法的到港航班延誤預測問題研究[J];系統(tǒng)工程理論與實踐;2014年S1期
3 李海峰;章寧;朱建明;曹懷虎;;時間敏感數(shù)據(jù)流上的頻繁項集挖掘算法[J];計算機學報;2012年11期
4 ;A new algorithm for fast mining frequent itemsets using N-lists[J];Science China(Information Sciences);2012年09期
5 廖國瓊;吳凌琴;萬常選;;基于概率衰減窗口模型的不確定數(shù)據(jù)流頻繁模式挖掘[J];計算機研究與發(fā)展;2012年05期
6 敖富江;王濤;劉寶宏;黃柯棣;;CBC-DS:基于頻繁閉模式的數(shù)據(jù)流分類算法[J];計算機研究與發(fā)展;2009年05期
7 李國徽;陳輝;;挖掘數(shù)據(jù)流任意滑動時間窗口內(nèi)頻繁模式[J];軟件學報;2008年10期
8 王鵬,吳曉晨,王晨,汪衛(wèi),施伯樂;CAPE——數(shù)據(jù)流上的基于頻繁模式的分類算法[J];計算機研究與發(fā)展;2004年10期
,本文編號:1627639
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/1627639.html