非平衡時序數(shù)據(jù)的動態(tài)時間規(guī)整過采樣方法研究
發(fā)布時間:2021-07-11 06:07
時間序列分類問題廣泛存在于動作識別、語音識別、異常檢測、醫(yī)學(xué)疾病檢測等領(lǐng)域中。在這類分類問題中,常常出現(xiàn)數(shù)據(jù)非平衡問題,大多數(shù)的數(shù)據(jù)挖掘算法對于數(shù)據(jù)類別相對平衡的假設(shè)前提無法滿足,導(dǎo)致最終的學(xué)習(xí)效果不理想。并且,時序數(shù)據(jù)具有高維性、允許時間上的位置偏移和尺度縮放、存在時序上動態(tài)關(guān)聯(lián)等有別于橫截面數(shù)據(jù)的特點,已有的非平衡橫截面數(shù)據(jù)的處理方法還不能直接應(yīng)用于非平衡時間序列的處理過程中。本文考慮到時序數(shù)據(jù)的特點,提出了一種針對非平衡時序數(shù)據(jù)的過采樣方法,在動態(tài)時間規(guī)整(DTW)定義的度量空間下,進行安全集與噪聲集劃分、權(quán)值修正、近鄰選擇、路徑插值,在安全集中每個少數(shù)類樣本與其k近鄰中的少數(shù)類樣本之間按修正權(quán)重生成新的時序樣本。選擇UCR時序數(shù)據(jù)庫中的12個非平衡數(shù)據(jù)集,使用高斯過程分類模型,檢驗過采樣方法效果。實證分析結(jié)果表明:(1)本文的方法(SDTW)生成的新樣本較ROS、SMOTE、BSMOTE等方法均勻,兩類樣本的邊界清晰,盡量保持原樣本的分布,在近鄰選擇上僅選擇同類,克服了SMOTE近鄰選擇的盲目性,且位于噪聲集的少數(shù)類周圍不生成人工樣本,有效防止了引入額外的噪聲。(2)對非平衡時...
【文章來源】:暨南大學(xué)廣東省 211工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
ROC曲線
圖 3-1 代價矩陣和最小代價路徑示意圖展示兩個序列的代價矩陣和規(guī)整代價最小的路經(jīng),DTW 需要計算值,然后搜索出規(guī)整代價最小的路徑。圖中規(guī)整路徑為 W={(1,1(4,5), (5,6), (6,7), (7,7), (7,8), (8,8)},路徑上存在垂直線和水平線,
圖 3-2 兩個序列的規(guī)整示意圖為兩個序列的規(guī)整示意圖,序列 A 和序列 B 存在位置偏移和尺出兩者距離極小,相似度較高。夠有效度量時序數(shù)據(jù)之間的相似性,時間和空間復(fù)雜度為 O(N2)
本文編號:3277496
【文章來源】:暨南大學(xué)廣東省 211工程院校
【文章頁數(shù)】:54 頁
【學(xué)位級別】:碩士
【部分圖文】:
ROC曲線
圖 3-1 代價矩陣和最小代價路徑示意圖展示兩個序列的代價矩陣和規(guī)整代價最小的路經(jīng),DTW 需要計算值,然后搜索出規(guī)整代價最小的路徑。圖中規(guī)整路徑為 W={(1,1(4,5), (5,6), (6,7), (7,7), (7,8), (8,8)},路徑上存在垂直線和水平線,
圖 3-2 兩個序列的規(guī)整示意圖為兩個序列的規(guī)整示意圖,序列 A 和序列 B 存在位置偏移和尺出兩者距離極小,相似度較高。夠有效度量時序數(shù)據(jù)之間的相似性,時間和空間復(fù)雜度為 O(N2)
本文編號:3277496
本文鏈接:http://www.sikaile.net/jingjilunwen/jingjiguanlilunwen/3277496.html
最近更新
教材專著