天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 軟件論文 >

基于不平衡數(shù)據(jù)的分類方法研究

發(fā)布時(shí)間:2017-09-07 21:28

  本文關(guān)鍵詞:基于不平衡數(shù)據(jù)的分類方法研究


  更多相關(guān)文章: 數(shù)據(jù)挖掘 分類 不平衡數(shù)據(jù) 測(cè)地距離 K-近鄰 數(shù)據(jù)引力


【摘要】:數(shù)據(jù)分類作為數(shù)據(jù)挖掘的一項(xiàng)重要任務(wù),國(guó)內(nèi)外學(xué)者進(jìn)行了大量的研究。但是這些傳統(tǒng)方法都是基于平衡數(shù)據(jù)進(jìn)行分類的,當(dāng)基于如醫(yī)學(xué)診斷、異常檢測(cè)等領(lǐng)域的數(shù)據(jù)時(shí),由于這些數(shù)據(jù)在分布上不平衡,導(dǎo)致了少數(shù)類的漏報(bào),所以基于不平衡數(shù)據(jù)的分類方法是本文的研究課題。本文的研究工作是:對(duì)傳統(tǒng)的分類算法進(jìn)行研究,根據(jù)這些方法在不平衡數(shù)據(jù)集上的缺陷,學(xué)習(xí)了目前存在的不平衡數(shù)據(jù)分類方法;重點(diǎn)研究了DGC和IDGC模型,針對(duì)其局限性,提出了改進(jìn)的GIDGC-KNN分類模型,并進(jìn)行了實(shí)驗(yàn)評(píng)估。(1)基礎(chǔ)算法研究。從傳統(tǒng)分類算法如SVM、KNN、決策樹和AdaBoost等進(jìn)行學(xué)習(xí),從不平衡分類算法如數(shù)據(jù)層面、代價(jià)敏感、單分類和集成學(xué)習(xí)等方面進(jìn)行研究,如SMOTE、weight SVM、One Class SVM、SSLM和SMOTEBoost。(2)針對(duì)DGC和IDGC分類模型,提出基于測(cè)地距離的局部相關(guān)分類模型GIDGC-KNN。首先從數(shù)據(jù)引力、特征權(quán)值選擇、數(shù)據(jù)質(zhì)點(diǎn)創(chuàng)建分析了DGC和IDGC的分類原理。由于這兩個(gè)模型沒有考慮數(shù)據(jù)分布性狀和待測(cè)數(shù)據(jù)近鄰類相關(guān)性而存在準(zhǔn)確率低的問題,提出了GIDGC-KNN模型。該模型繼承了IDGC的引力放大系數(shù)AGC,同時(shí)結(jié)合測(cè)地距離和KNN算法得到數(shù)據(jù)分布隱含的全局幾何結(jié)構(gòu)和近鄰樣本類相關(guān)性。而且該模型在數(shù)據(jù)質(zhì)點(diǎn)創(chuàng)建過程中采用了MNP,相對(duì)于IDGC中使用的MDP一定程度保留了原始數(shù)據(jù)的分布性狀和局部相關(guān)性,體現(xiàn)了改進(jìn)模型的先進(jìn)性。(3)實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)采用來自KEEL數(shù)據(jù)集倉(cāng)庫(kù)中22個(gè)不平衡二類分類數(shù)據(jù),用AUC和GM作為分類性能評(píng)估的指標(biāo),將GIDGC-KNN分類模型與傳統(tǒng)的采樣技術(shù)、代價(jià)敏感和提升方法比較。實(shí)驗(yàn)結(jié)果證明了該模型有明顯的分類性能。
【關(guān)鍵詞】:數(shù)據(jù)挖掘 分類 不平衡數(shù)據(jù) 測(cè)地距離 K-近鄰 數(shù)據(jù)引力
【學(xué)位授予單位】:中北大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:TP311.13
【目錄】:
  • 摘要4-5
  • Abstract5-9
  • 1 緒論9-17
  • 1.1 課題研究背景及意義9-11
  • 1.2 不平衡數(shù)據(jù)分類研究背景及現(xiàn)狀11-12
  • 1.3 不平衡數(shù)據(jù)分類研究目的與成果12-13
  • 1.4 本文的組織結(jié)構(gòu)13-15
  • 1.5 本章小結(jié)15-17
  • 2 不平衡分類方法概述17-29
  • 2.1 問題引出17-18
  • 2.2 傳統(tǒng)分類方法18-23
  • 2.2.1 SVM18-20
  • 2.2.2 KNN方法20-21
  • 2.2.3 決策樹21-22
  • 2.2.4 AdaBoost22-23
  • 2.3 不平衡數(shù)據(jù)集概述23-24
  • 2.4 不平衡分類方法24-27
  • 2.4.1 SMOTE24-25
  • 2.4.2 加權(quán)SVM25-26
  • 2.4.3 One Class SVM26
  • 2.4.4 SSLM26-27
  • 2.4.5 SMOTEBoost27
  • 2.5 本章小結(jié)27-29
  • 3 DGC和IDGC原理29-39
  • 3.1 牛頓萬有引力定理29
  • 3.2 DGC29-32
  • 3.2.1 數(shù)據(jù)引力29-31
  • 3.2.2 數(shù)據(jù)引力定律31
  • 3.2.3 DGC分類原理31-32
  • 3.3 IDGC32-35
  • 3.3.1 IDGC分類原理33-34
  • 3.3.2 特征權(quán)值計(jì)算34-35
  • 3.3.3 適應(yīng)值評(píng)估35
  • 3.4 數(shù)據(jù)質(zhì)點(diǎn)創(chuàng)建35-37
  • 3.5 本章小結(jié)37-39
  • 4 改進(jìn)算法原理和仿真實(shí)驗(yàn)39-55
  • 4.1 IDGC-KNN算法原理40-44
  • 4.1.1 測(cè)地距離40-41
  • 4.1.2 IDGC-KNN算法原理41-42
  • 4.1.3 GIDGC-KNN數(shù)據(jù)質(zhì)點(diǎn)創(chuàng)建42-43
  • 4.1.4 IDGC-KNN加權(quán)特征43
  • 4.1.5 IDGC-KNN算法步驟43-44
  • 4.2 仿真實(shí)驗(yàn)和分析44-54
  • 4.2.1 實(shí)驗(yàn)數(shù)據(jù)集44-46
  • 4.2.2 實(shí)驗(yàn)參數(shù)設(shè)置46-47
  • 4.2.3 算法評(píng)估47
  • 4.2.4 實(shí)驗(yàn)結(jié)果和分析47-54
  • 4.3 本章小結(jié)54-55
  • 5 總結(jié)和展望55-59
  • 5.1 總結(jié)55-56
  • 5.2 展望56-59
  • 參考文獻(xiàn)59-65
  • 攻讀碩士學(xué)位期間發(fā)表的論文及所取得的研究成果65-67
  • 致謝67-69

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 支曉斌;高W氱,

本文編號(hào):809996


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/809996.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f97c1***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com