天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向失衡數(shù)據(jù)集分類(lèi)問(wèn)題的研究與應(yīng)用

發(fā)布時(shí)間:2017-06-03 11:13

  本文關(guān)鍵詞:面向失衡數(shù)據(jù)集分類(lèi)問(wèn)題的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。


【摘要】:面向失衡數(shù)據(jù)集的分類(lèi)問(wèn)題是數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)領(lǐng)域中最具有挑戰(zhàn)性的熱點(diǎn)研究問(wèn)題之一。近年來(lái),隨著計(jì)算機(jī)技術(shù)的發(fā)展和信息化的進(jìn)步,越來(lái)越多的決策需要數(shù)據(jù)的支持。在大數(shù)據(jù)時(shí)代的背景下,基于數(shù)據(jù)挖掘技術(shù)的分類(lèi)問(wèn)題成為企業(yè)快速?zèng)Q策、精準(zhǔn)營(yíng)銷(xiāo)和提高綜合競(jìng)爭(zhēng)力的有力手段。失衡數(shù)據(jù)集是現(xiàn)實(shí)領(lǐng)域中存在的一種數(shù)據(jù)形態(tài),真實(shí)客觀的描述了某些事物本質(zhì)的特征,即大量數(shù)據(jù)中只有很少的一部分是人們所格外關(guān)心的,而這部分?jǐn)?shù)據(jù)卻往往隱藏在大量的數(shù)據(jù)之中,難以被準(zhǔn)確的分類(lèi)。失衡數(shù)據(jù)集分類(lèi)問(wèn)題是數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)難題,很多適用于傳統(tǒng)分類(lèi)問(wèn)題的常用分類(lèi)策略并不能很好的處理這一問(wèn)題,因此引起了全世界各國(guó)專(zhuān)家學(xué)者的極大重視。 本文首先介紹了失衡數(shù)據(jù)集的概念,介紹了各國(guó)專(zhuān)家和學(xué)者在失衡數(shù)據(jù)集分類(lèi)問(wèn)題領(lǐng)域的研究進(jìn)展,闡述了失衡數(shù)據(jù)集分類(lèi)困難的原因和目前普遍采用的解決方法以及分類(lèi)器的性能評(píng)價(jià)指標(biāo)。在充分考慮到失衡數(shù)據(jù)信息匱乏,數(shù)據(jù)淹沒(méi)和采樣后信息損失等因素的基礎(chǔ)上,,提出了基于聚類(lèi)簇邊界采樣的失衡數(shù)據(jù)重采樣策略。并結(jié)合基于支持向量機(jī)的集成學(xué)習(xí)方法,從數(shù)據(jù)端和算法端兩方面提出了失衡數(shù)據(jù)集分類(lèi)問(wèn)題的解決策略。在實(shí)驗(yàn)構(gòu)建與分析部分分別用四種典型形態(tài)的失衡數(shù)據(jù)集驗(yàn)證了該策略的有效性和穩(wěn)定性。最后,結(jié)合集成學(xué)習(xí)方法將失衡數(shù)據(jù)集分類(lèi)問(wèn)題應(yīng)用到了電信客戶(hù)關(guān)系預(yù)測(cè)領(lǐng)域,使用真實(shí)的電信客戶(hù)關(guān)系數(shù)據(jù)把具體的采樣和分類(lèi)策略集成到應(yīng)用系統(tǒng)當(dāng)中,取得了較好的分類(lèi)效果。
【關(guān)鍵詞】:失衡數(shù)據(jù)集 分類(lèi) 重采樣 集成學(xué)習(xí)
【學(xué)位授予單位】:哈爾濱理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類(lèi)號(hào)】:TP311.13
【目錄】:
  • 摘要5-6
  • Abstract6-10
  • 第1章 緒論10-16
  • 1.1 課題研究的目的和意義10-11
  • 1.2 失衡數(shù)據(jù)集問(wèn)題的研究概況與發(fā)展趨勢(shì)11-14
  • 1.2.1 國(guó)外研究現(xiàn)狀11-13
  • 1.2.2 國(guó)內(nèi)研究概況13-14
  • 1.3 本課題研究的主要內(nèi)容14-16
  • 1.3.1 課題來(lái)源14-15
  • 1.3.2 課題的主要研究?jī)?nèi)容15-16
  • 第2章 失衡數(shù)據(jù)集分類(lèi)問(wèn)題16-24
  • 2.1 失衡數(shù)據(jù)集分類(lèi)問(wèn)題概述16-17
  • 2.2 失衡數(shù)據(jù)集分類(lèi)困難的原因分析17-18
  • 2.3 解決失衡數(shù)據(jù)集分類(lèi)問(wèn)題的主要方法18-19
  • 2.4 失衡數(shù)據(jù)集分類(lèi)性能評(píng)價(jià)指標(biāo)19-23
  • 2.4.1 傳統(tǒng)分類(lèi)性能評(píng)價(jià)指標(biāo)20-21
  • 2.4.2 接受者操作特征曲線及 AUC21-23
  • 2.5 本章小結(jié)23-24
  • 第3章 基于聚類(lèi)簇邊界的采樣方法24-33
  • 3.1 數(shù)據(jù)重采樣方法24-25
  • 3.2 基于聚類(lèi)的重采樣方法25-27
  • 3.2.1 聚類(lèi)分析技術(shù)概述25-26
  • 3.2.2 聚類(lèi)采樣技術(shù) SBC26-27
  • 3.3 密度聚類(lèi)簇邊界采樣方法27-32
  • 3.3.1 密度聚類(lèi)及 DBSCAN 算法概述27-29
  • 3.3.2 密度聚類(lèi)簇的邊界識(shí)別方法29-31
  • 3.3.3 密度聚類(lèi)簇邊界采樣方法31-32
  • 3.4 本章小結(jié)32-33
  • 第4章 集成學(xué)習(xí)的失衡數(shù)據(jù)集分類(lèi)方法33-47
  • 4.1 支持向量機(jī)33-37
  • 4.1.1 支持向量機(jī)原理33-35
  • 4.1.2 常用核函數(shù)35-36
  • 4.1.3 懲罰因子36-37
  • 4.2 集成學(xué)習(xí)方法37-40
  • 4.2.1 集成學(xué)習(xí)基本思想37-38
  • 4.2.2 分類(lèi)器集成方法38-40
  • 4.3 實(shí)驗(yàn)與分析40-46
  • 4.3.1 實(shí)驗(yàn)數(shù)據(jù)選取40
  • 4.3.2 聚類(lèi)簇邊界采樣實(shí)驗(yàn)與分析40-42
  • 4.3.3 聚類(lèi)簇邊界采樣分類(lèi)效果分析42-45
  • 4.3.4 集成學(xué)習(xí)方法實(shí)驗(yàn)與分析45-46
  • 4.4 本章小結(jié)46-47
  • 第5章 失衡數(shù)據(jù)集分類(lèi)問(wèn)題在電信客戶(hù)關(guān)系管理中的應(yīng)用47-53
  • 5.1 電信客戶(hù)關(guān)系47-48
  • 5.2 需求分析48-49
  • 5.2.1 系統(tǒng)用途48
  • 5.2.2 功能需求48-49
  • 5.3 總體設(shè)計(jì)49-50
  • 5.3.1 總體架構(gòu)49-50
  • 5.3.2 軟/硬件需求50
  • 5.4 模塊設(shè)計(jì)50-52
  • 5.5 本章小結(jié)52-53
  • 結(jié)論53-54
  • 參考文獻(xiàn)54-60
  • 攻讀碩士學(xué)位期間發(fā)表的學(xué)術(shù)論文60-61
  • 致謝61

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前9條

1 謝紀(jì)剛;裘正定;;非平衡數(shù)據(jù)集Fisher線性判別模型[J];北京交通大學(xué)學(xué)報(bào);2006年05期

2 李鵬;王曉龍;劉遠(yuǎn)超;王寶勛;;一種基于混合策略的失衡數(shù)據(jù)集分類(lèi)方法[J];電子學(xué)報(bào);2007年11期

3 曾志強(qiáng);吳群;廖備水;高濟(jì);;一種基于核SMOTE的非平衡數(shù)據(jù)集分類(lèi)方法[J];電子學(xué)報(bào);2009年11期

4 郝秀蘭;陶曉鵬;徐和祥;胡運(yùn)發(fā);;kNN文本分類(lèi)器類(lèi)偏斜問(wèn)題的一種處理對(duì)策[J];計(jì)算機(jī)研究與發(fā)展;2009年01期

5 肖健華;吳今培;;樣本數(shù)目不對(duì)稱(chēng)時(shí)的SVM模型[J];計(jì)算機(jī)科學(xué);2003年02期

6 劉靜,鐘偉才,劉芳焦,李成;組織協(xié)同進(jìn)化分類(lèi)算法[J];計(jì)算機(jī)學(xué)報(bào);2003年04期

7 李雄飛;李軍;董元方;屈成偉;;一種新的不平衡數(shù)據(jù)學(xué)習(xí)算法PCBoost[J];計(jì)算機(jī)學(xué)報(bào);2012年02期

8 秦鋒;楊波;程澤凱;;分類(lèi)器性能評(píng)價(jià)標(biāo)準(zhǔn)研究[J];計(jì)算機(jī)技術(shù)與發(fā)展;2006年10期

9 曠嶺;;電信客戶(hù)流失數(shù)據(jù)分析方案設(shè)計(jì)與應(yīng)用研究[J];中南林業(yè)科技大學(xué)學(xué)報(bào);2011年06期

中國(guó)博士學(xué)位論文全文數(shù)據(jù)庫(kù) 前1條

1 谷瓊;面向非均衡數(shù)據(jù)集的機(jī)器學(xué)習(xí)及在地學(xué)數(shù)據(jù)處理中的應(yīng)用[D];中國(guó)地質(zhì)大學(xué);2009年


  本文關(guān)鍵詞:面向失衡數(shù)據(jù)集分類(lèi)問(wèn)題的研究與應(yīng)用,由筆耕文化傳播整理發(fā)布。



本文編號(hào):418001

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/kehuguanxiguanli/418001.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)f3f49***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com