天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

不平衡數(shù)據(jù)集分類及相關(guān)問(wèn)題研究

發(fā)布時(shí)間:2022-12-04 19:45
  不平衡數(shù)據(jù)集分類問(wèn)題是數(shù)據(jù)分類領(lǐng)域的研究熱點(diǎn)。利用過(guò)采樣技術(shù)對(duì)不平衡數(shù)據(jù)進(jìn)行預(yù)處理從而幫助分類器識(shí)別出更多的少數(shù)類樣本是一種常見的解決辦法。由于已有的過(guò)采樣方法普遍存在無(wú)法讓數(shù)據(jù)集在平衡化處理前后數(shù)據(jù)密度趨于一致、產(chǎn)生新樣本的區(qū)域過(guò)小、采樣倍率較高時(shí)樣本容易重疊等問(wèn)題,所以本文針對(duì)以上問(wèn)題進(jìn)行改進(jìn)而提出新的過(guò)采樣算法以便更好地完成不平衡數(shù)據(jù)集分類任務(wù)。針對(duì)數(shù)字型的不平衡數(shù)據(jù)集,本文提出了兩種全新的過(guò)采樣方法以對(duì)數(shù)據(jù)集進(jìn)行平衡化處理。因?yàn)槲谋拘蛿?shù)據(jù)進(jìn)行線性插值可解釋性差,所以針對(duì)不平衡的文本型數(shù)據(jù)集分類問(wèn)題本文提出了一種改進(jìn)的文本表示方法來(lái)改善不平衡的文本數(shù)據(jù)分類結(jié)果。為了更好地解決不同類型的不平衡數(shù)據(jù)集分類問(wèn)題,本文主要做了以下工作:1.針對(duì)現(xiàn)有過(guò)采樣方法存在抽樣前后數(shù)據(jù)密度不一致、抽樣權(quán)重分配不合理、數(shù)據(jù)集稀疏性評(píng)價(jià)不合理等問(wèn)題,本文利用樣本間的最小距離來(lái)衡量數(shù)據(jù)集的稀疏性,并且距離越遠(yuǎn)的鄰居越先被用于抽樣,從而提出了一種基于少數(shù)類樣本間最小和最大距離的過(guò)采樣策略。這種過(guò)采樣算法使得分類器在經(jīng)過(guò)平衡化處理后的數(shù)據(jù)集上進(jìn)行訓(xùn)練后能夠識(shí)別出更多的少數(shù)類樣本,并且正確識(shí)別多數(shù)類樣本的能力也... 

【文章頁(yè)數(shù)】:94 頁(yè)

【學(xué)位級(jí)別】:碩士

【文章目錄】:
摘要
abstract
第一章 緒論
    1.1 研究背景及意義
        1.1.1 背景
        1.1.2 意義
    1.2 國(guó)內(nèi)外研究歷史與現(xiàn)狀
        1.2.1 數(shù)據(jù)層面的解決辦法
        1.2.2 算法層面的解決辦法
    1.3 本文的主要貢獻(xiàn)與創(chuàng)新
    1.4 本文的研究?jī)?nèi)容和結(jié)構(gòu)安排
第二章 相關(guān)理論與技術(shù)的介紹
    2.1 不平衡數(shù)據(jù)集分類困難的主要因素
        2.1.1 算法方面的因素
        2.1.2 數(shù)據(jù)方面的因素
    2.2 過(guò)采樣技術(shù)
        2.2.1 隨機(jī)過(guò)采樣
        2.2.2 基于距離的過(guò)采樣
        2.2.3 基于聚類的過(guò)采樣
    2.3 分類評(píng)價(jià)指標(biāo)
        2.3.1 一般分類評(píng)價(jià)指標(biāo)
        2.3.2 不平衡數(shù)據(jù)集分類評(píng)價(jià)指標(biāo)
    2.4 文本表示方法
        2.4.1 One-hot獨(dú)熱編碼表示法
        2.4.2 詞袋模型
        2.4.3 TF-IDF
    2.5 分類方法
        2.5.1 分類概述
        2.5.2 基于機(jī)器學(xué)習(xí)的分類方法
    2.6 聚類算法
        2.6.1 聚類算法概述
        2.6.2 K-Means聚類算法
    2.7 本章小結(jié)
第三章 基于少數(shù)類樣本間最大與最小距離的過(guò)采樣
    3.1 引言
    3.2 已有過(guò)采樣方案的研究
    3.3 基本少數(shù)類樣本間最大與最小距離的過(guò)采樣
        3.3.1 模型細(xì)節(jié)
        3.3.2 實(shí)驗(yàn)設(shè)計(jì)
    3.4 實(shí)驗(yàn)結(jié)果與分析
        3.4.1 比較方法
        3.4.2 實(shí)驗(yàn)結(jié)果
        3.4.3 結(jié)果分析
    3.5 本章小結(jié)
第四章 三角過(guò)采樣
    4.1 引言
    4.2 已有方案的分析
    4.3 三角過(guò)采樣
        4.3.1 模型細(xì)節(jié)
        4.3.2 實(shí)驗(yàn)設(shè)計(jì)
    4.4 實(shí)驗(yàn)結(jié)果與分析
        4.4.1 對(duì)比方案
        4.4.2 實(shí)驗(yàn)結(jié)果
        4.4.3 結(jié)果分析
        4.4.4 橫向?qū)Ρ?br>    4.5 本章小結(jié)
第五章 TF-IDF-ρ算法及實(shí)驗(yàn)驗(yàn)證
    5.1 引言
    5.2 關(guān)于其他改進(jìn)方案的分析
    5.3 TF-IDF-ρ
        5.3.1 模型細(xì)節(jié)
        5.3.2 利用TF-IDF-ρ進(jìn)行文本分類的流程
        5.3.3 類區(qū)分能力ρ在訓(xùn)練集與測(cè)試集中相同
    5.4 實(shí)驗(yàn)
        5.4.1 實(shí)驗(yàn)設(shè)計(jì)
        5.4.2 實(shí)驗(yàn)結(jié)果
        5.4.3 結(jié)果分析
    5.5 本章小結(jié)
第六章 總結(jié)與展望
    6.1 全文總結(jié)
    6.2 未來(lái)展望
致謝
參考文獻(xiàn)
攻讀碩士期間取得的成果


【參考文獻(xiàn)】:
期刊論文
[1]K-Means聚類算法研究綜述[J]. 楊俊闖,趙超.  計(jì)算機(jī)工程與應(yīng)用. 2019(23)
[2]SMOTE過(guò)采樣及其改進(jìn)算法研究綜述[J]. 石洪波,陳雨文,陳鑫.  智能系統(tǒng)學(xué)報(bào). 2019(06)
[3]面向不平衡數(shù)據(jù)的分類算法[J]. 蔣宗禮,史倩月.  計(jì)算機(jī)系統(tǒng)應(yīng)用. 2019(08)
[4]基于混合采樣的不平衡數(shù)據(jù)集算法研究[J]. 張明,胡曉輝,吳嘉昕.  計(jì)算機(jī)工程與應(yīng)用. 2019(17)
[5]基于混合采樣的非平衡數(shù)據(jù)分類算法[J]. 吳藝凡,梁吉業(yè),王俊紅.  計(jì)算機(jī)科學(xué)與探索. 2019(02)
[6]基于k最近鄰和改進(jìn)TF-IDF的文本分類框架[J]. 龔靜,黃欣陽(yáng).  計(jì)算機(jī)工程與設(shè)計(jì). 2018(05)
[7]基于改進(jìn)TF-IDF算法的關(guān)鍵詞抽取系統(tǒng)[J]. 胡亮,夏磊,李偉.  廈門理工學(xué)院學(xué)報(bào). 2017(05)
[8]基于鄰域混合抽樣和動(dòng)態(tài)集成的不平衡數(shù)據(jù)分類方法[J]. 高鋒,黃海燕.  計(jì)算機(jī)科學(xué). 2017(08)
[9]基于Document Triage的TF-IDF算法的改進(jìn)[J]. 李鎮(zhèn)君,周竹榮.  計(jì)算機(jī)應(yīng)用. 2015(12)
[10]不平衡數(shù)據(jù)處理的新方法——基于樣本相似度的少數(shù)類合成法[J]. 馬景義,胡迪,孫梟梟.  數(shù)理統(tǒng)計(jì)與管理. 2015(05)

碩士論文
[1]基于混合采樣的非平衡數(shù)據(jù)分類算法研究[D]. 吳藝凡.山西大學(xué) 2019
[2]基于傳遞距離的密度峰值聚類算法研究[D]. 閆高亮.西南大學(xué) 2019
[3]基于集成學(xué)習(xí)的不平衡樣本分類問(wèn)題研究[D]. 郭建威.哈爾濱工業(yè)大學(xué) 2017
[4]過(guò)抽樣算法在不平衡數(shù)據(jù)學(xué)習(xí)中的應(yīng)用[D]. 韓秋玲.華南理工大學(xué) 2011



本文編號(hào):3708879

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3708879.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f8878***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com