天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

混合型不平衡數(shù)據(jù)分類(lèi)方法及應(yīng)用研究

發(fā)布時(shí)間:2024-04-17 18:33
  類(lèi)別不平衡分類(lèi)問(wèn)題廣泛存在于金融、生物醫(yī)學(xué)、信息安全等諸多領(lǐng)域,在信用風(fēng)險(xiǎn)評(píng)估、疾病檢測(cè)等實(shí)際應(yīng)用中,類(lèi)別不平衡數(shù)據(jù)通常是分類(lèi)型和數(shù)值型數(shù)據(jù)并存,將分類(lèi)型數(shù)據(jù)數(shù)值化,會(huì)引入不合理的序信息,且假定不同分類(lèi)型屬性值間距離相等。不平衡數(shù)據(jù)本身的特性,如類(lèi)別不平衡、類(lèi)重疊、少數(shù)類(lèi)樣本過(guò)少等,是影響其分類(lèi)困難的主要原因,也是影響數(shù)據(jù)復(fù)雜程度的重要原因。因此,對(duì)于包含分類(lèi)型和數(shù)值型數(shù)據(jù)的混合型不平衡數(shù)據(jù),在理解數(shù)據(jù)的復(fù)雜性的前提下,設(shè)計(jì)合理的數(shù)據(jù)組合映射方法,降低數(shù)據(jù)的復(fù)雜性,對(duì)于提升混合型不平衡數(shù)據(jù)的分類(lèi)性能具有重要意義。本文針對(duì)混合型不平衡數(shù)據(jù)開(kāi)展研究,其主要研究工作包括以下三個(gè)方面:(1)數(shù)據(jù)本身的復(fù)雜程度是影響分類(lèi)性能的關(guān)鍵因素,針對(duì)分類(lèi)型數(shù)據(jù)難以直接度量其復(fù)雜性的問(wèn)題,本文考慮屬性與類(lèi)標(biāo)簽的特點(diǎn),利用HVDM(Heterogeneous Value Difference Metric)距離度量方法,分別從三個(gè)角度提出了適用于混合型不平衡數(shù)據(jù)的復(fù)雜性度量方法,有效解決了具有分類(lèi)型和數(shù)值型數(shù)據(jù)的混合型不平衡數(shù)據(jù)難以直接度量復(fù)雜性的問(wèn)題。然后通過(guò)實(shí)驗(yàn)驗(yàn)證了所提方法的有效性,并最終得出結(jié)論:不平...

【文章頁(yè)數(shù)】:83 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖5.3異常值檢測(cè)箱線圖

圖5.3異常值檢測(cè)箱線圖

山西財(cái)經(jīng)大學(xué)碩士學(xué)位論文57群,在樣本分布上,距離其同類(lèi)族群較遠(yuǎn),因此,也稱為離群點(diǎn)或者噪音。異常值的存在是影響分類(lèi)結(jié)果的另一因素之一,因此,有效檢測(cè)異常值并采用合適的方法進(jìn)行處理對(duì)提高數(shù)據(jù)質(zhì)量具有一定的重要作用。現(xiàn)階段的異常值檢測(cè)方法主要有統(tǒng)計(jì)學(xué)方法、基于距離的方法、基于分類(lèi)的....



本文編號(hào):3956757

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/3956757.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f87d0***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com