天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 自動化論文 >

針對不平衡數(shù)據復雜分布特征的分類方法研究

發(fā)布時間:2020-12-19 03:11
  不平衡數(shù)據分類是機器學習理論研究和實際應用面臨的挑戰(zhàn)問題之一,在醫(yī)療診斷、網絡入侵檢測、生物特征識別、故障檢測、文本分類等領域廣泛存在。傳統(tǒng)分類方法對類不平衡數(shù)據進行分類時性能降低,尤其是少數(shù)類的識別率比較低,而少數(shù)類通常是實際應用中人們更為關注且錯分代價較高的一類。因此,分析不平衡分類性能降低的原因,探究不平衡分類問題的解決方法具有重要的理論意義和應用價值。不平衡集分類性能降低的根本原因在于不平衡數(shù)據固有的復雜分布特征,主要包括小區(qū)塊、類間覆蓋、少數(shù)類空間存在較多的稀缺樣例和離群點等。傳統(tǒng)分類方法以最小化錯誤率為目標建立分類器,稀缺的少數(shù)類樣本以及復雜分布特征使傳統(tǒng)方法偏向多數(shù)類,降低了少數(shù)類的泛化性能。為了提高小類樣本的識別率,降低錯分代價,本文針對上述三種不平衡數(shù)據復雜分布特征,分別在數(shù)據層面對不平衡集進行預處理,在算法層面優(yōu)化基分類器,改進下采樣集成方法,在決策層面,提出適合處理不平衡集的拒絕分類模型。主要工作包括以下四個內容:首先,從數(shù)據層面提出一種基于加權編輯近鄰規(guī)則的混合采樣方法,解決由于小類樣本局部密度較低,編輯近鄰規(guī)則下采樣時壓縮小類空間的問題。考慮與局部分布相關的兩... 

【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】:137 頁

【學位級別】:博士

【部分圖文】:

針對不平衡數(shù)據復雜分布特征的分類方法研究


不平衡數(shù)據復雜分布特征示意圖,其中

示意圖,樣本,數(shù)據,性能


ㄆ壅┘觳馕侍。因此?綰味圓黃膠?數(shù)據進行預處理或改進傳統(tǒng)分類算法提高小類識別率,降低錯分代價是值得研究的課題。1.2不平衡數(shù)據復雜分布特征不平衡分類性能下降的根本原因是不平衡數(shù)據固有的復雜分布特征。類分布不平衡只是數(shù)據集的表面特征,不是分類困難的根本原因。復雜分布特征會導致分類性能降低,不平衡的類分布和正類樣本的稀缺會加劇性能降低的程度。不平衡數(shù)據復雜分布特征[9]主要包括稀缺樣例和離群點(rarecasesandoutliers),小區(qū)塊(smalldisjuncts),以及類間覆蓋(overlappingbetweenclasses)等,如圖1-1所示。a)小區(qū)塊a)Smalldisjunctsb)類間覆蓋b)Overlappingbetweenclassesc)稀缺樣例和離群點c)Rarecasesandoutliers圖1-1不平衡數(shù)據復雜分布特征示意圖,其中圓圈和五星分別表示多數(shù)類樣本和少數(shù)類樣本Fig.1-1Illustrationofcomplexdistributioncharacteristicsinimbalanceddatawherecirclesandstarsindicatethemajorityandminorityclassexamples,respectively不平衡的類分布:嚴格來講,任何存在不相等樣本量的數(shù)據集都可認為是不平衡集,但是在研究中人們的共識是不平衡集的類間分布存在顯著或極端差異,可能是10:1,100:1,1000:1,甚至更大[10],這稱為類間不平衡(between-classimbalance)。Weiss等[11]研究了訓練樣本的類分布與決策樹分類性能間的關系,結果表明不平衡比越大,分類性能越差,在相對平衡的數(shù)據集上通常獲得更好的分類結果。Wu[12]和Liu[13]探究了類不平衡(不平衡比分別為10:1,100:1和300:1)對SVM的影響,發(fā)現(xiàn)對于較小的不平衡比(10:1),SVM的類邊界接近理想邊界,而當不平衡比越來越大(100:1和300:1)時,類邊界明顯地偏到小類樣本空間。但是,不平衡比究竟使分類性能?

示意圖,數(shù)據集,樣本,小區(qū)


統(tǒng)計的機器學習方法根據訓練樣本歸納映射規(guī)則,若訓練樣本少,算法沒有足夠信息歸納出樣本的分布規(guī)律,如圖1-2所示為KEEL數(shù)據庫[3]中yeast4真實數(shù)據集20%樣本和全部樣本在屬性Gvh和Mit上的分布示意圖。當類分布絕對不平衡時,稀缺的正類樣本不能充分描述其所在空間,導致類邊界不清晰,學習算法會弱化或忽視對正類的學習。當遇到高維不平衡數(shù)據時,建立合適的分類規(guī)則或分類器更加困難。若小類樣本分布不集中,比較分散,易被當做噪聲。a)20%的原始樣本a)20%oforiginalexamplesb)全部樣本b)alloriginalexamples圖1-2yeast4數(shù)據集樣本稀缺示意圖Fig.1-2Illustrationofexamplescarcityondatasetyeast4小區(qū)塊:樣本空間中出現(xiàn)成簇的少量同類樣本稱為小區(qū)塊[16,17],正類和負類空間中都可能出現(xiàn)小區(qū)塊,但是小區(qū)塊通常由樣本欠表達(under-representation)導致,所以小區(qū)塊更多出現(xiàn)在小類空間中。這些小區(qū)域和與其同類的主導區(qū)域(dom-inantregion)間出現(xiàn)類內不平衡(within-classimbalance)[18],主導區(qū)域中的樣本明顯多于同類小區(qū)塊中的樣本。小區(qū)塊會加劇基于分治策略的分類方法的難度,這類方法把原問題劃分為多個子問題,會導致數(shù)據碎片[19],即會出現(xiàn)幾個樣本構成的小簇,當不平衡比比較高時,這種現(xiàn)象更嚴重。針對小區(qū)塊問題,可采用的解決思路和策略有:數(shù)據稀缺導致小區(qū)塊,可通過上采樣填充這些簇狀區(qū)域;傳統(tǒng)分類方法為得到高的泛化能力會偏向大類,忽視對小區(qū)塊的學習,為避免這種情況,應調整歸納偏置,對于小區(qū)塊,使用復雜的歸納方法,重點學習小類樣本;改變傳統(tǒng)學習算法的優(yōu)化指標或為小類樣本分配較大權重,使得建立分類模型時更重視小類樣本;使用決策樹進行分類時,建議不采用剪枝策略,剪枝會因泛化學習規(guī)?


本文編號:2925144

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2925144.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶1b22c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com