天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

決策樹誤差降低剪枝算法的改進研究

發(fā)布時間:2021-10-11 00:45
  決策樹是數(shù)據(jù)挖掘中常用的分類和回歸方法之一。本文主要討論分類決策樹。顧名思義,決策樹為樹狀結(jié)構(gòu),從根結(jié)點開始逐漸開枝散葉,長成一棵具有多個分支和結(jié)點的大樹。決策樹遵循的是“分而治之”的策略,在分類問題中,每次劃分選擇一個特征變量將樣本的集合分為若干部分,然后再對各部分進行相同的操作,直到特征變量全部選取完畢,每個樣本都落入某個葉子結(jié)點中,這個葉子結(jié)點的類別由多數(shù)原則來決定。決策樹具有計算復雜度不高、輸出結(jié)果易于理解、對中間值的缺失不敏感、可以處理不相關(guān)特征數(shù)據(jù)等優(yōu)點,因此在分類問題中應用較為廣泛。一般來說,決策樹的訓練過程包括特征選擇、樹的生長、剪枝三個步驟。其中根據(jù)特征選擇的不同標準,決策樹可分為ID3、C4.5、CART三類,在實踐中這三種標準生成的樹的性能差異較小,幾乎可以忽略不計。由于實際問題中變量的個數(shù)較多,由這些數(shù)據(jù)得到的決策樹往往會變得大而復雜。然而,經(jīng)驗表明,大而復雜的決策樹不僅解釋起來較為困難,而且往往并不意味著可以得到更準確的分類結(jié)果,這說明決策樹的生長具有過擬合的傾向。因此對決策樹進行剪枝是很有必要的。剪枝可以簡化決策樹,提高泛化性能,避免對訓練集的過擬合,是決策... 

【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校

【文章頁數(shù)】:46 頁

【學位級別】:碩士

【部分圖文】:

決策樹誤差降低剪枝算法的改進研究


圖1.2:分類規(guī)則舉例??

平面圖,二維,平面,分類規(guī)則


?山東大學碩士學位論文???x<0.42??'?\?(?\??y<0.47?y<0.33??jT'h??圖1.2:分類規(guī)則舉例??下圖是按照決策樹對應的分類規(guī)則對于二維平面的劃分。??厶??4????£>■_???------------------------------0??2?-?|?。??!?a??〇?〇?!?^??o?;??0?0?0_2?0?4?〇e?0.8??X??圖1.3:二維平面的劃分??-3-??

示意圖,決策樹,示意圖,結(jié)點


?山東大學碩士學位論文???3.剪枝決策樹容易產(chǎn)生過擬合的傾向,一般來說,過擬合的原因主要有以??下幾個:(1)建模樣本抽取錯誤,包括(但不限于)樣本數(shù)量太少,抽樣方法錯??誤,抽樣時沒有足夠正確地考慮業(yè)務(wù)場景或業(yè)務(wù)特點,導致抽出的樣本數(shù)據(jù)??不能有效代表業(yè)務(wù)邏輯或業(yè)務(wù)場景;(2)樣本里的噪聲數(shù)據(jù)干擾過大,大到??模型過分記住了噪聲特征,反而忽略了真實的輸入輸出間的關(guān)系;(3)訓練??模型過度導致模型非常復雜、參數(shù)多;(4)建模時的“邏輯假設(shè)”到了模型應??用時己經(jīng)不能成立了。任何預測模型都是在假設(shè)的基礎(chǔ)上才可以搭建和應用??的,常用的假設(shè)包括:假設(shè)歷史數(shù)據(jù)可以推測未來,假設(shè)業(yè)務(wù)環(huán)節(jié)沒有發(fā)生??顯著變化,假設(shè)建模數(shù)據(jù)與后來的應用數(shù)據(jù)是相似的,等等。如果上述假設(shè)??違反了業(yè)務(wù)場景的話,根據(jù)這些假設(shè)搭建的模型當然就無法有效應用了。??基于上述原因,需要對決策樹進行剪枝以縮小樹結(jié)構(gòu)的規(guī)模、緩解過??擬合。對于某個結(jié)點進行剪枝操作,就是把該結(jié)點延伸出的子樹全部“刪??除”掉,僅保留該結(jié)點本身。顯然,經(jīng)過剪枝操作的結(jié)點會變成葉子結(jié)點,??該結(jié)點內(nèi)的樣本類別由多數(shù)原則確定。??下圖給出剪枝的示意圖。??「???!?!?〇??^?V?\????\??I⑦〇I〇?〇??/?\!??!?〇?〇??L?1??圖1.4:決策樹剪枝示意圖??剪枝方法和程度對決策樹泛化能力的影響相當顯著,Mingers111進行??的實驗研究表明,在數(shù)據(jù)帶有噪聲時通過剪枝可將決策樹的泛化性能提??高25%,因此對剪枝技術(shù)進行研究是很有必要的。??一?7-??


本文編號:3429463

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3429463.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d8362***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com