基于加權決策樹的隨機森林模型優(yōu)化
發(fā)布時間:2019-09-18 04:23
【摘要】:隨機森林是一種組合分類器,它的主要思想是基于兩個隨機過程(訓練樣本隨機抽取、特征集隨機抽取)來構建多棵相對獨立的決策樹分類器,然后通過所有決策樹參與投票的方式獲得最終的預測結果,這樣有效避免了過度擬合的問題,并且構建決策樹的相對獨立性適合于并行計算提高模型的預測效率,方便處理高維數(shù)據(jù)。這些特點使隨機森林在各個工程應用中得到了迅速、廣泛的使用,成為機器學習、數(shù)據(jù)挖掘研究中的熱門算法。雖然隨機森林在模型構建過程中的隨機抽樣解決了過擬合的問題,但是也使得模型中不同決策樹的泛化能力存在一定的差異,在傳統(tǒng)隨機森林模型中這些具有不同泛化能力的決策樹擁有相同的投票權重,這影響了模型整體預測能力的穩(wěn)定性。因此,為了進一步提高隨機森林模型整體的預測能力,本文提出了一種優(yōu)化的隨機森林投票方法,通過使用決策樹的分類性能與樣本的統(tǒng)計特征來確定決策樹的投票權重,使用加權決策樹投票的方式提高隨機森林整體模型的準確率與效率。本文通過研究傳統(tǒng)隨機森林算法,著重優(yōu)化了隨機森林的投票過程,針對投票過程中存在的問題,提出改進的方法,并通過在多個公共數(shù)據(jù)集上展開實驗,驗證優(yōu)化方法的合理性和優(yōu)越性。本研究的主要工作包括:(1)從決策樹的分類能力、訓練樣本的統(tǒng)計特性入手,提出了 4種計算決策樹投票權重的方法,包括OOB評估、樣本數(shù)據(jù)相關系數(shù)評估、卡方評估和互信息評估,通過這4種評估方法為單棵決策樹計算投票權重。在8組數(shù)據(jù)集上進行對比實驗,實驗結果表明引入投票加權的方法可以有效的提高隨機森林模型整體的泛化能力,其中以相關系數(shù)作為決策樹投票權重計算依據(jù)時,模型表現(xiàn)出更穩(wěn)定、更高的預測準確率。(2)在引入加權投票算法的基礎上,本文還提出了一種半投票量模式,對構建好的加權隨機森林模型按照決策樹投票權重進行降序排序,在隨機森林模型進行串行投票的過程中,確定半投票量的預測終止條件,通過提前觸發(fā)預測終止條件來提高模型預測的速度。本文在4組數(shù)據(jù)集上進行對比實驗,驗證了半投票量模式可以在不影響模型預測準確率的前提下顯著提高隨機森林模型的預測速度。
【圖文】:
碩士學位論文逡逑MASTER'S邋THESIS逡逑(2)選擇一個劃分訓練數(shù)據(jù)集效果最好的特征t,并將特征t從特征集T中移逡逑除;逡逑(3)創(chuàng)建一個樹節(jié)點,屬性為上一步選擇的特征t,將訓練數(shù)據(jù)集劃分為2個逡逑或多個子數(shù)據(jù)集,每個子數(shù)據(jù)集作為下一次迭代的訓練數(shù)據(jù)集。逡逑在步驟(3)中,劃分得到子數(shù)據(jù)集,要是己經(jīng)達到?jīng)Q策樹停止生長的條件,逡逑則子數(shù)據(jù)集己經(jīng)到達葉子節(jié)點,無需繼續(xù)向下劃分,而停止生長的條件有很多種,逡逑包括:逡逑①對應特征集T中的特征元素數(shù)量為零;逡逑②子數(shù)據(jù)集中數(shù)據(jù)量過少,己經(jīng)低于數(shù)據(jù)集包含數(shù)據(jù)量的最小值;逡逑③子數(shù)據(jù)集繼續(xù)劃分得到的信息增益量很小,或子數(shù)據(jù)集繼續(xù)劃分的熵值很逡逑小。逡逑下面2.1給出了一個二分類決策樹算法模型圖:逡逑..邐.一
圖2.2隨機森林模型構建的流程圖逡逑2.2.1邋Bagging算法介紹逡逑Breiman在1996年提出了邋Bagging算法,Bagging算法是一種重采樣技術,通逡逑過重采樣技術獲得訓練數(shù)據(jù)集,用來訓練構建得到一個組合分類器,提升模型整體逡逑的泛化能力。逡逑給定一個訓練樣本數(shù)據(jù)集和一種元學習算法,Bagging算法通過自主抽樣法逡逑(Bootstrap邋Sampling),每次從全部訓練樣本中隨機有放回的抽樣得到一個子訓練逡逑樣本數(shù)據(jù)集,子訓練樣本的數(shù)據(jù)量小于總樣本量,使用隨機抽樣得到的訓練樣本進逡逑行元學習算法模型訓練,得到一個元分類器,這樣循環(huán)進行多輪訓練樣本抽取并訓逡逑練構建獲得多個元分類器,將這些元分類器組合在一起得到組合分類器。在數(shù)據(jù)預逡逑測的時候,多個元分類器對相同的待預測數(shù)據(jù)進行相對獨立的預測,并通過投票的逡逑方式?jīng)Q定組合分類器最終的預測結果。實驗證明,組合分類器的泛化能力往往比單逡逑一分類器的泛化能力要強,,表現(xiàn)出更好的數(shù)據(jù)預測能力,除此之外組合分類器相比逡逑于單一的分類器,前者更不容易出現(xiàn)過擬合的現(xiàn)象。逡逑
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13
【圖文】:
碩士學位論文逡逑MASTER'S邋THESIS逡逑(2)選擇一個劃分訓練數(shù)據(jù)集效果最好的特征t,并將特征t從特征集T中移逡逑除;逡逑(3)創(chuàng)建一個樹節(jié)點,屬性為上一步選擇的特征t,將訓練數(shù)據(jù)集劃分為2個逡逑或多個子數(shù)據(jù)集,每個子數(shù)據(jù)集作為下一次迭代的訓練數(shù)據(jù)集。逡逑在步驟(3)中,劃分得到子數(shù)據(jù)集,要是己經(jīng)達到?jīng)Q策樹停止生長的條件,逡逑則子數(shù)據(jù)集己經(jīng)到達葉子節(jié)點,無需繼續(xù)向下劃分,而停止生長的條件有很多種,逡逑包括:逡逑①對應特征集T中的特征元素數(shù)量為零;逡逑②子數(shù)據(jù)集中數(shù)據(jù)量過少,己經(jīng)低于數(shù)據(jù)集包含數(shù)據(jù)量的最小值;逡逑③子數(shù)據(jù)集繼續(xù)劃分得到的信息增益量很小,或子數(shù)據(jù)集繼續(xù)劃分的熵值很逡逑小。逡逑下面2.1給出了一個二分類決策樹算法模型圖:逡逑..邐.一
圖2.2隨機森林模型構建的流程圖逡逑2.2.1邋Bagging算法介紹逡逑Breiman在1996年提出了邋Bagging算法,Bagging算法是一種重采樣技術,通逡逑過重采樣技術獲得訓練數(shù)據(jù)集,用來訓練構建得到一個組合分類器,提升模型整體逡逑的泛化能力。逡逑給定一個訓練樣本數(shù)據(jù)集和一種元學習算法,Bagging算法通過自主抽樣法逡逑(Bootstrap邋Sampling),每次從全部訓練樣本中隨機有放回的抽樣得到一個子訓練逡逑樣本數(shù)據(jù)集,子訓練樣本的數(shù)據(jù)量小于總樣本量,使用隨機抽樣得到的訓練樣本進逡逑行元學習算法模型訓練,得到一個元分類器,這樣循環(huán)進行多輪訓練樣本抽取并訓逡逑練構建獲得多個元分類器,將這些元分類器組合在一起得到組合分類器。在數(shù)據(jù)預逡逑測的時候,多個元分類器對相同的待預測數(shù)據(jù)進行相對獨立的預測,并通過投票的逡逑方式?jīng)Q定組合分類器最終的預測結果。實驗證明,組合分類器的泛化能力往往比單逡逑一分類器的泛化能力要強,,表現(xiàn)出更好的數(shù)據(jù)預測能力,除此之外組合分類器相比逡逑于單一的分類器,前者更不容易出現(xiàn)過擬合的現(xiàn)象。逡逑
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2017
【分類號】:TP311.13
【相似文獻】
相關期刊論文 前10條
1 吳懿婷;;決策樹和隨機森林方法在管理決策中的應用[J];電子制作;2018年16期
2 劉同娟;姜珊;;V-隨機森林算法在微博無效評論識別中的應用[J];電腦知識與技術;2019年13期
3 于祥雨;張雪;;隨機森林在指數(shù)型基金觸發(fā)式投資方面的應用[J];金融經(jīng)濟;2018年10期
4 劉旭波;劉敬蜀;劉斌;秦令令;陳濤;;隨機森林分類用于雷達信號預分選新算法研究[J];科技導報;2019年13期
5 王澤原;趙麗;胡俊;;大數(shù)據(jù)環(huán)境下利用隨機森林算法和決策樹的貧困生認定方法[J];湘潭大學自然科學學報;2018年06期
6 劉迎春;陳梅玲;;流式大數(shù)據(jù)下隨機森林方法及應用[J];西北工業(yè)大學學報;2015年06期
7 王淑玲;謝鳳;朱海洋;朱倩倩;;基于隨機森林算法的某型飛機燃油消耗情況研究[J];數(shù)學的實踐與認識;2017年21期
8 劉云翔;陳斌;周子宜;;一種基于隨機森林的改進特征篩選算法[J];現(xiàn)代電子技術;2019年12期
9 沈智勇;蘇
本文編號:2537308
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/2537308.html
最近更新
教材專著