一種基于密度的改進決策樹算法
本文關鍵詞:一種基于密度的改進決策樹算法
【摘要】:分類問題是機器學習領域的重要研究內容,分類是指對已知類別的數(shù)據(jù)集進行高度抽象,提取規(guī)則,構建預測模型,從而使用該模型對未知類別的樣本數(shù)據(jù)進行歸類。決策樹是各種分類算法中最常見的算法,它相對于其他算法模式簡單、分類速度快、準確率高,且生成的規(guī)則可以用語意表示,具有更強的可解釋性。然而實際數(shù)據(jù)集中常常伴隨著噪聲或者孤立點,這會使決策樹出現(xiàn)只包含極少量樣本的葉子節(jié)點,產(chǎn)生不必要的分支,進而使決策樹規(guī)模變大。針對這一問題,本文提出了基于密度的決策樹構建思想,即在決策樹的構建過程中將劃分區(qū)域內的樣本密度作為一個衡量標準,使生成的決策樹中不存在或者僅少量存在上述不必要分支,精簡了決策樹規(guī)模,同時在一定程度上避免了過擬合現(xiàn)象,提高了預測精度。同時,本文將基于密度的構建思想推廣到了以RandomForest、Bagging和AdaBoost為代表的集成算法中,這三種算法雖然相較于單個決策樹已經(jīng)可以表現(xiàn)出較強的分類能力,但是同樣面臨基分類器在訓練結果中存在不必要分支的問題,而基于密度的集成學習算法則表現(xiàn)出了更強的分類能力,可以明顯縮小建樹規(guī)模,提高分類準確性。本文在多組UCI數(shù)據(jù)集上進行了多次實驗,將本文方法與傳統(tǒng)方法在樹的平均節(jié)點個數(shù)和分類準確性上進行了對比。實驗表明,本文方法可以普遍減小決策樹節(jié)點個數(shù),同時降低過擬合程度,提高預測準確性,使得由本文方法構建的分類器具有更佳的分類性能,而且結構簡單,語義明了,泛化能力強。
【關鍵詞】:決策樹 集成算法 密度 過擬合
【學位授予單位】:大連理工大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP181
【目錄】:
- 摘要4-5
- Abstract5-7
- 1 緒論7-13
- 1.1 研究背景及意義7
- 1.2 常見分類算法介紹7-10
- 1.3 機器學習研究現(xiàn)狀10-12
- 1.4 本文主要內容12-13
- 2 決策樹算法簡介13-28
- 2.1 C4.5算法介紹16-20
- 2.2 相關集成學習算法介紹20-28
- 2.2.1 RandomForest算法20-22
- 2.2.2 Bagging算法22-24
- 2.2.3 AdaBoost算法24-28
- 3 基于密度的C4.5算法28-36
- 3.1 基于密度的C4.5算法介紹28-31
- 3.2 與傳統(tǒng)C4.5算法的對比31-35
- 3.2.1 實驗背景介紹31-32
- 3.2.2 實驗分析32-35
- 3.3 本章小結35-36
- 4 基于密度的集成決策樹算法36-43
- 4.1 基于密度的RandomForest算法37-39
- 4.2 基于密度的Bagging算法39-41
- 4.3 基于密度的AdaBoost算法41-42
- 4.4 本章小結42-43
- 結論43-44
- 參考文獻44-47
- 攻讀碩士學位期間發(fā)表學術論文情況47-48
- 致謝48-49
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 郭志高;高曉光;邸若海;;小數(shù)據(jù)集條件下基于雙重約束的BN參數(shù)學習[J];自動化學報;2014年07期
2 董隴軍;李夕兵;彭康;;巖爆等級預測的隨機森林模型及應用(英文)[J];Transactions of Nonferrous Metals Society of China;2013年02期
3 張欣;梁宗保;;多分類器融合算法研究與應用[J];湘潭大學自然科學學報;2011年02期
4 李明方;張化祥;;針對不平衡數(shù)據(jù)集的Bagging改進算法[J];計算機工程與應用;2010年30期
5 王艷秋;徐傳飛;于戈;谷峪;陳默;;一種面向不確定對象的可見k近鄰查詢算法[J];計算機學報;2010年10期
6 羅辛;歐陽元新;熊璋;袁滿;;通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法[J];計算機學報;2010年08期
7 阮錦新;尹俊勛;;基于人臉特征和AdaBoost算法的多姿態(tài)人臉檢測[J];計算機應用;2010年04期
8 徐鵬;林森;;基于C4.5決策樹的流量分類方法[J];軟件學報;2009年10期
9 李闖;丁曉青;吳佑壽;;一種改進的AdaBoost算法——AD AdaBoost[J];計算機學報;2007年01期
10 蘇金樹;張博鋒;徐昕;;基于機器學習的文本分類技術研究進展[J];軟件學報;2006年09期
,本文編號:854852
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/854852.html