分布式?jīng)Q策樹(shù)算法在分類(lèi)問(wèn)題中的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2021-04-08 18:08
分類(lèi)問(wèn)題是模式識(shí)別、機(jī)器學(xué)習(xí)、圖像處理以及信息檢索等數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要的研究課題。在眾多分類(lèi)算法中,決策樹(shù)(Decision Trees)是最有效且應(yīng)用最為廣泛的經(jīng)典算法之一,其具有分類(lèi)精度高、參數(shù)少、可解釋性強(qiáng)等優(yōu)點(diǎn)。決策樹(shù)在商業(yè)、醫(yī)療、制造和生產(chǎn)、金融分析、遙感影像分類(lèi)、分子生物學(xué)等方面已經(jīng)有了廣泛的應(yīng)用并且取得了顯著的成效。隨著科技的進(jìn)步和網(wǎng)絡(luò)的發(fā)展,日常生活中產(chǎn)生的數(shù)據(jù)正在急劇增長(zhǎng),這為決策樹(shù)解決大規(guī)模數(shù)據(jù)分類(lèi)問(wèn)題帶來(lái)了機(jī)遇與挑戰(zhàn)。然而由于內(nèi)存空間、時(shí)間復(fù)雜度以及數(shù)據(jù)復(fù)雜度等限制,傳統(tǒng)的決策樹(shù)算法還無(wú)法直接應(yīng)用于大規(guī)模數(shù)據(jù)集的分類(lèi)問(wèn)題。為有效進(jìn)行大規(guī)模數(shù)據(jù)集的分析與處理,算法分布式化研究的重要性日益顯著。本文針對(duì)分類(lèi)問(wèn)題,對(duì)決策樹(shù)算法的分布式化進(jìn)行了研究與實(shí)現(xiàn),主要研究工作包括以下幾個(gè)方面:(1)為應(yīng)對(duì)C4.5決策樹(shù)在處理大規(guī)模數(shù)據(jù)分類(lèi)問(wèn)題時(shí)所面臨的挑戰(zhàn),提出了一種基于C4.5決策樹(shù)的分布式化方法。本算法將Map-Reduce技術(shù)應(yīng)用于決策樹(shù)構(gòu)造的每一個(gè)樹(shù)節(jié)點(diǎn)中,構(gòu)建了兩個(gè)分布式算法:一個(gè)分布式算法用于樹(shù)節(jié)點(diǎn)分裂屬性和分裂點(diǎn)的選擇,另一個(gè)用于數(shù)據(jù)的分割。其中在分裂屬性和分裂...
【文章來(lái)源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:134 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.2文件在Hadoop分布式文件系統(tǒng)上的存儲(chǔ)模式??Fig.?2.2?The?distribution?of?a?file?in?Hadoop?Distributed?File?System??
生在多個(gè)計(jì)算機(jī)上,在該階段存在一個(gè)被稱(chēng)為Map的函數(shù),該函數(shù)主要用于處理輸入數(shù)??據(jù)并產(chǎn)生一些中間的輸出。然后,這些中間結(jié)果在Reduce階段通過(guò)一個(gè)Reduce函數(shù)進(jìn)行??聚合,該函數(shù)按照用戶的實(shí)際實(shí)現(xiàn)輸出最終的結(jié)果。圖2.3詳細(xì)描述了?Map-Reduce框架??的處理步驟。??Map?Shuffle?Reduce??<?A?、r?A??K?n??<keyi,valuei>?Iist<kcy2,valuc2>?<key2,list(valuC2)>?<key3,value3>??圖2.3?Map-Reduce框架的詳細(xì)處理流程??Fig.?2.3?The?detailed?processing?procedure?of?the?Map-Reduce?framework??如圖2.3所示,Map階段和Reduce階段都用<?>對(duì)作為相應(yīng)函數(shù)的輸入和輸??出。在Map階段,Map函數(shù)將每一個(gè)</:〇;,對(duì)作為輸入,并且輸出了一個(gè)中間結(jié)??-25-??
圖3.2所提算法在Adult數(shù)據(jù)集上的執(zhí)行時(shí)間??Fig.?3.2?Running?time?of?the?proposed?method?for?Adult?data?set??-42-??
【參考文獻(xiàn)】:
期刊論文
[1]基于MapReduce的決策樹(shù)算法并行化[J]. 陸秋,程小輝. 計(jì)算機(jī)應(yīng)用. 2012(09)
[2]Information entropy for ordinal classification[J]. HU QingHua , GUO MaoZu, YU DaRen & LIU JinFu Harbin Institute of Technology, Harbin 150001, China. Science China(Information Sciences). 2010(06)
[3]粗糙集理論與應(yīng)用研究綜述[J]. 王國(guó)胤,姚一豫,于洪. 計(jì)算機(jī)學(xué)報(bào). 2009(07)
[4]基于分層遺傳算法的網(wǎng)格任務(wù)調(diào)度策略[J]. 劉海迪,楊裔,馬生峰,李廉. 計(jì)算機(jī)研究與發(fā)展. 2008(S1)
[5]分支合并對(duì)決策樹(shù)歸納學(xué)習(xí)的影響[J]. 王熙照,楊晨曉. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
[6]SVM-KNN組合改進(jìn)算法在專(zhuān)利文本分類(lèi)中的應(yīng)用[J]. 李程雄,丁月華,文貴華. 計(jì)算機(jī)工程與應(yīng)用. 2006(20)
[7]基于SVM的特征加權(quán)KNN算法[J]. 陳振洲,李磊,姚正安. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(01)
[8]決策樹(shù)的優(yōu)化算法[J]. 劉小虎,李生. 軟件學(xué)報(bào). 1998(10)
[9]基于粗糙集的多變量決策樹(shù)構(gòu)造方法[J]. 苗奪謙,王玨. 軟件學(xué)報(bào). 1997(06)
博士論文
[1]基于模糊規(guī)則的知識(shí)發(fā)現(xiàn)與表示研究[D]. 王顯昌.大連理工大學(xué) 2015
[2]基于公理模糊集的模糊決策樹(shù)算法研究[D]. 馮興華.大連理工大學(xué) 2013
本文編號(hào):3126006
【文章來(lái)源】:大連理工大學(xué)遼寧省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:134 頁(yè)
【學(xué)位級(jí)別】:博士
【部分圖文】:
圖2.2文件在Hadoop分布式文件系統(tǒng)上的存儲(chǔ)模式??Fig.?2.2?The?distribution?of?a?file?in?Hadoop?Distributed?File?System??
生在多個(gè)計(jì)算機(jī)上,在該階段存在一個(gè)被稱(chēng)為Map的函數(shù),該函數(shù)主要用于處理輸入數(shù)??據(jù)并產(chǎn)生一些中間的輸出。然后,這些中間結(jié)果在Reduce階段通過(guò)一個(gè)Reduce函數(shù)進(jìn)行??聚合,該函數(shù)按照用戶的實(shí)際實(shí)現(xiàn)輸出最終的結(jié)果。圖2.3詳細(xì)描述了?Map-Reduce框架??的處理步驟。??Map?Shuffle?Reduce??<?A?、r?A??K?n??<keyi,valuei>?Iist<kcy2,valuc2>?<key2,list(valuC2)>?<key3,value3>??圖2.3?Map-Reduce框架的詳細(xì)處理流程??Fig.?2.3?The?detailed?processing?procedure?of?the?Map-Reduce?framework??如圖2.3所示,Map階段和Reduce階段都用<?>對(duì)作為相應(yīng)函數(shù)的輸入和輸??出。在Map階段,Map函數(shù)將每一個(gè)</:〇;,對(duì)作為輸入,并且輸出了一個(gè)中間結(jié)??-25-??
圖3.2所提算法在Adult數(shù)據(jù)集上的執(zhí)行時(shí)間??Fig.?3.2?Running?time?of?the?proposed?method?for?Adult?data?set??-42-??
【參考文獻(xiàn)】:
期刊論文
[1]基于MapReduce的決策樹(shù)算法并行化[J]. 陸秋,程小輝. 計(jì)算機(jī)應(yīng)用. 2012(09)
[2]Information entropy for ordinal classification[J]. HU QingHua , GUO MaoZu, YU DaRen & LIU JinFu Harbin Institute of Technology, Harbin 150001, China. Science China(Information Sciences). 2010(06)
[3]粗糙集理論與應(yīng)用研究綜述[J]. 王國(guó)胤,姚一豫,于洪. 計(jì)算機(jī)學(xué)報(bào). 2009(07)
[4]基于分層遺傳算法的網(wǎng)格任務(wù)調(diào)度策略[J]. 劉海迪,楊裔,馬生峰,李廉. 計(jì)算機(jī)研究與發(fā)展. 2008(S1)
[5]分支合并對(duì)決策樹(shù)歸納學(xué)習(xí)的影響[J]. 王熙照,楊晨曉. 計(jì)算機(jī)學(xué)報(bào). 2007(08)
[6]SVM-KNN組合改進(jìn)算法在專(zhuān)利文本分類(lèi)中的應(yīng)用[J]. 李程雄,丁月華,文貴華. 計(jì)算機(jī)工程與應(yīng)用. 2006(20)
[7]基于SVM的特征加權(quán)KNN算法[J]. 陳振洲,李磊,姚正安. 中山大學(xué)學(xué)報(bào)(自然科學(xué)版). 2005(01)
[8]決策樹(shù)的優(yōu)化算法[J]. 劉小虎,李生. 軟件學(xué)報(bào). 1998(10)
[9]基于粗糙集的多變量決策樹(shù)構(gòu)造方法[J]. 苗奪謙,王玨. 軟件學(xué)報(bào). 1997(06)
博士論文
[1]基于模糊規(guī)則的知識(shí)發(fā)現(xiàn)與表示研究[D]. 王顯昌.大連理工大學(xué) 2015
[2]基于公理模糊集的模糊決策樹(shù)算法研究[D]. 馮興華.大連理工大學(xué) 2013
本文編號(hào):3126006
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3126006.html
最近更新
教材專(zhuān)著