集成回歸問題若干關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:集成回歸問題若干關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
【摘要】:作為機(jī)器學(xué)習(xí)領(lǐng)域的四大研究方向之一,集成學(xué)習(xí)通過訓(xùn)練多個學(xué)習(xí)器并將其結(jié)果進(jìn)行組合,從而在大多數(shù)情況下顯著提升了學(xué)習(xí)器的泛化能力。因此,集成學(xué)習(xí)的基礎(chǔ)理論、集成學(xué)習(xí)算法及應(yīng)用是近年來機(jī)器學(xué)習(xí)領(lǐng)域的研究重點(diǎn)和熱點(diǎn)。作為機(jī)器學(xué)習(xí)研究領(lǐng)域所要解決的兩大核心問題(分類問題和回歸問題)之一,回歸問題已經(jīng)被廣泛應(yīng)用于氣象、水文、醫(yī)學(xué)、金融、電力、交通等諸多領(lǐng)域。針對回歸問題,國內(nèi)外研究者已經(jīng)提出了許多學(xué)習(xí)算法,如人工神經(jīng)網(wǎng)絡(luò)、分類回歸樹、支持向量機(jī)回歸等等。集成學(xué)習(xí)在分類問題中已經(jīng)取得了豐碩的理論和應(yīng)用研究成果。然而,對于回歸問題,集成學(xué)習(xí)的研究起步相對較晚,研究成果相對于分類問題也要少很多。相關(guān)的理論和應(yīng)用研究還很不成熟,還存在大量尚未很好解決的技術(shù)問題。為此,本文圍繞集成學(xué)習(xí)在回歸問題中所要解決的算法框架、個體學(xué)習(xí)器生成、個體學(xué)習(xí)器的集成剪枝和結(jié)果組合、算法并行化等四個關(guān)鍵技術(shù)進(jìn)行了深入地分析和研究。最后,基于本文的研究成果,設(shè)計并實(shí)現(xiàn)了一個基于公共衛(wèi)生大數(shù)據(jù)的傳染病集成預(yù)測系統(tǒng)。概括起來,本文的主要研究內(nèi)容和創(chuàng)新性研究成果包括以下幾個方面:(1)提出了基于學(xué)習(xí)過程模型的集成回歸學(xué)習(xí)算法框架,基于本文提出的集成回歸學(xué)習(xí)算法框架,進(jìn)一步分析和討論了如何設(shè)計一個有效的集成回歸學(xué)習(xí)算法。以往集成回歸學(xué)習(xí)算法的設(shè)計過程多借鑒集成學(xué)習(xí)在分類問題中的兩階段設(shè)計過程,即集成生成和集成組合,尚不存在專門針對回歸問題的通用集成學(xué)習(xí)算法框架。針對這一問題,本文從學(xué)習(xí)的角度提出了基于學(xué)習(xí)過程模型的集成回歸學(xué)習(xí)算法框架,并分析了如何基于所提出的算法框架設(shè)計有效的集成回歸學(xué)習(xí)算法。(2)提出了基于多重擾動的異質(zhì)集成回歸學(xué)習(xí)算法,并從提高個體學(xué)習(xí)器的準(zhǔn)確度和個體學(xué)習(xí)器之間的差異度兩方面對算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。以往的集成學(xué)習(xí)算法大多采用單一擾動和同質(zhì)學(xué)習(xí)算法來構(gòu)建集成學(xué)習(xí)器,所生成的學(xué)習(xí)器在差異度方面很難得到保證。針對這一問題,本文提出了基于多重擾動的異質(zhì)集成回歸學(xué)習(xí)算法。在生成差異性個體學(xué)習(xí)器方面,算法同時從訓(xùn)練數(shù)據(jù)集、基學(xué)習(xí)算法、算法參數(shù)三個方面進(jìn)行擾動。在提高準(zhǔn)確度方面,算法通過同時減小偏差和方差來減小泛化誤差,同時使用重采樣后剩余的樣本作為驗(yàn)證數(shù)據(jù)集來避免學(xué)習(xí)器發(fā)生過擬合。該算法同時提高了個體學(xué)習(xí)器的準(zhǔn)確度和差異度,因此進(jìn)一步提升了集成學(xué)習(xí)器的整體泛化能力。(3)提出了基于后剪枝的自適應(yīng)動態(tài)加權(quán)集成算法,并用于解決動態(tài)環(huán)境下非平穩(wěn)時間序列數(shù)據(jù)的回歸問題,F(xiàn)實(shí)世界中的很多系統(tǒng)都具有一定的非平穩(wěn)性,動態(tài)適應(yīng)變化的樣本數(shù)據(jù)是集成學(xué)習(xí)所面臨的關(guān)鍵技術(shù)難題之一。以往基于靜態(tài)前剪枝和靜態(tài)集成組合的集成學(xué)習(xí)算法難以有效地處理非平穩(wěn)時間序列數(shù)據(jù)。針對這一問題,本文提出了基于后剪枝的自適應(yīng)動態(tài)加權(quán)集成算法。算法采用后剪枝的方式在新樣本數(shù)據(jù)的局域空間中選擇學(xué)習(xí)器子集,然后基于學(xué)習(xí)器子集在局域空間上的預(yù)測性能動態(tài)計算各學(xué)習(xí)器的組合權(quán)值。同時,引入極限學(xué)習(xí)機(jī)作為基學(xué)習(xí)算法來加速學(xué)習(xí)過程。本文基于該算法對非平穩(wěn)時間序列數(shù)據(jù)進(jìn)行了實(shí)驗(yàn)驗(yàn)證,取得了令人滿意的效果。(4)提出了集成回歸學(xué)習(xí)算法的并行化框架及MapReduce實(shí)現(xiàn),用于解決大規(guī)模數(shù)據(jù)集回歸學(xué)習(xí)時算法的并行性和可擴(kuò)展性問題。本文第二章提出的多重擾動異質(zhì)集成回歸學(xué)習(xí)算法是基于AdaBoost.RT算法的,其內(nèi)嵌的序列迭代式學(xué)習(xí)過程使其難以通過并行化來加速學(xué)習(xí)過程。針對這一問題,本文提出了集成回歸學(xué)習(xí)算法的并行化框架并基于MapReduce進(jìn)行了并行化實(shí)現(xiàn)。并行化算法不僅保持了原有算法在單機(jī)環(huán)境下的性能,還有效地利用集群環(huán)境來加速其學(xué)習(xí);谒鶎(shí)現(xiàn)的并行化集成學(xué)習(xí)算法解決大規(guī)模數(shù)據(jù)集的回歸問題,獲得了很好的泛化能力和可擴(kuò)展性。(5)設(shè)計并實(shí)現(xiàn)了基于公共衛(wèi)生大數(shù)據(jù)的傳染病集成預(yù)測系統(tǒng),解決了公共衛(wèi)生大數(shù)據(jù)的存儲管理、傳染病預(yù)測模型構(gòu)建及預(yù)測等問題。公共衛(wèi)生領(lǐng)域巨大的數(shù)據(jù)量、多樣的數(shù)據(jù)類型和結(jié)構(gòu),已經(jīng)無法靠單一預(yù)測模型來進(jìn)行有效的處理。針對這一問題,本文設(shè)計并實(shí)現(xiàn)了基于公共衛(wèi)生大數(shù)據(jù)的傳染病集成預(yù)測系統(tǒng)。在領(lǐng)域知識的指導(dǎo)下,通過分析公共衛(wèi)生領(lǐng)域海量數(shù)據(jù)的特征,設(shè)計并實(shí)現(xiàn)了高效的公共衛(wèi)生大數(shù)據(jù)存儲管理技術(shù)。在此基礎(chǔ)上,研究了多維數(shù)據(jù)下的傳染病預(yù)測模型,構(gòu)建了機(jī)器學(xué)習(xí)元算法庫和基于元算法庫的預(yù)測模型庫,實(shí)現(xiàn)對傳染病的短期定量預(yù)測。系通過上海地區(qū)近10年的腹瀉病例和氣象數(shù)據(jù)進(jìn)行示范應(yīng)用,驗(yàn)證了系統(tǒng)的有效性和實(shí)用性。
【關(guān)鍵詞】:集成學(xué)習(xí) 回歸問題 異質(zhì)集成 集成剪枝 傳染病預(yù)測
【學(xué)位授予單位】:華東師范大學(xué)
【學(xué)位級別】:博士
【學(xué)位授予年份】:2015
【分類號】:TP181
【目錄】:
- 摘要5-7
- ABSTRACT7-15
- 第一章 緒論15-34
- 1.1 研究背景15-17
- 1.2 研究綜述17-32
- 1.2.1 回歸問題概述17-20
- 1.2.2 集成學(xué)習(xí)產(chǎn)生的背景20-22
- 1.2.3 集成學(xué)習(xí)的理論依據(jù)、概念和思想22-24
- 1.2.4 集成學(xué)習(xí)框架24-27
- 1.2.5 其他集成學(xué)習(xí)框架27-30
- 1.2.6 集成學(xué)習(xí)應(yīng)用研究30-31
- 1.2.7 問題和不足31-32
- 1.3 研究內(nèi)容和結(jié)構(gòu)安排32-34
- 第二章 基于學(xué)習(xí)過程模型的集成回歸學(xué)習(xí)算法框架34-47
- 2.1 回歸問題定義34-36
- 2.2 集成學(xué)習(xí)解決回歸問題的途徑36-37
- 2.3 集成學(xué)習(xí)與個體學(xué)習(xí)的關(guān)系37-38
- 2.4 集成回歸學(xué)習(xí)38-40
- 2.4.1 個體學(xué)習(xí)器的構(gòu)建過程38
- 2.4.2 個體學(xué)習(xí)器之間的交互38-39
- 2.4.3 集成組合39
- 2.4.4 存在的問題39-40
- 2.5 集成回歸學(xué)習(xí)算法框架40-46
- 2.5.1 學(xué)習(xí)過程模型40-42
- 2.5.2 基于學(xué)習(xí)過程模型的集成回歸學(xué)習(xí)算法框架42-44
- 2.5.3 設(shè)計有效的集成回歸學(xué)習(xí)算法44-46
- 2.6 本章小結(jié)46-47
- 第三章 基于多重擾動的異質(zhì)集成回歸學(xué)習(xí)算法47-75
- 3.1 引言47-48
- 3.2 問題的提出48-49
- 3.3 相關(guān)理論與研究49-57
- 3.3.1 集成學(xué)習(xí)差異度49-53
- 3.3.2 經(jīng)典集成回歸學(xué)習(xí)算法53-55
- 3.3.3 相關(guān)研究55-57
- 3.4 AdaBoost.RT算法及其改進(jìn)57-60
- 3.5 基于多重擾動的異質(zhì)集成回歸學(xué)習(xí)算法60-66
- 3.5.1 問題定義60-62
- 3.5.2 算法思想62-64
- 3.5.3 算法描述64-65
- 3.5.4 基于多核學(xué)習(xí)的算法實(shí)現(xiàn)65-66
- 3.6 仿真實(shí)驗(yàn)與結(jié)果分析66-73
- 3.6.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集66-68
- 3.6.2 實(shí)驗(yàn)設(shè)置68
- 3.6.3 實(shí)驗(yàn)結(jié)果對比分析68-73
- 3.7 本章小結(jié)73-75
- 第四章 基于后剪枝的自適應(yīng)動態(tài)加權(quán)集成算法75-101
- 4.1 引言75-76
- 4.2 問題的提出76-77
- 4.3 相關(guān)理論與研究77-88
- 4.3.1 集成剪枝的必要性77-78
- 4.3.2 集成剪枝原理78-80
- 4.3.3 集成剪枝策略80-83
- 4.3.4 集成剪枝評價標(biāo)準(zhǔn)83-84
- 4.3.5 集成組合方法84-86
- 4.3.6 相關(guān)研究86-88
- 4.4 基于后剪枝的自適應(yīng)動態(tài)加權(quán)集成算法88-95
- 4.4.1 問題定義89
- 4.4.2 算法思想89-92
- 4.4.3 算法描述92-93
- 4.4.4 基于極限學(xué)習(xí)機(jī)的算法實(shí)現(xiàn)93-95
- 4.5 仿真實(shí)驗(yàn)和結(jié)果分析95-99
- 4.5.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集95-96
- 4.5.2 實(shí)驗(yàn)設(shè)置96-97
- 4.5.3 實(shí)驗(yàn)結(jié)果對比分析97-99
- 4.6 本章小結(jié)99-101
- 第五章 集成學(xué)習(xí)算法并行化及MapReduce實(shí)現(xiàn)101-113
- 5.1 引言101-102
- 5.2 問題的提出102
- 5.3 相關(guān)技術(shù)102-105
- 5.3.1 MapReduce并行計算技術(shù)102-104
- 5.3.2 并行化算法性能評估104-105
- 5.4 集成學(xué)習(xí)算法并行化105-108
- 5.4.1 集成學(xué)習(xí)算法并行化框架106-107
- 5.4.2 集成學(xué)習(xí)算法并行化實(shí)現(xiàn)107-108
- 5.5 仿真實(shí)驗(yàn)和結(jié)果分析108-112
- 5.5.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集109-110
- 5.5.2 實(shí)驗(yàn)設(shè)置110
- 5.5.3 實(shí)驗(yàn)結(jié)果對比分析110-112
- 5.6 本章小結(jié)112-113
- 第六章 基于公共衛(wèi)生大數(shù)據(jù)的傳染病集成預(yù)測系統(tǒng)113-128
- 6.1 引言113-115
- 6.2 系統(tǒng)架構(gòu)設(shè)計115-117
- 6.2.1 系統(tǒng)總體架構(gòu)115-116
- 6.2.2 系統(tǒng)架構(gòu)說明116-117
- 6.3 系統(tǒng)功能模塊設(shè)計117-121
- 6.3.1 公共衛(wèi)生大數(shù)據(jù)存儲管理117-120
- 6.3.2 機(jī)器學(xué)習(xí)元算法庫和預(yù)測模型庫120-121
- 6.4 系統(tǒng)功能實(shí)現(xiàn)121-122
- 6.5 示范應(yīng)用與結(jié)果分析122-126
- 6.5.1 應(yīng)用數(shù)據(jù)集122-124
- 6.5.2 應(yīng)用效果分析124-126
- 6.6 本章小結(jié)126-128
- 第七章 總結(jié)與展望128-131
- 7.1 工作總結(jié)128-129
- 7.2 未來工作展望129-131
- 參考文獻(xiàn)131-142
- 附錄一 攻讀博士期間發(fā)表的學(xué)術(shù)論文142-143
- 附錄二 攻讀博士期間參與的科研項(xiàng)目143-144
- 附錄三 攻讀博士期間申請的發(fā)明專利144-145
- 致謝145
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 袁漢寧;;雙層多示例集成學(xué)習(xí)[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2011年05期
2 俞揚(yáng);周志華;;集成學(xué)習(xí)中完全隨機(jī)學(xué)習(xí)策略研究[J];計算機(jī)工程;2006年17期
3 張滄生;崔麗娟;楊剛;倪志宏;;集成學(xué)習(xí)算法的比較研究[J];河北大學(xué)學(xué)報(自然科學(xué)版);2007年05期
4 陳凱;;基于聚類技術(shù)的集成學(xué)習(xí)差異性研究[J];南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報;2008年04期
5 李凱;崔麗娟;;集成學(xué)習(xí)算法的差異性及性能比較[J];計算機(jī)工程;2008年06期
6 潘志松;燕繼坤;;少數(shù)類的集成學(xué)習(xí)[J];南京航空航天大學(xué)學(xué)報;2009年04期
7 陳凱;馬景義;;一種選擇性SER-BagBoosting Trees集成學(xué)習(xí)研究[J];計算機(jī)科學(xué);2009年09期
8 陳全;趙文輝;李潔;江雨燕;;選擇性集成學(xué)習(xí)算法的研究[J];計算機(jī)技術(shù)與發(fā)展;2010年02期
9 張燕平;曹振田;趙姝;鄭堯軍;杜玲;竇蓉蓉;;一種新的決策樹選擇性集成學(xué)習(xí)方法[J];計算機(jī)工程與應(yīng)用;2010年17期
10 饒峰;;核機(jī)器集成學(xué)習(xí)算法的誤差分析[J];重慶文理學(xué)院學(xué)報(自然科學(xué)版);2010年04期
中國重要會議論文全文數(shù)據(jù)庫 前4條
1 關(guān)菁華;劉大有;賈海洋;;自適應(yīng)多分類器集成學(xué)習(xí)算法[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
2 劉伍穎;王挺;;一種多過濾器集成學(xué)習(xí)垃圾郵件過濾方法[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
3 葉紅云;倪志偉;陳恩紅;;一種混合型集成學(xué)習(xí)演化決策樹算法[A];2005年“數(shù)字安徽”博士科技論壇論文集[C];2005年
4 李燁;蔡云澤;許曉鳴;;基于支持向量機(jī)集成的故障診斷[A];第16屆中國過程控制學(xué)術(shù)年會暨第4屆全國故障診斷與安全性學(xué)術(shù)會議論文集[C];2005年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 阿里木·賽買提(Alim.Samat);基于集成學(xué)習(xí)的全極化SAR圖像分類研究[D];南京大學(xué);2015年
2 王永明;集成回歸問題若干關(guān)鍵技術(shù)研究[D];華東師范大學(xué);2015年
3 張春霞;集成學(xué)習(xí)中有關(guān)算法的研究[D];西安交通大學(xué);2010年
4 劉天羽;基于特征選擇技術(shù)的集成學(xué)習(xí)方法及其應(yīng)用研究[D];上海大學(xué);2007年
5 尹華;面向高維和不平衡數(shù)據(jù)分類的集成學(xué)習(xí)研究[D];武漢大學(xué);2012年
6 王清;集成學(xué)習(xí)中若干關(guān)鍵問題的研究[D];復(fù)旦大學(xué);2011年
7 方育柯;集成學(xué)習(xí)理論研究及其在個性化推薦中的應(yīng)用[D];電子科技大學(xué);2011年
8 侯勇;特征提取與集成學(xué)習(xí)算法的研究及應(yīng)用[D];北京科技大學(xué);2015年
9 李燁;基于支持向量機(jī)的集成學(xué)習(xí)研究[D];上海交通大學(xué);2007年
10 程麗麗;支持向量機(jī)集成學(xué)習(xí)算法研究[D];哈爾濱工程大學(xué);2009年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 高偉;基于半監(jiān)督集成學(xué)習(xí)的情感分類方法研究[D];蘇州大學(xué);2015年
2 宋文展;基于抽樣的集成進(jìn)化算法研究[D];廣西大學(xué);2015年
3 湯瑩;遷移與集成學(xué)習(xí)在文本分類中的應(yīng)用研究[D];江蘇科技大學(xué);2015年
4 劉政;基于知識元和集成學(xué)習(xí)的中文微博情感分析[D];大連理工大學(xué);2015年
5 丘橋云;結(jié)合文本傾向性分析的股評可信度計算研究[D];哈爾濱工業(yè)大學(xué);2014年
6 張妤;支持向量機(jī)集成學(xué)習(xí)方法研究[D];山西大學(xué);2008年
7 李濤;基于條件互信息的集成學(xué)習(xí)的研究與應(yīng)用[D];中國海洋大學(xué);2009年
8 楊長盛;基于成對差異性度量的選擇性集成學(xué)習(xí)方法研究[D];安徽大學(xué);2010年
9 曹振田;基于Q統(tǒng)計量的選擇性集成學(xué)習(xí)研究[D];安徽大學(xué);2010年
10 王麗麗;集成學(xué)習(xí)算法研究[D];廣西大學(xué);2006年
本文關(guān)鍵詞:集成回歸問題若干關(guān)鍵技術(shù)研究,由筆耕文化傳播整理發(fā)布。
,本文編號:405582
本文鏈接:http://www.sikaile.net/shoufeilunwen/xxkjbs/405582.html