基于機器學習的高分辨率海洋水溫模型研究
發(fā)布時間:2021-11-19 15:34
機器學習作為一門涉及眾多數(shù)學和計算機學科的經(jīng)典交叉學科,其理論與方法已經(jīng)被工程界和科學界廣泛應用于復雜的工程或領域問題。在經(jīng)過大半個世紀的曲折發(fā)展后,以深度學習、集成學習、貝葉斯學習、支持向量機等為代表的機器學習算法的自適應、自學習式的信息分析處理機制,在醫(yī)學、農學、軍事學,尤其是計算機視覺和自然語言處理等領域都獲得了突破性進展。海洋科學方向是機器學習方法研究與應用的一個新興方向,而物理海洋學是該方向研究的一個分支。隨著各國對海洋研究的大量投入以及海洋物理觀測工具和手段的不斷提升,海洋中越來越多的物理信息正在被我們所掌握,因此基于數(shù)據(jù)驅動型的研究方法開始廣泛流行于物理海洋學研究之中。如何有效利用觀測到的現(xiàn)有海洋物理信息去預測未觀測點的信息,是海洋科學和計算機信息處理研究人員有待解決的難題之一。本文將介紹利用層次聚類、隨機森林、變分自編碼器等機器學習方法,深入研究海洋溫度的空間分布規(guī)律,力求通過機器學習方法提高現(xiàn)有海洋水溫數(shù)據(jù)的空間分辨率,為進一步的海洋溫躍層研究提供數(shù)據(jù)支撐。本文的主要研究內容為:(1)針對現(xiàn)有海洋水溫模型低分辨率問題,提出了一種基于層次聚類和隨機森林的高分辨率海洋水溫...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
Bagging算法流程圖[61]
第2章隨機森林和深度學習理論基礎11圖2.1Bagging算法流程圖[61]Boosting算法是一種用來提高弱學習器準確度的算法,它通過迭代使用弱學習器的結果并將其加入到一個最終的學習器中,產(chǎn)生性能遠高于弱學習器的強學習器。這里的弱學習器是指準確度只略高于隨機猜測的學習器,強學習器指準確度非常接近100%的的學習器。Boosting系列算法的研究意義在于實際應用中弱學習器相較于強學習器而言更容易獲得。該算法除第一個弱學習器外,之后的每一個弱學習器都需要對前一個學習器中未被正確預測的樣本進行學習,即將主分類器無法正確進行分類的對象傳遞給輔助分類器,這能有效提高模型的準確性,但同時也導致模型的方差增大。為了降低弱學習器之間的相關性帶來的模型方差高問題,可以采樣隨機采樣的方法進行采樣。圖2.2展示了Boosting算法的算法流程圖。算法迭代地運行一個弱學習器來訓練未被上一個弱學習器正確分類的數(shù)據(jù)和原始采樣數(shù)據(jù)得到的訓練集,然后將迭代產(chǎn)生的弱學習器按照一定的組合策略組成一個強學習器。圖2.2Boosting算法流程圖[61]
第2章隨機森林和深度學習理論基礎12Stacking也稱StackedGeneralization,它是最小化一個或多個基學習器泛化誤差的解決方案[62]。Ting等解決了Stacking在分類任務中的兩個關鍵性問題:適用于推導出不需要知道基學習器性能這一先驗知識的更高級模型的一般化類型;模型應該使用什么樣的屬性類型作為輸入[63]。Sigletos等分析了投票法和Stacking方法的有效性,結果表明投票法在大多數(shù)領域都是有效的,Stacking在所有領域都被證明是有效的,甚至有時候做得比投票法更好[64]。圖2.3是Stacking算法的流程圖。該算法首先在原始訓練集上通過一定的采樣方法得到若干個訓練子集,然后對這若干個訓練子集使用不同的基學習器算法進行訓練,這樣就得到了若干個基學習器,最后將這些基學習器的輸出用來訓練,得到最終的輸出結果。圖2.3Stacking算法流程圖[61]2.基學習器的組合策略集成方法的有效性在很大程度上取決于基礎學習者的準確性、多樣性和學習特征[65][66]。基學習器的組合策略作為建立集成學習系統(tǒng)的最后一步,常見的方法有投票法和平均法是兩種。投票法通常包含兩種簡單投票法和一種加權投票法。簡單投票法又包括絕對多數(shù)投票法和相對多數(shù)投票。在絕對多數(shù)投票法中,若存在某一類別所獲得的票數(shù)超過基學習器數(shù)量的一半,則該類為模型的最終輸出結果,否則模型拒絕給出預測結果。在相對多數(shù)投票中,則將獲得票數(shù)最多的類別作為模型的最終預測結果,若多個類別獲得相同的票數(shù)且票數(shù)并列第一,則隨機選擇其中一個類別作為模型的預測結果。加權投票法[67]根據(jù)基學習器的誤差,為每一個基學習器的結果設定一個權重,權值的大小與基學習器的誤差成反比,則M個基學習器的加權投票法用公式可以表示為:
【參考文獻】:
期刊論文
[1]監(jiān)督學習中的損失函數(shù)及應用研究[J]. 鄧建國,張素蘭,張繼福,荀亞玲,劉愛琴. 大數(shù)據(jù). 2020(01)
[2]隨機森林算法研究綜述[J]. 呂紅燕,馮倩. 河北省科學院學報. 2019(03)
[3]一種基于聚類約簡決策樹的改進隨機森林算法[J]. 王誠,王凱. 南京郵電大學學報(自然科學版). 2019(03)
[4]聚類算法綜述[J]. 章永來,周耀鑒. 計算機應用. 2019(07)
[5]一種非平衡數(shù)據(jù)分類的過采樣隨機森林算法[J]. 趙錦陽,盧會國,蔣娟萍,袁培培,柳學麗. 計算機應用與軟件. 2019(04)
[6]集成學習方法:研究綜述[J]. 徐繼偉,楊云. 云南大學學報(自然科學版). 2018(06)
[7]一種處理非平衡數(shù)據(jù)集的優(yōu)化隨機森林分類方法[J]. 馬海榮,程新文. 微電子學與計算機. 2018(11)
[8]激活函數(shù)在卷積神經(jīng)網(wǎng)絡中的對比研究[J]. 田娟,李英祥,李彤巖. 計算機系統(tǒng)應用. 2018(07)
[9]深度學習相關研究綜述[J]. 張軍陽,王慧麗,郭陽,扈嘯. 計算機應用研究. 2018(07)
[10]深度學習發(fā)展綜述[J]. 侯宇青陽,全吉成,王宏偉. 艦船電子工程. 2017(04)
博士論文
[1]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟貿易大學 2014
碩士論文
[1]菲律賓海域夏季水文特征及其水團分析[D]. 劉超.西安電子科技大學 2019
[2]基于變分自編碼器生成模型的圖像加密[D]. 劉京京.河南師范大學 2018
[3]基于高斯混合模型的變分自動編碼器[D]. 李鵬.哈爾濱工業(yè)大學 2017
[4]隨機森林算法處理不平衡數(shù)據(jù)的改進及其并行化[D]. 鐘龍申.廣東工業(yè)大學 2016
本文編號:3505337
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
Bagging算法流程圖[61]
第2章隨機森林和深度學習理論基礎11圖2.1Bagging算法流程圖[61]Boosting算法是一種用來提高弱學習器準確度的算法,它通過迭代使用弱學習器的結果并將其加入到一個最終的學習器中,產(chǎn)生性能遠高于弱學習器的強學習器。這里的弱學習器是指準確度只略高于隨機猜測的學習器,強學習器指準確度非常接近100%的的學習器。Boosting系列算法的研究意義在于實際應用中弱學習器相較于強學習器而言更容易獲得。該算法除第一個弱學習器外,之后的每一個弱學習器都需要對前一個學習器中未被正確預測的樣本進行學習,即將主分類器無法正確進行分類的對象傳遞給輔助分類器,這能有效提高模型的準確性,但同時也導致模型的方差增大。為了降低弱學習器之間的相關性帶來的模型方差高問題,可以采樣隨機采樣的方法進行采樣。圖2.2展示了Boosting算法的算法流程圖。算法迭代地運行一個弱學習器來訓練未被上一個弱學習器正確分類的數(shù)據(jù)和原始采樣數(shù)據(jù)得到的訓練集,然后將迭代產(chǎn)生的弱學習器按照一定的組合策略組成一個強學習器。圖2.2Boosting算法流程圖[61]
第2章隨機森林和深度學習理論基礎12Stacking也稱StackedGeneralization,它是最小化一個或多個基學習器泛化誤差的解決方案[62]。Ting等解決了Stacking在分類任務中的兩個關鍵性問題:適用于推導出不需要知道基學習器性能這一先驗知識的更高級模型的一般化類型;模型應該使用什么樣的屬性類型作為輸入[63]。Sigletos等分析了投票法和Stacking方法的有效性,結果表明投票法在大多數(shù)領域都是有效的,Stacking在所有領域都被證明是有效的,甚至有時候做得比投票法更好[64]。圖2.3是Stacking算法的流程圖。該算法首先在原始訓練集上通過一定的采樣方法得到若干個訓練子集,然后對這若干個訓練子集使用不同的基學習器算法進行訓練,這樣就得到了若干個基學習器,最后將這些基學習器的輸出用來訓練,得到最終的輸出結果。圖2.3Stacking算法流程圖[61]2.基學習器的組合策略集成方法的有效性在很大程度上取決于基礎學習者的準確性、多樣性和學習特征[65][66]。基學習器的組合策略作為建立集成學習系統(tǒng)的最后一步,常見的方法有投票法和平均法是兩種。投票法通常包含兩種簡單投票法和一種加權投票法。簡單投票法又包括絕對多數(shù)投票法和相對多數(shù)投票。在絕對多數(shù)投票法中,若存在某一類別所獲得的票數(shù)超過基學習器數(shù)量的一半,則該類為模型的最終輸出結果,否則模型拒絕給出預測結果。在相對多數(shù)投票中,則將獲得票數(shù)最多的類別作為模型的最終預測結果,若多個類別獲得相同的票數(shù)且票數(shù)并列第一,則隨機選擇其中一個類別作為模型的預測結果。加權投票法[67]根據(jù)基學習器的誤差,為每一個基學習器的結果設定一個權重,權值的大小與基學習器的誤差成反比,則M個基學習器的加權投票法用公式可以表示為:
【參考文獻】:
期刊論文
[1]監(jiān)督學習中的損失函數(shù)及應用研究[J]. 鄧建國,張素蘭,張繼福,荀亞玲,劉愛琴. 大數(shù)據(jù). 2020(01)
[2]隨機森林算法研究綜述[J]. 呂紅燕,馮倩. 河北省科學院學報. 2019(03)
[3]一種基于聚類約簡決策樹的改進隨機森林算法[J]. 王誠,王凱. 南京郵電大學學報(自然科學版). 2019(03)
[4]聚類算法綜述[J]. 章永來,周耀鑒. 計算機應用. 2019(07)
[5]一種非平衡數(shù)據(jù)分類的過采樣隨機森林算法[J]. 趙錦陽,盧會國,蔣娟萍,袁培培,柳學麗. 計算機應用與軟件. 2019(04)
[6]集成學習方法:研究綜述[J]. 徐繼偉,楊云. 云南大學學報(自然科學版). 2018(06)
[7]一種處理非平衡數(shù)據(jù)集的優(yōu)化隨機森林分類方法[J]. 馬海榮,程新文. 微電子學與計算機. 2018(11)
[8]激活函數(shù)在卷積神經(jīng)網(wǎng)絡中的對比研究[J]. 田娟,李英祥,李彤巖. 計算機系統(tǒng)應用. 2018(07)
[9]深度學習相關研究綜述[J]. 張軍陽,王慧麗,郭陽,扈嘯. 計算機應用研究. 2018(07)
[10]深度學習發(fā)展綜述[J]. 侯宇青陽,全吉成,王宏偉. 艦船電子工程. 2017(04)
博士論文
[1]隨機森林算法優(yōu)化研究[D]. 曹正鳳.首都經(jīng)濟貿易大學 2014
碩士論文
[1]菲律賓海域夏季水文特征及其水團分析[D]. 劉超.西安電子科技大學 2019
[2]基于變分自編碼器生成模型的圖像加密[D]. 劉京京.河南師范大學 2018
[3]基于高斯混合模型的變分自動編碼器[D]. 李鵬.哈爾濱工業(yè)大學 2017
[4]隨機森林算法處理不平衡數(shù)據(jù)的改進及其并行化[D]. 鐘龍申.廣東工業(yè)大學 2016
本文編號:3505337
本文鏈接:http://www.sikaile.net/shoufeilunwen/benkebiyelunwen/3505337.html
最近更新
教材專著