基于基因表達小樣本數(shù)據(jù)的級聯(lián)森林分類模型
發(fā)布時間:2021-06-05 22:08
針對分類模型在處理基因表達小樣本高維度數(shù)據(jù)集上存在的分類準確性不足、過擬合、計算復雜度大等問題,提出一種改進模型Two Boosting Deep Forest(TBDForest)。在多描部分采用均等式特征利用方法對原始特征進行變換;在分類過程中考慮到模型所集成的每個森林的擬合質(zhì)量,將上層最重要的部分判別特征輸入到下一級聯(lián)層,在層間改善類分布問題;對原級聯(lián)層采用子層級聯(lián)的結(jié)構(gòu),增加樣本訓練機會,減少訓練開銷,避免模型對參數(shù)的依賴。通過在五種疾病基因表達小樣本數(shù)據(jù)集上的驗證結(jié)果表明,改進的模型增強分類算法在小樣本數(shù)據(jù)集的分類性能上達到了更好的分類效果。
【文章來源】:計算機應用與軟件. 2020,37(11)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
深度森林模型的多粒度掃描模塊
級聯(lián)森林部分是一個通過加入新特征來對原始特征進行擴展的結(jié)構(gòu),由多個級聯(lián)層組成,每個級聯(lián)層包括兩個隨機森林和兩個完全隨機森林,如圖2所示。原始特征經(jīng)過每個級聯(lián)層后的輸出與原特征組合成擴展后的特征作為下一個級聯(lián)層的輸入[6]。該模型在一級結(jié)束后做一個分類性能的測試,然后繼續(xù)生成下一級,當擴展一個新的級聯(lián)層后,將整個模型的性能在驗證集中進行測試,若沒有顯著的分類性能增益,訓練過程終止[11],級聯(lián)層數(shù)就確定了。級聯(lián)結(jié)構(gòu)增加了模型的深度而不引入額外的參數(shù),通過評估每層的性能自適應地確定級聯(lián)層的數(shù)量,因此超參數(shù)較少,而且超參數(shù)設定具有很好的魯棒性。2 小樣本數(shù)據(jù)集分類模型的改進
原始深度森林模型中級聯(lián)部分包含的隨機森林和完全隨機森林都是決策樹的集合,均是由隨機選擇一個特征在決策樹的各節(jié)點來分割,樹不斷生長,每個決策樹輸出一個類向量,最后隨機森林組合所有決策樹的投票結(jié)果后取平均值,得到森林整體的分類結(jié)果。本文的級聯(lián)網(wǎng)絡中各層使用兩個隨機森林和兩個完全隨機森林,兩種森林均由500個決策樹以及完全隨機決策樹構(gòu)成。每個決策樹決策過程[12]如圖3所示,假定有三個類,n個決策樹,每個決策樹將確定一個三維類向量,然后取n個三維類向量的平均值,最后得到最大值對應的類別作為決策樹最終的分類結(jié)果。隨機森林中的子樹是在整體特征中隨機選取的部分特征,因此這些決策樹彼此不同,并且各隨機森林也有各自的多樣性。那么,選取合適的判別特征來構(gòu)建決策樹的分裂點非常重要。然而在原始模型的級聯(lián)層中,每個森林對最終預測結(jié)果的貢獻是相同的,在學習過程中未考慮各自的擬合質(zhì)量,忽略了一些重要特征,因此可能導致在小規(guī)模數(shù)據(jù)集中的模型整體性能對森林數(shù)量較為敏感。本文改進時考慮到隨機森林在作特征選擇時,能夠隱含地提供分類過程中的特征相對重要性排序列表,從而新模型基于級聯(lián)森林模塊進行如下的改進:
【參考文獻】:
期刊論文
[1]一種加權的深度森林算法[J]. 宮振華,王嘉寧,蘇翀. 計算機應用與軟件. 2019(02)
[2]基于改進深度森林算法的軟件缺陷預測[J]. 薛參觀,燕雪峰. 計算機科學. 2018(08)
[3]改進SMOTE的非平衡數(shù)據(jù)集分類算法研究[J]. 趙清華,張藝豪,馬建芬,段倩倩. 計算機工程與應用. 2018(18)
[4]改進SVM-KNN的不平衡數(shù)據(jù)分類[J]. 王超學,張濤,馬春森. 計算機工程與應用. 2016(04)
博士論文
[1]面向醫(yī)學數(shù)據(jù)的隨機森林特征選擇及分類方法研究[D]. 姚登舉.哈爾濱工程大學 2016
碩士論文
[1]基于Lasso-PCA及改進自適應遺傳神經(jīng)網(wǎng)絡的電力負荷預測研究[D]. 張航飛.燕山大學 2018
[2]隨機森林分類算法的改進及其應用研究[D]. 懷聽聽.中國計量大學 2016
本文編號:3213009
【文章來源】:計算機應用與軟件. 2020,37(11)北大核心
【文章頁數(shù)】:7 頁
【部分圖文】:
深度森林模型的多粒度掃描模塊
級聯(lián)森林部分是一個通過加入新特征來對原始特征進行擴展的結(jié)構(gòu),由多個級聯(lián)層組成,每個級聯(lián)層包括兩個隨機森林和兩個完全隨機森林,如圖2所示。原始特征經(jīng)過每個級聯(lián)層后的輸出與原特征組合成擴展后的特征作為下一個級聯(lián)層的輸入[6]。該模型在一級結(jié)束后做一個分類性能的測試,然后繼續(xù)生成下一級,當擴展一個新的級聯(lián)層后,將整個模型的性能在驗證集中進行測試,若沒有顯著的分類性能增益,訓練過程終止[11],級聯(lián)層數(shù)就確定了。級聯(lián)結(jié)構(gòu)增加了模型的深度而不引入額外的參數(shù),通過評估每層的性能自適應地確定級聯(lián)層的數(shù)量,因此超參數(shù)較少,而且超參數(shù)設定具有很好的魯棒性。2 小樣本數(shù)據(jù)集分類模型的改進
原始深度森林模型中級聯(lián)部分包含的隨機森林和完全隨機森林都是決策樹的集合,均是由隨機選擇一個特征在決策樹的各節(jié)點來分割,樹不斷生長,每個決策樹輸出一個類向量,最后隨機森林組合所有決策樹的投票結(jié)果后取平均值,得到森林整體的分類結(jié)果。本文的級聯(lián)網(wǎng)絡中各層使用兩個隨機森林和兩個完全隨機森林,兩種森林均由500個決策樹以及完全隨機決策樹構(gòu)成。每個決策樹決策過程[12]如圖3所示,假定有三個類,n個決策樹,每個決策樹將確定一個三維類向量,然后取n個三維類向量的平均值,最后得到最大值對應的類別作為決策樹最終的分類結(jié)果。隨機森林中的子樹是在整體特征中隨機選取的部分特征,因此這些決策樹彼此不同,并且各隨機森林也有各自的多樣性。那么,選取合適的判別特征來構(gòu)建決策樹的分裂點非常重要。然而在原始模型的級聯(lián)層中,每個森林對最終預測結(jié)果的貢獻是相同的,在學習過程中未考慮各自的擬合質(zhì)量,忽略了一些重要特征,因此可能導致在小規(guī)模數(shù)據(jù)集中的模型整體性能對森林數(shù)量較為敏感。本文改進時考慮到隨機森林在作特征選擇時,能夠隱含地提供分類過程中的特征相對重要性排序列表,從而新模型基于級聯(lián)森林模塊進行如下的改進:
【參考文獻】:
期刊論文
[1]一種加權的深度森林算法[J]. 宮振華,王嘉寧,蘇翀. 計算機應用與軟件. 2019(02)
[2]基于改進深度森林算法的軟件缺陷預測[J]. 薛參觀,燕雪峰. 計算機科學. 2018(08)
[3]改進SMOTE的非平衡數(shù)據(jù)集分類算法研究[J]. 趙清華,張藝豪,馬建芬,段倩倩. 計算機工程與應用. 2018(18)
[4]改進SVM-KNN的不平衡數(shù)據(jù)分類[J]. 王超學,張濤,馬春森. 計算機工程與應用. 2016(04)
博士論文
[1]面向醫(yī)學數(shù)據(jù)的隨機森林特征選擇及分類方法研究[D]. 姚登舉.哈爾濱工程大學 2016
碩士論文
[1]基于Lasso-PCA及改進自適應遺傳神經(jīng)網(wǎng)絡的電力負荷預測研究[D]. 張航飛.燕山大學 2018
[2]隨機森林分類算法的改進及其應用研究[D]. 懷聽聽.中國計量大學 2016
本文編號:3213009
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/3213009.html
最近更新
教材專著