機(jī)器學(xué)習(xí)構(gòu)建多基因模型預(yù)測前列腺癌
發(fā)布時間:2021-12-30 17:31
目的基于基因表達(dá)數(shù)據(jù),通過機(jī)器學(xué)習(xí)的方法構(gòu)建模型鑒別前列腺癌。方法下載前列腺癌和前列腺正常組織的RNA測序數(shù)據(jù),進(jìn)行數(shù)據(jù)過濾并分析差異表達(dá)基因,選擇關(guān)鍵基因、建立模型并驗證模型效能。驗證決策樹、隨機(jī)森林、KNN近鄰、邏輯回歸和支持向量機(jī)這5個模型在默認(rèn)參數(shù)下的性能并選取具有較高檢驗效能的模型進(jìn)行優(yōu)化。結(jié)果在5個模型中隨機(jī)森林的檢驗效能最高,決策樹次之。優(yōu)化之后的隨機(jī)森林模型鑒別前列腺癌的準(zhǔn)確度為94%,受試者工作(ROC)曲線下面積為0.94。結(jié)論通過基因表達(dá)數(shù)據(jù)構(gòu)建機(jī)器學(xué)習(xí)模型能夠較好地預(yù)測前列腺癌。
【文章來源】:現(xiàn)代泌尿外科雜志. 2020,25(07)
【文章頁數(shù)】:5 頁
【部分圖文】:
隨機(jī)森林和決策樹的優(yōu)化和驗證
鑒于隨機(jī)森林和決策樹模型的檢驗效能,對其進(jìn)行進(jìn)一步優(yōu)化有可能達(dá)到最佳的效果。我們首先探究了決策樹的深度對決策樹的影響和隨機(jī)森林中子分類器個數(shù)對隨機(jī)森林的影響。從圖3A中可以看出,當(dāng)樹的深度在16時決策樹模型的準(zhǔn)確度最高。此時模型識別前列腺癌的準(zhǔn)確度為0.941 4,比默認(rèn)模型上升了0.1個百分點左右。當(dāng)子評估器的個數(shù)取值為21的時候,隨機(jī)森林模型的分類效果最高,此時的準(zhǔn)確度為0.948,相比默認(rèn)參數(shù)上升了0.07個百分點(圖3B)。我們重新計算了優(yōu)化之后的決策樹和隨機(jī)森林的受試者工作曲線(receiver operating characteristic,ROC),如圖3C、E所示。決策樹的ROC曲線下面積為0.925 3,隨機(jī)森林的ROC曲線下面積為0.945 1,兩者的學(xué)習(xí)曲線如圖3D、F所示,訓(xùn)練集和驗證集的評分較為接近,可見模型的訓(xùn)練達(dá)到了較好的效果。圖2 特征基因的選取和重要性排序
特征基因的選取和重要性排序
【參考文獻(xiàn)】:
期刊論文
[1]前列腺特異性抗原新參數(shù)在早期前列腺癌篩查中的作用[J]. 張志昱,張江磊,臧晉,歐陽駿. 現(xiàn)代泌尿外科雜志. 2019(10)
[2]2000-2014年中國腫瘤登記地區(qū)前列腺癌發(fā)病趨勢及年齡變化分析[J]. 顧秀瑛,鄭榮壽,張思維,曾紅梅,孫可欣,鄒小農(nóng),夏昌發(fā),楊之洵,李賀,陳萬青,赫捷. 中華預(yù)防醫(yī)學(xué)雜志. 2018 (06)
[3]前列腺特異抗原及其相關(guān)參數(shù)在前列腺癌診斷中的意義[J]. 李方龍,劉健,邱建宏,趙新鴻,張世睿,高江平. 現(xiàn)代泌尿外科雜志. 2017(07)
本文編號:3558666
【文章來源】:現(xiàn)代泌尿外科雜志. 2020,25(07)
【文章頁數(shù)】:5 頁
【部分圖文】:
隨機(jī)森林和決策樹的優(yōu)化和驗證
鑒于隨機(jī)森林和決策樹模型的檢驗效能,對其進(jìn)行進(jìn)一步優(yōu)化有可能達(dá)到最佳的效果。我們首先探究了決策樹的深度對決策樹的影響和隨機(jī)森林中子分類器個數(shù)對隨機(jī)森林的影響。從圖3A中可以看出,當(dāng)樹的深度在16時決策樹模型的準(zhǔn)確度最高。此時模型識別前列腺癌的準(zhǔn)確度為0.941 4,比默認(rèn)模型上升了0.1個百分點左右。當(dāng)子評估器的個數(shù)取值為21的時候,隨機(jī)森林模型的分類效果最高,此時的準(zhǔn)確度為0.948,相比默認(rèn)參數(shù)上升了0.07個百分點(圖3B)。我們重新計算了優(yōu)化之后的決策樹和隨機(jī)森林的受試者工作曲線(receiver operating characteristic,ROC),如圖3C、E所示。決策樹的ROC曲線下面積為0.925 3,隨機(jī)森林的ROC曲線下面積為0.945 1,兩者的學(xué)習(xí)曲線如圖3D、F所示,訓(xùn)練集和驗證集的評分較為接近,可見模型的訓(xùn)練達(dá)到了較好的效果。圖2 特征基因的選取和重要性排序
特征基因的選取和重要性排序
【參考文獻(xiàn)】:
期刊論文
[1]前列腺特異性抗原新參數(shù)在早期前列腺癌篩查中的作用[J]. 張志昱,張江磊,臧晉,歐陽駿. 現(xiàn)代泌尿外科雜志. 2019(10)
[2]2000-2014年中國腫瘤登記地區(qū)前列腺癌發(fā)病趨勢及年齡變化分析[J]. 顧秀瑛,鄭榮壽,張思維,曾紅梅,孫可欣,鄒小農(nóng),夏昌發(fā),楊之洵,李賀,陳萬青,赫捷. 中華預(yù)防醫(yī)學(xué)雜志. 2018 (06)
[3]前列腺特異抗原及其相關(guān)參數(shù)在前列腺癌診斷中的意義[J]. 李方龍,劉健,邱建宏,趙新鴻,張世睿,高江平. 現(xiàn)代泌尿外科雜志. 2017(07)
本文編號:3558666
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/3558666.html
最近更新
教材專著