基通過混合特征選擇算法識別腫瘤功能基因模塊的框架
發(fā)布時間:2021-12-28 06:07
癌癥是一種高度異質(zhì)性的疾病,由不同細胞類型和組織的失調(diào)引起,本質(zhì)上是有組織細胞差異表達引起的疾病。然而,不同的癌癥可能有共同的發(fā)病機制。識別與癌癥的產(chǎn)生和發(fā)展有關(guān)的基因是至關(guān)重要的,并且對多種癌癥的聯(lián)合分析可能有助于發(fā)現(xiàn)不同癌癥之間的重疊發(fā)病機制。同時基因表達數(shù)據(jù)具有低樣本數(shù)量高維度的特點,傳統(tǒng)的特征選擇算法無法高效的處理這類數(shù)據(jù),但是癌癥通常只由幾個關(guān)鍵的基因突變導致,因此如何剔除數(shù)據(jù)集中的無關(guān)基因?qū)?shù)據(jù)集進行精確篩選很重要。本文提出了一種融合的特征選擇算法框架,可以歸屬于集成特征選擇算法,因為這種方法是兩種特征選擇算法疊加起來的。然后,我們使用該方法在臨床相關(guān)預測任務中識別強大和可靠的特征。對11種人類癌癥類型進行了聯(lián)合分析,以探索癌癥的關(guān)鍵特征基因。本文的主要研究工作重點如下所示:1.基于機器學習算法里集成學習的思想,本文提出了一種將過濾法和嵌入式特征選擇方法組合起來的特征選擇方法——FS-GBDT算法,這種方法分為兩步,首先使用過濾法對數(shù)據(jù)進行大規(guī)模的篩選,然后根據(jù)嵌入式特征選擇算法進行更精確的子集搜索。經(jīng)過實驗證明該方法高效,簡單,易于擴展。2.結(jié)合FSGBDT算法和隨機森林...
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【部分圖文】:
圖3.1在按降序?qū)ο鄳獢?shù)據(jù)集進行排序后的分數(shù)分數(shù)曲線(八)
圖3.2實驗流程示意圖??處理高維數(shù)據(jù)效率低下,導致分類精度較差t43]
?山東大學碩士學位論文???Hi???;??GSE2503?GSE3325?GSE2503?GSE3325??GSE5563?GSE10072?GSE5563?GSE10072??(a)?(b)??圖3.3?(a)利用歐氏距離對原始數(shù)據(jù)集的距離矩陣進行聚類得到的熱圖。(b)??利用31個基因進行特征選擇后得到的聚類距離矩陣熱圖,其中距離由歐氏距離??計算。??我們?yōu)橥话┌Y(胃癌)選擇不同的數(shù)據(jù)集來測試風險模塊。我們使用的數(shù)據(jù)??集是GSE13911和GSE54129。GSE13911來源于原發(fā)性胃腫瘤(MS丨和MSS)??和鄰近正常樣本的表達數(shù)據(jù)。從111例胃癌組織切片中獲得GSE54129,正常胃??粘膜來自21名接受胃鏡檢查的志愿者。我們使用GSE13911作為一個訓練集,??GSE54129作為一個測試集來驗證胃癌風險模塊的普遍性。我們使用四個分類器??來保證特征在分類性能上的穩(wěn)定性,分類結(jié)果見表3.4。我們可以看出在分類上??的表現(xiàn)是好的。ROC曲線如圖3.4所示。通過表3.4中四種不同的分類器,平均??分類精度達到85.6%,模型的泛化能力也達到了標準。??同時,我們進行了單獨的胃試驗(GSE54129),分為兩部分,25%用于試驗,??75%用于訓練。分類結(jié)果見表3.5,ROC曲線見圖3.5。可見,三種分類器的分??類準確率均達到100%,AUC值均高達1。所選擇的特征基因與癌癥有很強的相??關(guān)性。??表3.?4最終基因亞群的預測性能指標。??Algorithm?Acc?FI?score?PRE?REC??SVM?87.87% ̄ ̄92.45%?88.28%?
本文編號:3553553
【文章來源】:山東大學山東省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:43 頁
【學位級別】:碩士
【部分圖文】:
圖3.1在按降序?qū)ο鄳獢?shù)據(jù)集進行排序后的分數(shù)分數(shù)曲線(八)
圖3.2實驗流程示意圖??處理高維數(shù)據(jù)效率低下,導致分類精度較差t43]
?山東大學碩士學位論文???Hi???;??GSE2503?GSE3325?GSE2503?GSE3325??GSE5563?GSE10072?GSE5563?GSE10072??(a)?(b)??圖3.3?(a)利用歐氏距離對原始數(shù)據(jù)集的距離矩陣進行聚類得到的熱圖。(b)??利用31個基因進行特征選擇后得到的聚類距離矩陣熱圖,其中距離由歐氏距離??計算。??我們?yōu)橥话┌Y(胃癌)選擇不同的數(shù)據(jù)集來測試風險模塊。我們使用的數(shù)據(jù)??集是GSE13911和GSE54129。GSE13911來源于原發(fā)性胃腫瘤(MS丨和MSS)??和鄰近正常樣本的表達數(shù)據(jù)。從111例胃癌組織切片中獲得GSE54129,正常胃??粘膜來自21名接受胃鏡檢查的志愿者。我們使用GSE13911作為一個訓練集,??GSE54129作為一個測試集來驗證胃癌風險模塊的普遍性。我們使用四個分類器??來保證特征在分類性能上的穩(wěn)定性,分類結(jié)果見表3.4。我們可以看出在分類上??的表現(xiàn)是好的。ROC曲線如圖3.4所示。通過表3.4中四種不同的分類器,平均??分類精度達到85.6%,模型的泛化能力也達到了標準。??同時,我們進行了單獨的胃試驗(GSE54129),分為兩部分,25%用于試驗,??75%用于訓練。分類結(jié)果見表3.5,ROC曲線見圖3.5。可見,三種分類器的分??類準確率均達到100%,AUC值均高達1。所選擇的特征基因與癌癥有很強的相??關(guān)性。??表3.?4最終基因亞群的預測性能指標。??Algorithm?Acc?FI?score?PRE?REC??SVM?87.87% ̄ ̄92.45%?88.28%?
本文編號:3553553
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3553553.html
最近更新
教材專著