基于決策樹(shù)算法的癌癥合成致死基因組合的預(yù)測(cè)及預(yù)后分析
發(fā)布時(shí)間:2021-11-24 23:17
癌癥治療一直都是世界性難題。近年來(lái),合成致死(Synthetic lethality)已經(jīng)成為一種抗癌藥物研發(fā)的新思路,針對(duì)兩個(gè)存在相互作用的基因進(jìn)行靶向治療,可有效克服耐藥性問(wèn)題。目前,合成致死療法所面臨的關(guān)鍵問(wèn)題是在特定癌癥類(lèi)型中獲得一批可靠的具合成致死效應(yīng)的基因,為基于合成致死策略尋找關(guān)鍵基因的可能治療靶點(diǎn)提供數(shù)據(jù)參考。由于實(shí)驗(yàn)驗(yàn)證成本較高、耗時(shí)長(zhǎng)且難以大批量開(kāi)展,利用生物信息學(xué)手段預(yù)測(cè)可靠的合成致死基因組合已成為了一種重要方法。因此,本文基于已知合成致死基因組合的相關(guān)分子特征,通過(guò)機(jī)器學(xué)習(xí)算法預(yù)測(cè)了不同癌癥中的合成致死基因組合,并針對(duì)相關(guān)數(shù)據(jù)進(jìn)行了分析,同時(shí)構(gòu)建了數(shù)據(jù)庫(kù)。首先,基于TCGA數(shù)據(jù)庫(kù)(The Cancer Genome Atlas)中33種癌癥的測(cè)序數(shù)據(jù),從基因突變、m RNA表達(dá)、甲基化及拷貝數(shù)變異(Copy number variation,CNV)四個(gè)分子水平展開(kāi)分析,提取特征并利用決策樹(shù)模型進(jìn)行合成致死基因組合的預(yù)測(cè);然后,基于預(yù)測(cè)結(jié)果進(jìn)行分析,以了解具合成致死效應(yīng)基因的可能生物學(xué)功能及在癌癥預(yù)后中的價(jià)值等;最后,為了共享合成致死基因組合的預(yù)測(cè)結(jié)果,本文搭建...
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:119 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
合成致死效應(yīng)示意圖(概念參考:O"Neil等[4])
南京郵電大學(xué)碩士研究生學(xué)位論文第一章緒論7存分析的可視化分析功能,為全世界的相關(guān)科研人員提供了一個(gè)具有在線分析功能的數(shù)據(jù)參考平臺(tái)。圖1.2本文主要研究?jī)?nèi)容1.4.2本文結(jié)構(gòu)安排本文共有六個(gè)章節(jié),具體章節(jié)安排如下:第一章:緒論。本章主要介紹了合成致死的概念及在癌癥治療中的優(yōu)勢(shì)、國(guó)內(nèi)外相關(guān)領(lǐng)域的發(fā)展及應(yīng)用情況,以及本文的研究目標(biāo),并對(duì)本文主要工作進(jìn)行了概述。第二章:多組學(xué)數(shù)據(jù)分析預(yù)測(cè)與相關(guān)原理。本章節(jié)主要介紹了多分子水平數(shù)據(jù)分析與機(jī)器學(xué)習(xí)模型的相關(guān)理論知識(shí)、近年來(lái)國(guó)內(nèi)外已經(jīng)公開(kāi)的預(yù)測(cè)合成致死基因組合的常用方法和數(shù)據(jù)庫(kù)原理,并對(duì)預(yù)測(cè)合成致死基因組合的難點(diǎn)進(jìn)行了分析。第三章:基于多組學(xué)數(shù)據(jù)利用決策樹(shù)模型預(yù)測(cè)合成致死基因組合。本章節(jié)主要介紹了基于多組學(xué)數(shù)據(jù)集成分析預(yù)測(cè)合成致死基因組合的方法,并重點(diǎn)介紹了數(shù)據(jù)預(yù)處理方法、特征參數(shù)選娶模型訓(xùn)練和優(yōu)化以及模型準(zhǔn)確度的驗(yàn)證。第四章:基于合成致死基因組合的預(yù)后及功能分析。本章節(jié)主要介紹了基于合成致死基因組合的預(yù)測(cè)結(jié)果進(jìn)行預(yù)后分析及功能分析等,主要圍繞互作網(wǎng)絡(luò)、生存、功能及藥物敏感性等展開(kāi)分析,以了解具合成致死效應(yīng)基因在癌癥發(fā)生發(fā)展中的可能作用。
南京郵電大學(xué)碩士研究生學(xué)位論文第二章多組學(xué)數(shù)據(jù)分析預(yù)測(cè)及相關(guān)原理10圖2.1TCGA樣本編號(hào)示例2.2.2針對(duì)不同分子水平測(cè)序數(shù)據(jù)的處理在mRNA表達(dá)數(shù)據(jù)的處理中,測(cè)序數(shù)據(jù)中的表達(dá)量通常使用RPKM/FPKM表示,其中TCGA數(shù)據(jù)庫(kù)[50]中使用RPKM。通常研究人員們較為關(guān)注的是表達(dá)差異這一指標(biāo),即癌癥樣本與對(duì)照樣本之間的表達(dá)差異,通常使用倍數(shù)變化(Foldchange,F(xiàn)C)、p值和錯(cuò)誤發(fā)現(xiàn)率(Falsediscoveryrate,F(xiàn)DR)值來(lái)描述表達(dá)的差異性。目前,有多種分析工具及R包可以對(duì)表達(dá)差異進(jìn)行分析。較常見(jiàn)的有EdgeR[52]、limma等。NCBI(TheNationalCenterforBiotechnologyInformation)中的GEO(GeneExpressionOmnibus)數(shù)據(jù)庫(kù)[53]也有在線分析工具可供使用。甲基化是發(fā)生在DNA分子水平的重要生物學(xué)過(guò)程,甲基化程度作為該分子水平的一個(gè)重要指標(biāo),通常由Bate-Value值來(lái)描述,Bate-Value值為一個(gè)大小在0-1之間的值,其中1表示完全甲基化,0表示不發(fā)生甲基化[54]?截悢(shù)變異(Copynumbervariation,CNV)是發(fā)生在基因中的較為重要的變化之一,其狀態(tài)通常由擴(kuò)增、缺失和無(wú)變化來(lái)描述。TCGA數(shù)據(jù)庫(kù)[50]的原始數(shù)據(jù)采用了5個(gè)離散的變量,包括-2、-1、0、1和2,來(lái)描述拷貝數(shù)變異的狀態(tài),分別表示純合性缺失、半合性缺失、無(wú)變化、擴(kuò)增和高水平擴(kuò)增[54]。針對(duì)拷貝數(shù)變異的研究通常采用變化程度或發(fā)生擴(kuò)增/缺失的比例作為指標(biāo)。2.2.3線性模型與決策樹(shù)模型基礎(chǔ)理論知識(shí)(1)線性模型線性模型(Linearmodel)是機(jī)器學(xué)習(xí)的一種常見(jiàn)模型[55],其以形式簡(jiǎn)單、易于建模等特點(diǎn)被廣泛應(yīng)用。線性模型通過(guò)學(xué)習(xí)一個(gè)帶有屬性的線性組合來(lái)得到預(yù)測(cè)函數(shù):()=11+22+++(2.1)
【參考文獻(xiàn)】:
期刊論文
[1]PARP抑制劑在子宮內(nèi)膜癌治療中的研究進(jìn)展[J]. 曾靖,尹如鐵. 實(shí)用婦產(chǎn)科雜志. 2020(01)
[2]基于合成致死策略尋找ARID1A突變肝細(xì)胞癌的治療靶點(diǎn)[J]. 王光興,石毅,王小晟,張躍,韓澤廣,何昆燕. 基因組學(xué)與應(yīng)用生物學(xué). 2019(07)
[3]PARP抑制劑治療晚期乳腺癌的作用機(jī)制及相關(guān)研究進(jìn)展[J]. 吳靜,曾曉華. 中國(guó)腫瘤臨床. 2019(11)
博士論文
[1]基于多模態(tài)數(shù)據(jù)融合的乳腺癌生存期預(yù)測(cè)研究[D]. 孫冬冬.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[2]基于納米膠束的Micelleplex輸送小干擾RNA用于癌癥治療[D]. 毛成瓊.中國(guó)科學(xué)技術(shù)大學(xué) 2013
[3]應(yīng)用合成致死原理篩選胰腺癌對(duì)化療藥物反應(yīng)的關(guān)鍵基因[D]. 馮韻霖.北京協(xié)和醫(yī)學(xué)院 2009
碩士論文
[1]釀酒酵母AFR1過(guò)量表達(dá)與MPK1及MIH1缺失導(dǎo)致的合成致死[D]. 樊純.天津大學(xué) 2009
本文編號(hào):3516943
【文章來(lái)源】:南京郵電大學(xué)江蘇省
【文章頁(yè)數(shù)】:119 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
合成致死效應(yīng)示意圖(概念參考:O"Neil等[4])
南京郵電大學(xué)碩士研究生學(xué)位論文第一章緒論7存分析的可視化分析功能,為全世界的相關(guān)科研人員提供了一個(gè)具有在線分析功能的數(shù)據(jù)參考平臺(tái)。圖1.2本文主要研究?jī)?nèi)容1.4.2本文結(jié)構(gòu)安排本文共有六個(gè)章節(jié),具體章節(jié)安排如下:第一章:緒論。本章主要介紹了合成致死的概念及在癌癥治療中的優(yōu)勢(shì)、國(guó)內(nèi)外相關(guān)領(lǐng)域的發(fā)展及應(yīng)用情況,以及本文的研究目標(biāo),并對(duì)本文主要工作進(jìn)行了概述。第二章:多組學(xué)數(shù)據(jù)分析預(yù)測(cè)與相關(guān)原理。本章節(jié)主要介紹了多分子水平數(shù)據(jù)分析與機(jī)器學(xué)習(xí)模型的相關(guān)理論知識(shí)、近年來(lái)國(guó)內(nèi)外已經(jīng)公開(kāi)的預(yù)測(cè)合成致死基因組合的常用方法和數(shù)據(jù)庫(kù)原理,并對(duì)預(yù)測(cè)合成致死基因組合的難點(diǎn)進(jìn)行了分析。第三章:基于多組學(xué)數(shù)據(jù)利用決策樹(shù)模型預(yù)測(cè)合成致死基因組合。本章節(jié)主要介紹了基于多組學(xué)數(shù)據(jù)集成分析預(yù)測(cè)合成致死基因組合的方法,并重點(diǎn)介紹了數(shù)據(jù)預(yù)處理方法、特征參數(shù)選娶模型訓(xùn)練和優(yōu)化以及模型準(zhǔn)確度的驗(yàn)證。第四章:基于合成致死基因組合的預(yù)后及功能分析。本章節(jié)主要介紹了基于合成致死基因組合的預(yù)測(cè)結(jié)果進(jìn)行預(yù)后分析及功能分析等,主要圍繞互作網(wǎng)絡(luò)、生存、功能及藥物敏感性等展開(kāi)分析,以了解具合成致死效應(yīng)基因在癌癥發(fā)生發(fā)展中的可能作用。
南京郵電大學(xué)碩士研究生學(xué)位論文第二章多組學(xué)數(shù)據(jù)分析預(yù)測(cè)及相關(guān)原理10圖2.1TCGA樣本編號(hào)示例2.2.2針對(duì)不同分子水平測(cè)序數(shù)據(jù)的處理在mRNA表達(dá)數(shù)據(jù)的處理中,測(cè)序數(shù)據(jù)中的表達(dá)量通常使用RPKM/FPKM表示,其中TCGA數(shù)據(jù)庫(kù)[50]中使用RPKM。通常研究人員們較為關(guān)注的是表達(dá)差異這一指標(biāo),即癌癥樣本與對(duì)照樣本之間的表達(dá)差異,通常使用倍數(shù)變化(Foldchange,F(xiàn)C)、p值和錯(cuò)誤發(fā)現(xiàn)率(Falsediscoveryrate,F(xiàn)DR)值來(lái)描述表達(dá)的差異性。目前,有多種分析工具及R包可以對(duì)表達(dá)差異進(jìn)行分析。較常見(jiàn)的有EdgeR[52]、limma等。NCBI(TheNationalCenterforBiotechnologyInformation)中的GEO(GeneExpressionOmnibus)數(shù)據(jù)庫(kù)[53]也有在線分析工具可供使用。甲基化是發(fā)生在DNA分子水平的重要生物學(xué)過(guò)程,甲基化程度作為該分子水平的一個(gè)重要指標(biāo),通常由Bate-Value值來(lái)描述,Bate-Value值為一個(gè)大小在0-1之間的值,其中1表示完全甲基化,0表示不發(fā)生甲基化[54]?截悢(shù)變異(Copynumbervariation,CNV)是發(fā)生在基因中的較為重要的變化之一,其狀態(tài)通常由擴(kuò)增、缺失和無(wú)變化來(lái)描述。TCGA數(shù)據(jù)庫(kù)[50]的原始數(shù)據(jù)采用了5個(gè)離散的變量,包括-2、-1、0、1和2,來(lái)描述拷貝數(shù)變異的狀態(tài),分別表示純合性缺失、半合性缺失、無(wú)變化、擴(kuò)增和高水平擴(kuò)增[54]。針對(duì)拷貝數(shù)變異的研究通常采用變化程度或發(fā)生擴(kuò)增/缺失的比例作為指標(biāo)。2.2.3線性模型與決策樹(shù)模型基礎(chǔ)理論知識(shí)(1)線性模型線性模型(Linearmodel)是機(jī)器學(xué)習(xí)的一種常見(jiàn)模型[55],其以形式簡(jiǎn)單、易于建模等特點(diǎn)被廣泛應(yīng)用。線性模型通過(guò)學(xué)習(xí)一個(gè)帶有屬性的線性組合來(lái)得到預(yù)測(cè)函數(shù):()=11+22+++(2.1)
【參考文獻(xiàn)】:
期刊論文
[1]PARP抑制劑在子宮內(nèi)膜癌治療中的研究進(jìn)展[J]. 曾靖,尹如鐵. 實(shí)用婦產(chǎn)科雜志. 2020(01)
[2]基于合成致死策略尋找ARID1A突變肝細(xì)胞癌的治療靶點(diǎn)[J]. 王光興,石毅,王小晟,張躍,韓澤廣,何昆燕. 基因組學(xué)與應(yīng)用生物學(xué). 2019(07)
[3]PARP抑制劑治療晚期乳腺癌的作用機(jī)制及相關(guān)研究進(jìn)展[J]. 吳靜,曾曉華. 中國(guó)腫瘤臨床. 2019(11)
博士論文
[1]基于多模態(tài)數(shù)據(jù)融合的乳腺癌生存期預(yù)測(cè)研究[D]. 孫冬冬.中國(guó)科學(xué)技術(shù)大學(xué) 2018
[2]基于納米膠束的Micelleplex輸送小干擾RNA用于癌癥治療[D]. 毛成瓊.中國(guó)科學(xué)技術(shù)大學(xué) 2013
[3]應(yīng)用合成致死原理篩選胰腺癌對(duì)化療藥物反應(yīng)的關(guān)鍵基因[D]. 馮韻霖.北京協(xié)和醫(yī)學(xué)院 2009
碩士論文
[1]釀酒酵母AFR1過(guò)量表達(dá)與MPK1及MIH1缺失導(dǎo)致的合成致死[D]. 樊純.天津大學(xué) 2009
本文編號(hào):3516943
本文鏈接:http://www.sikaile.net/guanlilunwen/lindaojc/3516943.html
最近更新
教材專(zhuān)著