乳腺癌相關(guān)基因的選擇與預(yù)后分析
發(fā)布時(shí)間:2021-01-21 04:17
乳腺癌作為全球女性發(fā)病率最高的癌癥給全球婦女的生活帶來(lái)了嚴(yán)重的影響。目前,早期篩查依舊是控制乳腺癌發(fā)展最有效的手段。由于缺乏準(zhǔn)確的生物標(biāo)志物,乳腺癌的早期診斷依然十分困難。因此,有必要探索參與乳腺癌發(fā)生和發(fā)展的分子機(jī)制,以發(fā)現(xiàn)更多新的候選基因來(lái)改善早期診斷和治療決策。本文通過(guò)對(duì)乳腺癌基因表達(dá)數(shù)據(jù)進(jìn)行分析,找到乳腺癌的相關(guān)基因,并從中篩選出與預(yù)后顯著相關(guān)的基因作為乳腺癌的生物標(biāo)志物;其次將這些基因作為一個(gè)整體,構(gòu)建預(yù)后模型;最后利用該模型對(duì)乳腺癌患者進(jìn)行預(yù)后評(píng)估,以提高對(duì)乳腺癌的預(yù)測(cè)質(zhì)量。本文的主要研究?jī)?nèi)容如下:(1)本文提出一種DO-UNIBIC相關(guān)基因選擇方法。針對(duì)疾病本體分析無(wú)法找出乳腺癌的潛在相關(guān)基因,不能有效利用基因表達(dá)數(shù)據(jù)的問(wèn)題,本文提出首先使用疾病本體分析從乳腺癌差異表達(dá)基因中篩選出乳腺癌的相關(guān)基因,然后利用UNIBIC算法從表達(dá)數(shù)據(jù)中基于最長(zhǎng)公共子序列找出所有變化趨勢(shì)一致的基因簇。經(jīng)過(guò)實(shí)驗(yàn)證明,兩種算法的結(jié)果中有交集的基因簇中存在著與乳腺癌相關(guān)以及潛在相關(guān)的基因,從而可以在乳腺癌的差異表達(dá)基因中篩選出更全面的乳腺癌相關(guān)基因作為預(yù)后分析的候選基因集。(2)本文構(gòu)建一個(gè)八基因...
【文章來(lái)源】:河南大學(xué)河南省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
TCGA官網(wǎng)界面
第2章基因表達(dá)數(shù)據(jù)與預(yù)后分析9條件下基因的表達(dá)是如何受影響的[34];虮磉_(dá)數(shù)據(jù)在醫(yī)學(xué)臨床診斷、藥物療效判斷、解釋疾病發(fā)生機(jī)制等方面有重要的應(yīng)用;虮磉_(dá)矩陣是用來(lái)描述基因表達(dá)數(shù)據(jù)的矩陣如表2-1所示。行代表基因,列代表樣本,其中表示基因i在樣本j下的表達(dá)水平。構(gòu)建基因表達(dá)矩陣的目的是要從中提取出潛在的生物學(xué)過(guò)程。表2-1基因表達(dá)矩陣樣本1…樣本j…樣本m基因111…1…1………………基因i1……………………基因n1……為了消除樣本取樣時(shí)間的差異對(duì)分析帶來(lái)的影響,本文從癌癥基因組圖譜(TCGA)數(shù)據(jù)庫(kù)中挑選了110對(duì)同時(shí)檢測(cè)癌區(qū)和癌旁正常組織的樣本下載基因表達(dá)數(shù)據(jù),這樣就排除了個(gè)體癌組織與正常組織取樣時(shí)間的差異[35]。TCGA通過(guò)樣本名(Barcode)來(lái)區(qū)分正常組織樣本和癌組織樣本,樣本名中第四個(gè)參數(shù)sample為01時(shí)代表的是癌組織樣本,sample為11時(shí)代表的是正常組織樣本,TCGA樣本名的詳細(xì)信息如圖2-2所示。圖2-2TCGA樣本命名規(guī)則圖2.4預(yù)后分析預(yù)后是指根據(jù)臨床和非臨床資料來(lái)推測(cè)在特定的時(shí)間內(nèi)出現(xiàn)某一結(jié)果(如死亡、并發(fā)癥、疾病復(fù)發(fā)或消退)的可能性或風(fēng)險(xiǎn)[36]。乳腺癌的預(yù)后在很多方面都很重要。首先,患者通過(guò)預(yù)后可以知道他們未來(lái)的疾病發(fā)展進(jìn)程。其次,預(yù)后對(duì)乳腺癌的治療至關(guān)重要。預(yù)后的結(jié)果越精確,患者就能得到更正確的治療。比如預(yù)后很差的患者可以考慮積極治
乳腺癌相關(guān)基因的選擇與預(yù)后分析14圖3-1過(guò)濾前和過(guò)濾后基因表達(dá)數(shù)據(jù)分布圖3.2差異表達(dá)分析由前文可知測(cè)序深度較大的樣本會(huì)產(chǎn)生較高的讀段計(jì)數(shù),因此對(duì)于基因的差異表達(dá)分析,很少直接使用原始計(jì)數(shù)數(shù)據(jù)來(lái)考慮基因的表達(dá)。通常的做法是將原始讀段計(jì)數(shù)數(shù)據(jù)進(jìn)行歸一化,來(lái)消除測(cè)序深度所導(dǎo)致的差異。歸一化是將每個(gè)樣本的表達(dá)量轉(zhuǎn)換到同一量綱下,把表達(dá)量映射到特定的區(qū)間內(nèi),使得不同樣本的表達(dá)量可以進(jìn)行大小比較。經(jīng)常使用的歸一化方法有基于序列的CPM(Countspermillion)、log-CPM(Log2-countspermillion)、FPKM(Fragmentsperkilobaseoftranscriptpermillion),和基于轉(zhuǎn)錄本數(shù)目的RPKM(Readsperkilobaseoftranscriptpermillion)。CPM的計(jì)算公式見式(3-1)。RPKM的計(jì)算公式如下:610inRPKMLN=(3-2)其中,in是比對(duì)到基因i的讀段數(shù);L是基因的外顯子長(zhǎng)度之和除以1000,N為比對(duì)到基因組上的總讀段數(shù)。FPKM和RPKM的計(jì)算方法非常相似,其中區(qū)別就在于FPKM應(yīng)用于雙端測(cè)序,RPKM應(yīng)用于單端測(cè)序。在RNA-Seq中,測(cè)序建庫(kù)時(shí)會(huì)把RNA打斷成小片段(Fragment),在每個(gè)片段的兩端加上接頭引物進(jìn)行測(cè)序。如果是單端測(cè)序,那
【參考文獻(xiàn)】:
期刊論文
[1]具有預(yù)后價(jià)值的乳腺癌發(fā)病關(guān)鍵基因鑒別研究[J]. 徐久成,李成長(zhǎng). 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[2]基于生物信息學(xué)分析的非小細(xì)胞肺癌診斷預(yù)后相關(guān)基因的篩選[J]. 楊燕霞,金蓮,王欣,張潔,柳小平. 生命科學(xué)研究. 2020(02)
[3]常用腫瘤基因分析方法及基于TCGA數(shù)據(jù)庫(kù)的分析應(yīng)用[J]. 李鑫,李夢(mèng)瑋,張依楠,徐寒梅. 遺傳. 2019(03)
[4]癌癥TCGA數(shù)據(jù)庫(kù)中乳腺癌預(yù)后數(shù)據(jù)的挖掘[J]. Mian Khizar Hayat,王銘裕,李碩磊. 生物學(xué)雜志. 2018(04)
[5]LASSO方法在Cox回歸模型中的應(yīng)用[J]. 閆麗娜,覃婷,王彤. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2012(01)
[6]新一代高通量RNA測(cè)序數(shù)據(jù)的處理與分析[J]. 王曦,汪小我,王立坤,馮智星,張學(xué)工. 生物化學(xué)與生物物理進(jìn)展. 2010(08)
博士論文
[1]基于生物信息學(xué)的非小細(xì)胞肺癌腫瘤標(biāo)志物篩選和預(yù)測(cè)模型構(gòu)建[D]. 史健翔.鄭州大學(xué) 2018
碩士論文
[1]通過(guò)生物信息學(xué)分析鑒定乳腺癌相關(guān)的異常甲基化差異表達(dá)基因及其功能[D]. 易麗蘭.南方醫(yī)科大學(xué) 2019
[2]基于比例風(fēng)險(xiǎn)模型的生存分析研究[D]. 路文馨.華南理工大學(xué) 2019
[3]雙聚類算法及其在基因表達(dá)數(shù)據(jù)分析中應(yīng)用研究[D]. 楊燴婷.吉林大學(xué) 2019
[4]乳腺腫瘤異質(zhì)性區(qū)域影像特征與全基因組表達(dá)模式以及預(yù)后的關(guān)聯(lián)性研究[D]. 劉斌.杭州電子科技大學(xué) 2019
[5]基于基因共表達(dá)網(wǎng)絡(luò)分析的三陰性乳腺癌預(yù)后相關(guān)基因與鉑應(yīng)答靶點(diǎn)關(guān)系的研究[D]. 黃鵬.中國(guó)醫(yī)科大學(xué) 2018
[6]應(yīng)用于基因表達(dá)數(shù)據(jù)的雙聚類算法的研究[D]. 劉楠楠.燕山大學(xué) 2011
本文編號(hào):2990442
【文章來(lái)源】:河南大學(xué)河南省
【文章頁(yè)數(shù)】:60 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
TCGA官網(wǎng)界面
第2章基因表達(dá)數(shù)據(jù)與預(yù)后分析9條件下基因的表達(dá)是如何受影響的[34];虮磉_(dá)數(shù)據(jù)在醫(yī)學(xué)臨床診斷、藥物療效判斷、解釋疾病發(fā)生機(jī)制等方面有重要的應(yīng)用;虮磉_(dá)矩陣是用來(lái)描述基因表達(dá)數(shù)據(jù)的矩陣如表2-1所示。行代表基因,列代表樣本,其中表示基因i在樣本j下的表達(dá)水平。構(gòu)建基因表達(dá)矩陣的目的是要從中提取出潛在的生物學(xué)過(guò)程。表2-1基因表達(dá)矩陣樣本1…樣本j…樣本m基因111…1…1………………基因i1……………………基因n1……為了消除樣本取樣時(shí)間的差異對(duì)分析帶來(lái)的影響,本文從癌癥基因組圖譜(TCGA)數(shù)據(jù)庫(kù)中挑選了110對(duì)同時(shí)檢測(cè)癌區(qū)和癌旁正常組織的樣本下載基因表達(dá)數(shù)據(jù),這樣就排除了個(gè)體癌組織與正常組織取樣時(shí)間的差異[35]。TCGA通過(guò)樣本名(Barcode)來(lái)區(qū)分正常組織樣本和癌組織樣本,樣本名中第四個(gè)參數(shù)sample為01時(shí)代表的是癌組織樣本,sample為11時(shí)代表的是正常組織樣本,TCGA樣本名的詳細(xì)信息如圖2-2所示。圖2-2TCGA樣本命名規(guī)則圖2.4預(yù)后分析預(yù)后是指根據(jù)臨床和非臨床資料來(lái)推測(cè)在特定的時(shí)間內(nèi)出現(xiàn)某一結(jié)果(如死亡、并發(fā)癥、疾病復(fù)發(fā)或消退)的可能性或風(fēng)險(xiǎn)[36]。乳腺癌的預(yù)后在很多方面都很重要。首先,患者通過(guò)預(yù)后可以知道他們未來(lái)的疾病發(fā)展進(jìn)程。其次,預(yù)后對(duì)乳腺癌的治療至關(guān)重要。預(yù)后的結(jié)果越精確,患者就能得到更正確的治療。比如預(yù)后很差的患者可以考慮積極治
乳腺癌相關(guān)基因的選擇與預(yù)后分析14圖3-1過(guò)濾前和過(guò)濾后基因表達(dá)數(shù)據(jù)分布圖3.2差異表達(dá)分析由前文可知測(cè)序深度較大的樣本會(huì)產(chǎn)生較高的讀段計(jì)數(shù),因此對(duì)于基因的差異表達(dá)分析,很少直接使用原始計(jì)數(shù)數(shù)據(jù)來(lái)考慮基因的表達(dá)。通常的做法是將原始讀段計(jì)數(shù)數(shù)據(jù)進(jìn)行歸一化,來(lái)消除測(cè)序深度所導(dǎo)致的差異。歸一化是將每個(gè)樣本的表達(dá)量轉(zhuǎn)換到同一量綱下,把表達(dá)量映射到特定的區(qū)間內(nèi),使得不同樣本的表達(dá)量可以進(jìn)行大小比較。經(jīng)常使用的歸一化方法有基于序列的CPM(Countspermillion)、log-CPM(Log2-countspermillion)、FPKM(Fragmentsperkilobaseoftranscriptpermillion),和基于轉(zhuǎn)錄本數(shù)目的RPKM(Readsperkilobaseoftranscriptpermillion)。CPM的計(jì)算公式見式(3-1)。RPKM的計(jì)算公式如下:610inRPKMLN=(3-2)其中,in是比對(duì)到基因i的讀段數(shù);L是基因的外顯子長(zhǎng)度之和除以1000,N為比對(duì)到基因組上的總讀段數(shù)。FPKM和RPKM的計(jì)算方法非常相似,其中區(qū)別就在于FPKM應(yīng)用于雙端測(cè)序,RPKM應(yīng)用于單端測(cè)序。在RNA-Seq中,測(cè)序建庫(kù)時(shí)會(huì)把RNA打斷成小片段(Fragment),在每個(gè)片段的兩端加上接頭引物進(jìn)行測(cè)序。如果是單端測(cè)序,那
【參考文獻(xiàn)】:
期刊論文
[1]具有預(yù)后價(jià)值的乳腺癌發(fā)病關(guān)鍵基因鑒別研究[J]. 徐久成,李成長(zhǎng). 河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版). 2020(02)
[2]基于生物信息學(xué)分析的非小細(xì)胞肺癌診斷預(yù)后相關(guān)基因的篩選[J]. 楊燕霞,金蓮,王欣,張潔,柳小平. 生命科學(xué)研究. 2020(02)
[3]常用腫瘤基因分析方法及基于TCGA數(shù)據(jù)庫(kù)的分析應(yīng)用[J]. 李鑫,李夢(mèng)瑋,張依楠,徐寒梅. 遺傳. 2019(03)
[4]癌癥TCGA數(shù)據(jù)庫(kù)中乳腺癌預(yù)后數(shù)據(jù)的挖掘[J]. Mian Khizar Hayat,王銘裕,李碩磊. 生物學(xué)雜志. 2018(04)
[5]LASSO方法在Cox回歸模型中的應(yīng)用[J]. 閆麗娜,覃婷,王彤. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2012(01)
[6]新一代高通量RNA測(cè)序數(shù)據(jù)的處理與分析[J]. 王曦,汪小我,王立坤,馮智星,張學(xué)工. 生物化學(xué)與生物物理進(jìn)展. 2010(08)
博士論文
[1]基于生物信息學(xué)的非小細(xì)胞肺癌腫瘤標(biāo)志物篩選和預(yù)測(cè)模型構(gòu)建[D]. 史健翔.鄭州大學(xué) 2018
碩士論文
[1]通過(guò)生物信息學(xué)分析鑒定乳腺癌相關(guān)的異常甲基化差異表達(dá)基因及其功能[D]. 易麗蘭.南方醫(yī)科大學(xué) 2019
[2]基于比例風(fēng)險(xiǎn)模型的生存分析研究[D]. 路文馨.華南理工大學(xué) 2019
[3]雙聚類算法及其在基因表達(dá)數(shù)據(jù)分析中應(yīng)用研究[D]. 楊燴婷.吉林大學(xué) 2019
[4]乳腺腫瘤異質(zhì)性區(qū)域影像特征與全基因組表達(dá)模式以及預(yù)后的關(guān)聯(lián)性研究[D]. 劉斌.杭州電子科技大學(xué) 2019
[5]基于基因共表達(dá)網(wǎng)絡(luò)分析的三陰性乳腺癌預(yù)后相關(guān)基因與鉑應(yīng)答靶點(diǎn)關(guān)系的研究[D]. 黃鵬.中國(guó)醫(yī)科大學(xué) 2018
[6]應(yīng)用于基因表達(dá)數(shù)據(jù)的雙聚類算法的研究[D]. 劉楠楠.燕山大學(xué) 2011
本文編號(hào):2990442
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/2990442.html
最近更新
教材專著