基于SNP arrays和NGS數(shù)據(jù)的腫瘤異質(zhì)性建模分析方法
發(fā)布時間:2017-10-02 12:13
本文關鍵詞:基于SNP arrays和NGS數(shù)據(jù)的腫瘤異質(zhì)性建模分析方法
更多相關文章: 腫瘤異質(zhì)性 拷貝數(shù)變異 單核苷酸多態(tài)性微陣列 下一代測序 隱馬爾科夫模型 循環(huán)二進制分割
【摘要】:隨著腫瘤研究的深入,人們逐漸認識到個體腫瘤存在一種典型的性質(zhì)——異質(zhì)性。腫瘤異質(zhì)性是指同一腫瘤組織中存在不同類型的亞克隆細胞,它們在分化程度、侵襲轉(zhuǎn)移能力以及對藥物的反應等諸多方面存在差異。當前,高通量、大規(guī)模的測序技術使得從基因組水平上揭示腫瘤的本質(zhì)成為可能。如何對測序所產(chǎn)生的海量數(shù)據(jù)進行有效地建模分析,是腫瘤基因組學亟待解決的問題。由于腫瘤樣品的純度問題、亞克隆細胞基因組復雜的變異方式以及高通量測序信號本身的噪聲特性,構建合適的異質(zhì)性腫瘤數(shù)據(jù)的統(tǒng)計模型依然具有挑戰(zhàn)性。 在這一背景下,本文提出了兩種異質(zhì)性腫瘤統(tǒng)計分析方法,分別以單核苷酸多態(tài)性微陣列(SNP arrays)和下一代測序(NGS)數(shù)據(jù)為基礎,圍繞亞克隆細胞的識別以及腫瘤基因拷貝數(shù)變異的鑒定進行了深入分析和研究。主要內(nèi)容安排如下: 1)詳細地介紹了SNP arrays技術提供的兩個基因信號Log R ratio (LRR)和Ballele frequency (BAF)對應不同的拷貝數(shù)變異時的信號值的變化。分析了一些實際腫瘤樣品中的非理想因素,包括正常細胞污染、腫瘤細胞非整倍性、GC含量對基因信號帶來的偏移,重點討論從基因信號的二維分布圖中怎樣發(fā)現(xiàn)腫瘤異質(zhì)性。 2)借助正常成對基因組數(shù)據(jù)和已注解的SNP位點將NGS技術的全基因組讀數(shù)信息經(jīng)過提取和轉(zhuǎn)換,得到和SNP arrays技術具有類似意義的LRR和BAF信號,同時也提出兩個平臺上信號在分布、信噪比及數(shù)據(jù)量上存在差異。 3)提出了異質(zhì)性腫瘤SNP arrays數(shù)據(jù)的分析方法(CHASE)。該算法采用隱馬爾科夫模型(HMM)建立可觀察的基因信號和對應隱藏的基因型之間的關系,同時考慮了多種非理想因素。該方法的創(chuàng)新點在于建立了兩種腫瘤亞克隆同時存在的情況,采用了牛頓迭代算法來估測亞克隆細胞的比例。對于多組模擬腫瘤數(shù)據(jù)集和兩個真實的乳腺癌數(shù)據(jù)的分析結果顯示,該方法對檢測異質(zhì)性腫瘤中亞克隆細胞的比例以及克隆變異和亞克隆變異都具有較高的準確性。 4)提出了針對正常-腫瘤成對NGS數(shù)據(jù)的異質(zhì)性和基因型檢測方法(SAPPH)。該方法采用增強的循環(huán)二進制分割算法(CBS)將基因組分成基因片段,通過過濾出高可靠性基因片段、聚類局部腫瘤基因比例和貝葉斯信息準則(BIC)模型選擇的策略,有效地避免了信號截斷的影響、降低了分析的時間復雜度。模擬實驗表明該算法可以有效地檢測出樣品中多種亞克隆細胞比例和基因組拷貝數(shù)變異。 本文的研究對異質(zhì)性腫瘤SNP arrays和NGS數(shù)據(jù)的分析提供了有效的生物信息學工具,并對尋找癌癥驅(qū)動基因、研究癌癥基因組的演化歷史和個性化治療帶來了很大幫助。
【關鍵詞】:腫瘤異質(zhì)性 拷貝數(shù)變異 單核苷酸多態(tài)性微陣列 下一代測序 隱馬爾科夫模型 循環(huán)二進制分割
【學位授予單位】:中國科學技術大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:R73-3
【目錄】:
- 摘要5-7
- ABSTRACT7-11
- 第一章 緒論11-21
- 1.1 研究背景及意義11-12
- 1.2 腫瘤異質(zhì)性的形成原因及特征12-15
- 1.3 拷貝數(shù)變異15-16
- 1.4 基因測序平臺和現(xiàn)有研究方法16-18
- 1.5 本文的研究內(nèi)容18-21
- 第二章 SNP arrays和NGS基因信號21-27
- 2.1 SNP及SNP arrays技術21-22
- 2.2 LRR與BAF22-25
- 2.3 NGS技術及信號25-26
- 2.4 小結26-27
- 第三章 基于SNP arrays數(shù)據(jù)的腫瘤異質(zhì)性及拷貝數(shù)變異檢測27-43
- 3.1 HMM簡介27-28
- 3.2 CHASE模型的設計及實現(xiàn)28-35
- 3.2.1 基因信號建模28-29
- 3.2.2 異質(zhì)性腫瘤樣品的HMM29-31
- 3.2.3 SNP arrays信號的參數(shù)估計算法31-35
- 3.3 模擬數(shù)據(jù)的產(chǎn)生35
- 3.4 模擬數(shù)據(jù)的檢測結果35-40
- 3.4.1 正常細胞、腫瘤亞克隆細胞比例及平均拷貝數(shù)的估計36-37
- 3.4.2 對腫瘤細胞拷貝數(shù)變異的檢測37-39
- 3.4.3 一致性分析39-40
- 3.5 真實乳腺癌數(shù)據(jù)分析40-42
- 3.5.1 BLC_B1_T45乳腺癌數(shù)據(jù)40-41
- 3.5.2 CRL-2324乳腺癌數(shù)據(jù)分析41-42
- 3.6 小結42-43
- 第四章 基于成對NGS數(shù)據(jù)的腫瘤亞克隆比例及基因變異檢測43-53
- 4.1 介紹43-44
- 4.2 SAPHH方法流程44-47
- 4.2.1 CBS 分段44-45
- 4.2.2 確定LRR基線45
- 4.2.3 高可信度基因片段的檢測45-47
- 4.2.4 全基因組信號分析及模型選擇47
- 4.3 模擬數(shù)據(jù)的產(chǎn)生47-48
- 4.4 結果與討論48-50
- 4.4.1 腫瘤亞克隆變異基因型的檢測結果48-49
- 4.4.2 估計腫瘤亞克隆基因變異和比例的性能49-50
- 4.5 小結50-53
- 第五章 總結與展望53-57
- 5.1 工作總結53-54
- 5.2 未來工作展望54-57
- 參考文獻57-62
- 致謝62-63
- 在讀期間發(fā)表的學術論文與取得的研究成果63
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 陳誠;楊軍;董堅;;單細胞測序技術在腫瘤基礎研究中的應用[J];重慶醫(yī)學;2014年32期
2 劉巖;譚曉潔;蘇彤;杜琰;侯建國;曹廣文;;腎細胞癌進化發(fā)育中的關鍵分子事件[J];第二軍醫(yī)大學學報;2014年12期
3 羅少堂;胡利平;聶勝潔;柳海濤;史斌;李安;羅瑛;唐文如;;SNPs在個體識別與表型預測中的研究進展[J];中國法醫(yī)學雜志;2014年06期
4 張o,
本文編號:959534
本文鏈接:http://www.sikaile.net/yixuelunwen/zlx/959534.html
最近更新
教材專著