單細胞DNA測序數據的基因型和SNP檢測
發(fā)布時間:2020-10-20 16:28
單核苷酸多態(tài)性主要是指在基因組水平上由單個核苷酸的變異引起的DNA序列多態(tài)性,在人類可遺傳的變異中扮演了重要的角色。傳統的高通量測序技術是同時對多個細胞進行測序,該測序技術忽略了細胞與細胞之間的異質性,最終的測序結果反映的是多個細胞的平均值。隨著單細胞測序技術的引入,檢測單個細胞內部的單核苷酸變異成為可能,然而由于單細胞測序數據中的噪音以及低覆蓋率等因素,使得精確地識別基因型和單核苷酸多態(tài)性仍具有挑戰(zhàn)性;诖,本文主要以單細胞測序數據為研究對象,建立了基因型和單核苷酸多態(tài)性的檢測模型。首先,本文詳細地介紹了單核苷酸多態(tài)性的分析流程。該分析流程由數據預處理、基因型和單核苷酸多態(tài)性識別兩個大模塊組成。單核苷酸多態(tài)性檢測的精確度與測序誤差有著密切的聯系,此誤差是由于測序過程中需要對單細胞測序數據進行擴增而引入的。為了提高單核苷酸多態(tài)性檢測的精確度,還需要對測序數據進行質控。然后,本文對單細胞測序數據的測序誤差進行了分析,并基于單細胞測序數據的特性,提出了基因型和單核苷酸多態(tài)性的檢測模型。該模型使用了高斯分布對測序誤差進行建模,同時在該模型中引入堿基被測錯的概率和短序列比對錯誤的概率,并使用動態(tài)規(guī)劃方法對模型求解。綜上所述,本文的主要創(chuàng)新點在:1)整個分析流程中誤差來源于兩點,即堿基被測錯的概率和短序列比對錯誤的概率,常見的方法中只考慮了堿基被測錯的概率,本文將這兩種錯誤率同時融入模型之中;2)對單細胞測序數據的測序誤差進行了分析,并基于此提出識別基因型和單核苷酸多態(tài)性的模型。為了驗證本文方法檢測效果,本文首先基于組織測序數據構建了驗證數據集,然后以該驗證數據集作為標準檢測結果,將本文方法和其他方法對檢測到的真實單核苷酸變異數、準確度、轉換變異偏向性進行比較。結果表明,在不同質量分數的情況下,本文方法檢測到的真實單核苷酸變異數和準確度相對于其他方法有一定的提升,且轉換變異偏向性略微地變好。實驗研究表明,本文方法能夠檢測出更多發(fā)生變異的核苷酸位點,有著一定的研究成效。
【學位單位】:華南理工大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
SNP的示意圖
給定參考基因r和變異基因a的三種可能基因型
圖 2-4 pair-end 測序示意圖示的是一個 PE 測序的過程,其中灰色條狀部分表示箭頭分別表示是被測出來的Read1和Read2序列,它的方向是相反的,它們之間的距離是這個 DNA 的長
【參考文獻】
本文編號:2848901
【學位單位】:華南理工大學
【學位級別】:碩士
【學位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
SNP的示意圖
給定參考基因r和變異基因a的三種可能基因型
圖 2-4 pair-end 測序示意圖示的是一個 PE 測序的過程,其中灰色條狀部分表示箭頭分別表示是被測出來的Read1和Read2序列,它的方向是相反的,它們之間的距離是這個 DNA 的長
【參考文獻】
相關期刊論文 前5條
1 李婉;馬榮;;單核苷酸多態(tài)性在惡性腫瘤精準醫(yī)學研究中的意義[J];腫瘤學雜志;2017年02期
2 朱忠旭;陳新;;單細胞測序技術及應用進展[J];基因組學與應用生物學;2015年05期
3 梁愛斌;梁智宇;汪俊幫;;單細胞測序技術及其在腫瘤研究中的應用[J];內科理論與實踐;2015年01期
4 董燕;宋程程;黃鶴;;單細胞測序技術研究進展[J];化學工業(yè)與工程;2015年01期
5 康靜婷;梁前進;;單核苷酸多態(tài)性的研究及其生物學意義[J];生物學通報;2012年03期
本文編號:2848901
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/2848901.html
最近更新
教材專著