基于機(jī)器學(xué)習(xí)的染色體拷貝數(shù)變異致病性預(yù)測工具
發(fā)布時間:2023-01-12 20:44
隨著基因組高通量測序技術(shù)的發(fā)展,人們對人類基因組變異的檢測與分析能力取得了長足的進(jìn)步。然而,由于目前的染色體拷貝數(shù)變異檢測工具的檢測準(zhǔn)確度不足,同時也由于拷貝數(shù)變異自身在基因組上的復(fù)雜性和不確定性,對胚系拷貝數(shù)變異的致病性的預(yù)測仍然是一個難題。盡管之前已經(jīng)有研究者嘗試解決這個問題,但仍然沒有工具能夠定量地對胚系拷貝數(shù)變異的致病性進(jìn)行預(yù)測與注釋。為了解決上面的問題,我們開發(fā)了一個基于機(jī)器學(xué)習(xí)算法的胚系拷貝數(shù)變異致病性預(yù)測工具。為了充分地考慮與拷貝數(shù)變異相關(guān)的生物學(xué)特征,我們在構(gòu)建致病性模型的過程中,從多角度收集和挖掘相關(guān)的胚系拷貝數(shù)變異特征數(shù)據(jù),包括編碼區(qū)功能注釋信息、非編碼區(qū)功能注釋信息、基因組保守性區(qū)域數(shù)據(jù)、單核苷酸多態(tài)性注釋數(shù)據(jù)和大量的相關(guān)實(shí)驗(yàn)數(shù)據(jù)。對于每一個特征,我們根據(jù)其生物學(xué)意義采用相應(yīng)的特征構(gòu)建方法,對眾多不同層面的特征數(shù)據(jù)進(jìn)行向量化和標(biāo)準(zhǔn)化。除此之外,我們從The Database of Genomic Variants(DGV)和1000 Genomes Project(1000G)中收集到了大量的不同人種健康人群的拷貝數(shù)變異數(shù)據(jù),并通過數(shù)據(jù)清洗和整合,計(jì)算出不同人種參...
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【文章目錄】:
內(nèi)容摘要
ABSTRACT
1 引言
1.1 人類基因組拷貝數(shù)變異簡介
1.1.1 基因組拷貝數(shù)變異含義
1.1.2 基因組拷貝數(shù)變異在臨床上的研究現(xiàn)狀
1.2 拷貝數(shù)變異相關(guān)軟件及研究進(jìn)展
1.2.1 拷貝數(shù)變異相關(guān)注釋軟件
1.2.2 SNP與Indel相關(guān)注釋軟件
1.3 本文涉及的拷貝數(shù)變異數(shù)據(jù)庫
1.3.0 DGV
1.3.1 ClinVar
1.3.2 DECIPHER
1.4 預(yù)測拷貝數(shù)變異致病性的重要性與挑戰(zhàn)
1.4.1 預(yù)測拷貝數(shù)變異致病性的重要性
1.4.2 預(yù)測拷貝數(shù)變異致病性面臨的關(guān)鍵問題和挑戰(zhàn)
1.5 本文的研究內(nèi)容
2 實(shí)驗(yàn)材料與方法
2.1 CNV數(shù)據(jù)收集
2.1.1 健康人群的CNV數(shù)據(jù)收集
2.1.2 有致病性信息的CNV訓(xùn)練數(shù)據(jù)收集
2.2 模型特征數(shù)據(jù)收集
2.2.1 拷貝數(shù)變異頻率等基本基因組注釋特征
2.2.2 基因組編碼區(qū)生物學(xué)特征
2.2.3 基因組非編碼區(qū)生物學(xué)特征
3 CNV致病性預(yù)測模型特征構(gòu)建
3.1 特征構(gòu)建類型
3.1.1 變異左右斷點(diǎn)特征構(gòu)建
3.1.2 變異區(qū)間內(nèi)特征構(gòu)建
3.2 特征構(gòu)建方法
3.2.1 編碼區(qū)(CCRS)保守區(qū)域特征構(gòu)建
3.2.2 非編碼區(qū)保守區(qū)域(CDTS)特征構(gòu)建
3.2.3 編碼區(qū)蛋白質(zhì)功能結(jié)構(gòu)注釋信息特征構(gòu)建
3.2.4 pLI實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.5 DNase-seq實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.6 Hi-C實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.3 CNV致病性機(jī)器學(xué)習(xí)預(yù)測模型的比較
3.3.1 基于邏輯回歸致病性預(yù)測算法
3.3.2 基于決策樹致病性預(yù)測算法
3.3.3 基于隨機(jī)森林致病性預(yù)測算法
3.3.4 基于Adaboost致病性預(yù)測算法
3.3.5 基于XGBoost致病性預(yù)測算法
4 不同人種的CNV參考頻率文件評估
4.1 致病性與非致病性CNV在不同人群的頻率分布
4.2 CNV缺失在不同人種和染色體上的分布
5 CNV致病性預(yù)測模型的結(jié)果與評估
5.1 CNV致病性預(yù)測模型驗(yàn)證集評估方法
5.1.1 ROC曲線以及AUC面積
5.1.2 精確度與召回率
5.2 獨(dú)立驗(yàn)證集的效果評估
5.3 CNV致病性預(yù)測模型在不同長度的CNVs中的評估效果
5.4 CNV致病性預(yù)測模型在基因間區(qū)評估效果
5.5 模型特征重要性排名與重要特征分析
6 CNV致病性預(yù)測模型的臨床應(yīng)用
6.1 對未知致病性CNV的預(yù)測與評估
6.2 CNV致病性預(yù)測網(wǎng)站構(gòu)建
7 總結(jié)與展望
7.1 總結(jié)
7.2 展望
附錄
附錄1:常見的損失函數(shù)
附錄2:CNV致病性預(yù)測模型中使用的特征名稱
附錄3:所有染色體中致病性CNV與非致病性CNV的分布圖
參考文獻(xiàn)
后記
【參考文獻(xiàn)】:
期刊論文
[1]基于AdaBoost的微博垃圾評論識別方法[J]. 黃鈴,李學(xué)明. 計(jì)算機(jī)應(yīng)用. 2013(12)
博士論文
[1]基于比對策略的罕見疾病和腫瘤致病基因檢測[D]. 張立.華東師范大學(xué) 2018
碩士論文
[1]基于視覺的避雷器識別與跟蹤算法研究[D]. 陳曉念.廣東工業(yè)大學(xué) 2016
本文編號:3730424
【文章頁數(shù)】:78 頁
【學(xué)位級別】:碩士
【文章目錄】:
內(nèi)容摘要
ABSTRACT
1 引言
1.1 人類基因組拷貝數(shù)變異簡介
1.1.1 基因組拷貝數(shù)變異含義
1.1.2 基因組拷貝數(shù)變異在臨床上的研究現(xiàn)狀
1.2 拷貝數(shù)變異相關(guān)軟件及研究進(jìn)展
1.2.1 拷貝數(shù)變異相關(guān)注釋軟件
1.2.2 SNP與Indel相關(guān)注釋軟件
1.3 本文涉及的拷貝數(shù)變異數(shù)據(jù)庫
1.3.0 DGV
1.3.1 ClinVar
1.3.2 DECIPHER
1.4 預(yù)測拷貝數(shù)變異致病性的重要性與挑戰(zhàn)
1.4.1 預(yù)測拷貝數(shù)變異致病性的重要性
1.4.2 預(yù)測拷貝數(shù)變異致病性面臨的關(guān)鍵問題和挑戰(zhàn)
1.5 本文的研究內(nèi)容
2 實(shí)驗(yàn)材料與方法
2.1 CNV數(shù)據(jù)收集
2.1.1 健康人群的CNV數(shù)據(jù)收集
2.1.2 有致病性信息的CNV訓(xùn)練數(shù)據(jù)收集
2.2 模型特征數(shù)據(jù)收集
2.2.1 拷貝數(shù)變異頻率等基本基因組注釋特征
2.2.2 基因組編碼區(qū)生物學(xué)特征
2.2.3 基因組非編碼區(qū)生物學(xué)特征
3 CNV致病性預(yù)測模型特征構(gòu)建
3.1 特征構(gòu)建類型
3.1.1 變異左右斷點(diǎn)特征構(gòu)建
3.1.2 變異區(qū)間內(nèi)特征構(gòu)建
3.2 特征構(gòu)建方法
3.2.1 編碼區(qū)(CCRS)保守區(qū)域特征構(gòu)建
3.2.2 非編碼區(qū)保守區(qū)域(CDTS)特征構(gòu)建
3.2.3 編碼區(qū)蛋白質(zhì)功能結(jié)構(gòu)注釋信息特征構(gòu)建
3.2.4 pLI實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.5 DNase-seq實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.2.6 Hi-C實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
3.3 CNV致病性機(jī)器學(xué)習(xí)預(yù)測模型的比較
3.3.1 基于邏輯回歸致病性預(yù)測算法
3.3.2 基于決策樹致病性預(yù)測算法
3.3.3 基于隨機(jī)森林致病性預(yù)測算法
3.3.4 基于Adaboost致病性預(yù)測算法
3.3.5 基于XGBoost致病性預(yù)測算法
4 不同人種的CNV參考頻率文件評估
4.1 致病性與非致病性CNV在不同人群的頻率分布
4.2 CNV缺失在不同人種和染色體上的分布
5 CNV致病性預(yù)測模型的結(jié)果與評估
5.1 CNV致病性預(yù)測模型驗(yàn)證集評估方法
5.1.1 ROC曲線以及AUC面積
5.1.2 精確度與召回率
5.2 獨(dú)立驗(yàn)證集的效果評估
5.3 CNV致病性預(yù)測模型在不同長度的CNVs中的評估效果
5.4 CNV致病性預(yù)測模型在基因間區(qū)評估效果
5.5 模型特征重要性排名與重要特征分析
6 CNV致病性預(yù)測模型的臨床應(yīng)用
6.1 對未知致病性CNV的預(yù)測與評估
6.2 CNV致病性預(yù)測網(wǎng)站構(gòu)建
7 總結(jié)與展望
7.1 總結(jié)
7.2 展望
附錄
附錄1:常見的損失函數(shù)
附錄2:CNV致病性預(yù)測模型中使用的特征名稱
附錄3:所有染色體中致病性CNV與非致病性CNV的分布圖
參考文獻(xiàn)
后記
【參考文獻(xiàn)】:
期刊論文
[1]基于AdaBoost的微博垃圾評論識別方法[J]. 黃鈴,李學(xué)明. 計(jì)算機(jī)應(yīng)用. 2013(12)
博士論文
[1]基于比對策略的罕見疾病和腫瘤致病基因檢測[D]. 張立.華東師范大學(xué) 2018
碩士論文
[1]基于視覺的避雷器識別與跟蹤算法研究[D]. 陳曉念.廣東工業(yè)大學(xué) 2016
本文編號:3730424
本文鏈接:http://www.sikaile.net/yixuelunwen/jichuyixue/3730424.html
最近更新
教材專著