天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于機(jī)器學(xué)習(xí)的染色體拷貝數(shù)變異致病性預(yù)測工具

發(fā)布時間:2023-01-12 20:44
  隨著基因組高通量測序技術(shù)的發(fā)展,人們對人類基因組變異的檢測與分析能力取得了長足的進(jìn)步。然而,由于目前的染色體拷貝數(shù)變異檢測工具的檢測準(zhǔn)確度不足,同時也由于拷貝數(shù)變異自身在基因組上的復(fù)雜性和不確定性,對胚系拷貝數(shù)變異的致病性的預(yù)測仍然是一個難題。盡管之前已經(jīng)有研究者嘗試解決這個問題,但仍然沒有工具能夠定量地對胚系拷貝數(shù)變異的致病性進(jìn)行預(yù)測與注釋。為了解決上面的問題,我們開發(fā)了一個基于機(jī)器學(xué)習(xí)算法的胚系拷貝數(shù)變異致病性預(yù)測工具。為了充分地考慮與拷貝數(shù)變異相關(guān)的生物學(xué)特征,我們在構(gòu)建致病性模型的過程中,從多角度收集和挖掘相關(guān)的胚系拷貝數(shù)變異特征數(shù)據(jù),包括編碼區(qū)功能注釋信息、非編碼區(qū)功能注釋信息、基因組保守性區(qū)域數(shù)據(jù)、單核苷酸多態(tài)性注釋數(shù)據(jù)和大量的相關(guān)實(shí)驗(yàn)數(shù)據(jù)。對于每一個特征,我們根據(jù)其生物學(xué)意義采用相應(yīng)的特征構(gòu)建方法,對眾多不同層面的特征數(shù)據(jù)進(jìn)行向量化和標(biāo)準(zhǔn)化。除此之外,我們從The Database of Genomic Variants(DGV)和1000 Genomes Project(1000G)中收集到了大量的不同人種健康人群的拷貝數(shù)變異數(shù)據(jù),并通過數(shù)據(jù)清洗和整合,計(jì)算出不同人種參... 

【文章頁數(shù)】:78 頁

【學(xué)位級別】:碩士

【文章目錄】:
內(nèi)容摘要
ABSTRACT
1 引言
    1.1 人類基因組拷貝數(shù)變異簡介
        1.1.1 基因組拷貝數(shù)變異含義
        1.1.2 基因組拷貝數(shù)變異在臨床上的研究現(xiàn)狀
    1.2 拷貝數(shù)變異相關(guān)軟件及研究進(jìn)展
        1.2.1 拷貝數(shù)變異相關(guān)注釋軟件
        1.2.2 SNP與Indel相關(guān)注釋軟件
    1.3 本文涉及的拷貝數(shù)變異數(shù)據(jù)庫
        1.3.0 DGV
        1.3.1 ClinVar
        1.3.2 DECIPHER
    1.4 預(yù)測拷貝數(shù)變異致病性的重要性與挑戰(zhàn)
        1.4.1 預(yù)測拷貝數(shù)變異致病性的重要性
        1.4.2 預(yù)測拷貝數(shù)變異致病性面臨的關(guān)鍵問題和挑戰(zhàn)
    1.5 本文的研究內(nèi)容
2 實(shí)驗(yàn)材料與方法
    2.1 CNV數(shù)據(jù)收集
        2.1.1 健康人群的CNV數(shù)據(jù)收集
        2.1.2 有致病性信息的CNV訓(xùn)練數(shù)據(jù)收集
    2.2 模型特征數(shù)據(jù)收集
        2.2.1 拷貝數(shù)變異頻率等基本基因組注釋特征
        2.2.2 基因組編碼區(qū)生物學(xué)特征
        2.2.3 基因組非編碼區(qū)生物學(xué)特征
3 CNV致病性預(yù)測模型特征構(gòu)建
    3.1 特征構(gòu)建類型
        3.1.1 變異左右斷點(diǎn)特征構(gòu)建
        3.1.2 變異區(qū)間內(nèi)特征構(gòu)建
    3.2 特征構(gòu)建方法
        3.2.1 編碼區(qū)(CCRS)保守區(qū)域特征構(gòu)建
        3.2.2 非編碼區(qū)保守區(qū)域(CDTS)特征構(gòu)建
        3.2.3 編碼區(qū)蛋白質(zhì)功能結(jié)構(gòu)注釋信息特征構(gòu)建
        3.2.4 pLI實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
        3.2.5 DNase-seq實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
        3.2.6 Hi-C實(shí)驗(yàn)數(shù)據(jù)特征構(gòu)建
    3.3 CNV致病性機(jī)器學(xué)習(xí)預(yù)測模型的比較
        3.3.1 基于邏輯回歸致病性預(yù)測算法
        3.3.2 基于決策樹致病性預(yù)測算法
        3.3.3 基于隨機(jī)森林致病性預(yù)測算法
        3.3.4 基于Adaboost致病性預(yù)測算法
        3.3.5 基于XGBoost致病性預(yù)測算法
4 不同人種的CNV參考頻率文件評估
    4.1 致病性與非致病性CNV在不同人群的頻率分布
    4.2 CNV缺失在不同人種和染色體上的分布
5 CNV致病性預(yù)測模型的結(jié)果與評估
    5.1 CNV致病性預(yù)測模型驗(yàn)證集評估方法
        5.1.1 ROC曲線以及AUC面積
        5.1.2 精確度與召回率
    5.2 獨(dú)立驗(yàn)證集的效果評估
    5.3 CNV致病性預(yù)測模型在不同長度的CNVs中的評估效果
    5.4 CNV致病性預(yù)測模型在基因間區(qū)評估效果
    5.5 模型特征重要性排名與重要特征分析
6 CNV致病性預(yù)測模型的臨床應(yīng)用
    6.1 對未知致病性CNV的預(yù)測與評估
    6.2 CNV致病性預(yù)測網(wǎng)站構(gòu)建
7 總結(jié)與展望
    7.1 總結(jié)
    7.2 展望
附錄
    附錄1:常見的損失函數(shù)
    附錄2:CNV致病性預(yù)測模型中使用的特征名稱
    附錄3:所有染色體中致病性CNV與非致病性CNV的分布圖
參考文獻(xiàn)
后記


【參考文獻(xiàn)】:
期刊論文
[1]基于AdaBoost的微博垃圾評論識別方法[J]. 黃鈴,李學(xué)明.  計(jì)算機(jī)應(yīng)用. 2013(12)

博士論文
[1]基于比對策略的罕見疾病和腫瘤致病基因檢測[D]. 張立.華東師范大學(xué) 2018

碩士論文
[1]基于視覺的避雷器識別與跟蹤算法研究[D]. 陳曉念.廣東工業(yè)大學(xué) 2016



本文編號:3730424

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/yixuelunwen/jichuyixue/3730424.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶d3302***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com