SNP選擇的關(guān)鍵技術(shù)及精神分裂癥診斷模型研究

發(fā)布時間：2020-10-31 12:41

　　單核苷酸多態(tài)性(Single nucleotide polymorphism,SNP)主要是指在基因組水平上由單個核苷酸的變異所引起的DNA序列多態(tài)性。SNP數(shù)據(jù)作為重要的基因變異數(shù)據(jù)適合復(fù)雜性狀與疾病的遺傳解剖等方面的研究,關(guān)于SNP數(shù)據(jù)的研究已經(jīng)成為生物信息學(xué)領(lǐng)域中的重要課題之一。但SNP位點之間存在較多的冗余,因此,將SNP數(shù)據(jù)直接用于復(fù)雜疾病的診斷分類中,必須選擇出具有代表性的SNP子集。隨著機器學(xué)習(xí)技術(shù)的飛速發(fā)展,選擇SNP子集問題可歸類為特征選擇問題,因此,本文將特征選擇技術(shù)和分類模型應(yīng)用到選擇SNP子集和精神分裂癥診斷中。首先,提出基于K-MIM的信息SNP子集選擇方法;然后,設(shè)計基于Xgboost的精神分裂癥的診斷模型。具體工作如下:(1)針對SNP位點之間存在強相關(guān)性問題,提出新的算法——K-MIM對SNP位點聚類分組。該算法在K-Means算法中引入互信息的概念,提出一種新的距離度量,利用互信息能夠度量特征之間相關(guān)性的特性有效解決歐式距離不能挖掘出SNP位點之間內(nèi)在聯(lián)系的問題。此外,K-MIM算法針對K-Means的簇中心更新在新的距離度量下失效的問題,提出新的簇中心更新方式,根據(jù)樣本點到均值點的距離與樣本點到其他點距離之和呈近似的增函數(shù)特點,用n個與簇中其他SNP距離最小的SNPs作為簇中心體代替原來的簇均值向量。經(jīng)實驗驗證,KMIM算法較K-Means算法和其他改進的K-Means算法,具有更好的非信息SNP重構(gòu)度,且與MCMR、ReliefF等信息SNP選擇方法相比,本文提出的信息SNP選擇方法在兩個數(shù)據(jù)集的分類準(zhǔn)確率上平均提升了1.83%和3.33%。因此,本文提出的基于K-MIM算法的信息SNP選擇方法在信息SNP子集選擇中具有較大的優(yōu)勢。(2)針對原蟻群算法在計算信息素累加時默認(rèn)越短的信息SNP子集具有更好的非信息SNP重構(gòu)效果的問題,提出新的信息素累加機制,將信息SNP子集對非信息SNP子集的預(yù)測誤差引入該機制,在考慮解的長度的同時考慮解的質(zhì)量,完善原信息素的累加機制。同時,為了避免算法陷入局部最優(yōu)提出一種新的信息素?fù)]發(fā)機制,該機制利用信息SNP子集的冗余度對信息素進行自適應(yīng)地?fù)]發(fā)。經(jīng)實驗驗證,改進的蟻群算法較原蟻群、粒子群算法和遺傳算法,具有更好的非信息SNP重構(gòu)度,且與MCMR、ReliefF等其他信息SNP選擇方法相比,本文提出的信息SNP選擇方法在兩個數(shù)據(jù)集的分類準(zhǔn)確率上平均提升了1.33%和1.11%。因此,改進的蟻群算法加強了基于K-MIM算法的信息SNP子集構(gòu)造方法在SNP子集選擇中的優(yōu)勢。(3)針對精神分裂癥分類中,將患者診斷為健康人和將健康人診斷為患者的誤診斷代價不同問題,提出代價敏感Xgboost算法。由于無法得知數(shù)據(jù)集的錯分代價,該算法提出自適應(yīng)的錯分代價權(quán)重,兼顧分類模型準(zhǔn)確率的同時,在Xgboost目標(biāo)函數(shù)中,對將患者診斷為健康人的樣本根據(jù)其預(yù)測誤差和所有樣本的誤差均值自適應(yīng)地修改誤分代價權(quán)重,減少將患者診斷為健康人的可能性。同時,在目標(biāo)函數(shù)的正則項中加入樹的深度,防止算法過擬合。在分類效果實驗中,代價敏感Xgboost算法與Xgboost、SVM和神經(jīng)網(wǎng)絡(luò)算法在分類準(zhǔn)確率上基本持平,且在誤分類次數(shù)統(tǒng)計實驗中,較原Xgboost算法,在兩個數(shù)據(jù)集上將患者診斷為健康人的誤分類次數(shù)減少了7.5%和6.67%,減少了將患者診斷為健康人的可能性。
【學(xué)位單位】：江蘇大學(xué)
【學(xué)位級別】：碩士
【學(xué)位年份】：2019
【中圖分類】：R749.3;TP18
【文章目錄】：
摘要
abstract
第一章緒論
    1.1 研究背景和意義
        1.1.1 研究背景
        1.1.2 研究意義
    1.2 國內(nèi)外研究現(xiàn)狀
        1.2.1 精神分裂癥研究現(xiàn)狀
        1.2.2 SNP選擇研究現(xiàn)狀
        1.2.3 精神分裂癥分類算法研究現(xiàn)狀
    1.3 研究內(nèi)容及論文結(jié)構(gòu)
        1.3.1 研究內(nèi)容
        1.3.2 論文結(jié)構(gòu)
第二章研究相關(guān)的基礎(chǔ)知識介紹
    2.1 基礎(chǔ)概念
    2.2 全基因組關(guān)聯(lián)分析
    2.3 特征選擇
        2.3.1 過濾式特征選擇方法
        2.3.2 包裹式特征選擇方法
        2.3.3 嵌入式特征選擇方法
    2.4 分類算法
        2.4.1 BP神經(jīng)網(wǎng)絡(luò)
        2.4.2 支持向量機
        2.4.3 決策樹
    2.5 本章小結(jié)
第三章基于K-MIM算法的信息SNP選擇
    3.1 K-Means算法原理
    3.2 K-MIM算法
        3.2.1 互信息
        3.2.2 簇中心的更新
        3.2.3 算法K-MIM整體步驟
    3.3 K-MIM算法在SNP選擇中的應(yīng)用
        3.3.1 蟻群算法
        3.3.2 方法流程
    3.4 數(shù)值實驗
        3.4.1 實驗環(huán)境及數(shù)據(jù)
        3.4.2 實驗評價指標(biāo)
        3.4.3 數(shù)據(jù)預(yù)處理
        3.4.4 實驗結(jié)果及分析
    3.5 本章小結(jié)
第四章面向SNP選擇的蟻群算法的改進
    4.1 蟻群算法概述
    4.2 改進的蟻群算法
        4.2.1 信息素的累加
        4.2.2 信息素的揮發(fā)
        4.2.3 EM-ACO算法的偽代碼
    4.3 改進的蟻群算法在SNP選擇中的應(yīng)用
        4.3.1 最近均值分類
        4.3.2 方法流程
    4.4 數(shù)值實驗
        4.4.1 實驗環(huán)境及數(shù)據(jù)
        4.4.2 數(shù)據(jù)預(yù)處理
        4.4.3 實驗結(jié)果分析
    4.5 本章小結(jié)
第五章精神分裂癥診斷模型設(shè)計
    5.1 Xgboost算法原理
    5.2 代價敏感Xgboost算法
        5.2.1 代價敏感
        5.2.2 正則化項
    5.3 精神分裂癥診斷模型設(shè)計方法
    5.4 數(shù)值實驗
        5.4.1 實驗環(huán)境及數(shù)據(jù)
        5.4.2 數(shù)據(jù)預(yù)處理
        5.4.3 實驗結(jié)果分析
    5.5 本章小結(jié)
第六章總結(jié)與展望
    6.1 本文總結(jié)
    6.2 研究展望
參考文獻
致謝
碩士期間研究成果

【參考文獻】

相關(guān)期刊論文前1條

1 徐峻嶺;周毓明;陳林;徐寶文;;基于互信息的無監(jiān)督特征選擇[J];計算機研究與發(fā)展;2012年02期

本文編號：2863964

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/yixuelunwen/jsb/2863964.html

上一篇：人臍血細(xì)胞靜脈輸注對血管性癡呆大鼠治療作用的研究
下一篇：血清鋅與阿爾茨海默病的相關(guān)性研究：一項驗證研究及薈萃分析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

SNP選擇的關(guān)鍵技術(shù)及精神分裂癥診斷模型研究