基于RNN及其融合方法的DNA甲基化預(yù)測模型研究

發(fā)布時(shí)間：2021-08-07 23:52

　　DNA甲基化是表觀遺傳機(jī)制的一種,涉及多種重要的生命活動(dòng)。研究DNA甲基化在基因表達(dá)調(diào)控、疾病防治、腫瘤識(shí)別等方面具有重要意義。利用實(shí)驗(yàn)手段檢測DNA甲基化的方法可以獲得較高的準(zhǔn)確性,但由于成本高,并不能大規(guī)模的應(yīng)用。因此,利用機(jī)器學(xué)習(xí)模型預(yù)測DNA甲基化成為實(shí)驗(yàn)手段的重要補(bǔ)充。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員開始使用深度學(xué)習(xí)框架進(jìn)行DNA甲基化的研究,與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)可以更充分地利用現(xiàn)有的甲基化數(shù)據(jù)庫,可以從大量的數(shù)據(jù)中自動(dòng)學(xué)習(xí)到潛在的甲基化特征。目前,DeepCpG、MRCNN等基于深度學(xué)習(xí)的DNA甲基化預(yù)測模型取得了良好的效果,但還存在著難以提取DNA序列時(shí)序特征、部分區(qū)域性能較差的不足。針對(duì)以上問題,本文構(gòu)建了三種通過局部DNA序列預(yù)測DNA甲基化的深度學(xué)習(xí)模型。相比于現(xiàn)有模型,提升了DNA甲基化的預(yù)測性能。具體工作如下:（1）針對(duì)于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks,CNN）每層內(nèi)部神經(jīng)元相互獨(dú)立,難以有效利用DNA序列時(shí)序信息的問題,文本基于循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network,RNN...

【文章來源】：電子科技大學(xué)四川省 211工程院校 985工程院校教育部直屬院校

【文章頁數(shù)】：76 頁

【學(xué)位級(jí)別】：碩士

【部分圖文】：

DeepCpG模型結(jié)構(gòu)

模型結(jié)構(gòu)

電子科技大學(xué)碩士學(xué)位論文16圖2-3MRCNN模型結(jié)構(gòu)相比于DeepCpG模型，MRCNN模型只有DNA模塊而沒有CpG模塊，即MRCNN模型只使用了DNA序列模式作為輸入。MRCNN的輸入是一個(gè)以目標(biāo)CpG位點(diǎn)為中心上下游各200bp長度的DNA序列。在進(jìn)行MRCNN訓(xùn)練之前，需要對(duì)這些DNA序列片段進(jìn)行one-hot編碼，以將原始序列中的堿基A，T，C和G轉(zhuǎn)換為可以輸入到網(wǎng)絡(luò)的矩陣。預(yù)處理后，可以為每個(gè)目標(biāo)CpG位點(diǎn)生成400×4大小的矩陣，其中每一行代表一個(gè)堿基（A，T，C，G），而各列則組裝了整個(gè)原始片段。MRCNN模塊的第一層是單個(gè)卷積層，卷積內(nèi)核的大小是1×4，主要用于從400×4輸入矩陣中提取單個(gè)含氮堿基的信息。第一層之后有一個(gè)重塑操作，將400×1的輸出張量重塑為20×20張量。第二和第三層是傳統(tǒng)的卷積和池化層，卷積核的大小為3×3，步長為1×1和3×3。第四、五層都是卷積層，其卷積核大小和步長與第二層相同。最后，將最后一層獲得的張量擴(kuò)展到整個(gè)連接層。連接層引入了dropout功能，防止在訓(xùn)練中過度擬合，然后通過輸出層預(yù)測甲基化水平。選擇了均方誤差函數(shù)作為訓(xùn)練過程中的損失函數(shù)，通過最小化均方誤差來訓(xùn)練各層濾波器權(quán)重。通過多層卷積學(xué)習(xí)，MRCNN可在單堿基分辨率下實(shí)現(xiàn)CpG位點(diǎn)的甲基化預(yù)測，并且由于具有連續(xù)的損失函數(shù)，該方法能夠?qū)崿F(xiàn)連續(xù)的甲基化值回歸。為了說明模型的性能，田奇等人還將MRCNN與DeepCpG進(jìn)行了比較。發(fā)現(xiàn)MRCNN在只使用DNA序列信息的情況下，依然能夠擁有不亞于DeepCpG的預(yù)測準(zhǔn)確率，這也證實(shí)了只使用DNA序列進(jìn)行甲基化預(yù)測的可行性。2.3本文所用的數(shù)據(jù)集本文模型研究與訓(xùn)練所用的數(shù)據(jù)為全基因組亞硫酸氫鹽測序(wholegenomebisulfitesequencing，WGBS)數(shù)據(jù)，下載自GEO公共數(shù)據(jù)庫。本文使用了小腸組織（編號(hào)GSM983646）、食道組織?

密度曲線,密度曲線,誤差分布,概率

電子科技大學(xué)碩士學(xué)位論文32增加到130時(shí)，模型的分類準(zhǔn)確率明顯上升，在130到150之間，分類準(zhǔn)確率隨隱藏層節(jié)點(diǎn)數(shù)目變化較小，當(dāng)隱藏層節(jié)點(diǎn)數(shù)增加到150以上時(shí)，分類準(zhǔn)確率開始下降。即序列長度400-600bp，隱藏層節(jié)點(diǎn)數(shù)130-150的區(qū)間內(nèi)，模型可以獲得較高的準(zhǔn)確率。綜合性能和開銷等多方面考慮，RNN模型的隱藏層節(jié)點(diǎn)數(shù)最終設(shè)置為130，之后的研究基于400bp長度的DNA序列。3.3實(shí)驗(yàn)結(jié)果及性能分析3.3.1RNN模型的回歸性能分析使用2.3節(jié)介紹的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練，并統(tǒng)計(jì)了RNN模型和MRCNN模型所有測試位點(diǎn)的預(yù)測值和真實(shí)值之間的絕對(duì)誤差，并通過統(tǒng)計(jì)結(jié)果擬合了如圖3-9所示的兩種模型的誤差分布概率密度曲線。其中藍(lán)色實(shí)線為RNN模型的誤差分布概率密度曲線，綠色虛線為MRCNN模型的誤差分布概率密度曲線。從圖中可以看出兩種模型的誤差分布概率密度曲線存在明顯的差異，RNN的誤差分布概率密度曲線峰值在0左側(cè)，而MRCNN誤差分布概率密度曲線峰值在0右側(cè)，這表示RNN模型在回歸預(yù)測時(shí)更容易出現(xiàn)預(yù)測值小于實(shí)際值的情況，而MRCNN模型預(yù)測值和真實(shí)值之間的絕對(duì)誤差為正的情況較多。對(duì)于兩種模型概率密度曲線的差異，推測主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的，MRCNN模型對(duì)DNA序列進(jìn)行特征提取時(shí)，會(huì)對(duì)特征矩陣進(jìn)行重塑，不利于時(shí)序特征的提取，但不會(huì)對(duì)類似于CG含量這樣的非時(shí)序特征造成影響。而RNN模型，其內(nèi)部循環(huán)單元彼此連接，并在輸入序列傳遞方向上進(jìn)行遞歸，使得其更擅長提取序列特征。圖3-9誤差分布概率密度曲線

【參考文獻(xiàn)】：
期刊論文
[1]表觀遺傳學(xué)的作用機(jī)制及其與經(jīng)典遺傳學(xué)的異同[J]. 惠瑞敏,王小榮,朱文婷.  生物化工. 2018(05)
[2]DNA甲基化與衰老的研究進(jìn)展[J]. 沈赟,鐘遠(yuǎn),苗雅.  老年醫(yī)學(xué)與保健. 2018(04)
[3]DNA甲基化檢測方法研究進(jìn)展[J]. 代雅琪,張博洋,朱麗葉,唐小革,許文濤.  農(nóng)業(yè)生物技術(shù)學(xué)報(bào). 2017(01)

博士論文
[1]多任務(wù)學(xué)習(xí)算法研究[D]. 浦劍.復(fù)旦大學(xué) 2013
[2]基于特征融合與仿生模式的生物特征識(shí)別研究[D]. 徐穎.華南理工大學(xué) 2013

碩士論文
[1]組稀疏多任務(wù)學(xué)習(xí)方法及其應(yīng)用研究[D]. 孫怡.南京郵電大學(xué) 2019
[2]基于雙通道時(shí)空特征深度學(xué)習(xí)的新生兒疼痛表情識(shí)別[D]. 耿惠惠.南京郵電大學(xué) 2019
[3]基于阿貝爾復(fù)雜度方法的全基因組DNA甲基化的預(yù)測[D]. 劉云霞.華中農(nóng)業(yè)大學(xué) 2018
[4]DNA甲基化狀態(tài)在線預(yù)測平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李承哲.電子科技大學(xué) 2016

本文編號(hào)：3328777

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/projectlw/swxlw/3328777.html

上一篇：東北虎與華南虎全基因組重測序及其比較基因組學(xué)分析
下一篇：新疆南疆民漢合班生物化學(xué)課程教學(xué)探索

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于RNN及其融合方法的DNA甲基化預(yù)測模型研究