基于RNN及其融合方法的DNA甲基化預(yù)測模型研究
發(fā)布時(shí)間:2021-08-07 23:52
DNA甲基化是表觀遺傳機(jī)制的一種,涉及多種重要的生命活動(dòng)。研究DNA甲基化在基因表達(dá)調(diào)控、疾病防治、腫瘤識(shí)別等方面具有重要意義。利用實(shí)驗(yàn)手段檢測DNA甲基化的方法可以獲得較高的準(zhǔn)確性,但由于成本高,并不能大規(guī)模的應(yīng)用。因此,利用機(jī)器學(xué)習(xí)模型預(yù)測DNA甲基化成為實(shí)驗(yàn)手段的重要補(bǔ)充。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員開始使用深度學(xué)習(xí)框架進(jìn)行DNA甲基化的研究,與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)可以更充分地利用現(xiàn)有的甲基化數(shù)據(jù)庫,可以從大量的數(shù)據(jù)中自動(dòng)學(xué)習(xí)到潛在的甲基化特征。目前,DeepCpG、MRCNN等基于深度學(xué)習(xí)的DNA甲基化預(yù)測模型取得了良好的效果,但還存在著難以提取DNA序列時(shí)序特征、部分區(qū)域性能較差的不足。針對(duì)以上問題,本文構(gòu)建了三種通過局部DNA序列預(yù)測DNA甲基化的深度學(xué)習(xí)模型。相比于現(xiàn)有模型,提升了DNA甲基化的預(yù)測性能。具體工作如下:(1)針對(duì)于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)每層內(nèi)部神經(jīng)元相互獨(dú)立,難以有效利用DNA序列時(shí)序信息的問題,文本基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN...
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
DeepCpG模型結(jié)構(gòu)
電子科技大學(xué)碩士學(xué)位論文16圖2-3MRCNN模型結(jié)構(gòu)相比于DeepCpG模型,MRCNN模型只有DNA模塊而沒有CpG模塊,即MRCNN模型只使用了DNA序列模式作為輸入。MRCNN的輸入是一個(gè)以目標(biāo)CpG位點(diǎn)為中心上下游各200bp長度的DNA序列。在進(jìn)行MRCNN訓(xùn)練之前,需要對(duì)這些DNA序列片段進(jìn)行one-hot編碼,以將原始序列中的堿基A,T,C和G轉(zhuǎn)換為可以輸入到網(wǎng)絡(luò)的矩陣。預(yù)處理后,可以為每個(gè)目標(biāo)CpG位點(diǎn)生成400×4大小的矩陣,其中每一行代表一個(gè)堿基(A,T,C,G),而各列則組裝了整個(gè)原始片段。MRCNN模塊的第一層是單個(gè)卷積層,卷積內(nèi)核的大小是1×4,主要用于從400×4輸入矩陣中提取單個(gè)含氮堿基的信息。第一層之后有一個(gè)重塑操作,將400×1的輸出張量重塑為20×20張量。第二和第三層是傳統(tǒng)的卷積和池化層,卷積核的大小為3×3,步長為1×1和3×3。第四、五層都是卷積層,其卷積核大小和步長與第二層相同。最后,將最后一層獲得的張量擴(kuò)展到整個(gè)連接層。連接層引入了dropout功能,防止在訓(xùn)練中過度擬合,然后通過輸出層預(yù)測甲基化水平。選擇了均方誤差函數(shù)作為訓(xùn)練過程中的損失函數(shù),通過最小化均方誤差來訓(xùn)練各層濾波器權(quán)重。通過多層卷積學(xué)習(xí),MRCNN可在單堿基分辨率下實(shí)現(xiàn)CpG位點(diǎn)的甲基化預(yù)測,并且由于具有連續(xù)的損失函數(shù),該方法能夠?qū)崿F(xiàn)連續(xù)的甲基化值回歸。為了說明模型的性能,田奇等人還將MRCNN與DeepCpG進(jìn)行了比較。發(fā)現(xiàn)MRCNN在只使用DNA序列信息的情況下,依然能夠擁有不亞于DeepCpG的預(yù)測準(zhǔn)確率,這也證實(shí)了只使用DNA序列進(jìn)行甲基化預(yù)測的可行性。2.3本文所用的數(shù)據(jù)集本文模型研究與訓(xùn)練所用的數(shù)據(jù)為全基因組亞硫酸氫鹽測序(wholegenomebisulfitesequencing,WGBS)數(shù)據(jù),下載自GEO公共數(shù)據(jù)庫。本文使用了小腸組織(編號(hào)GSM983646)、食道組織?
電子科技大學(xué)碩士學(xué)位論文32增加到130時(shí),模型的分類準(zhǔn)確率明顯上升,在130到150之間,分類準(zhǔn)確率隨隱藏層節(jié)點(diǎn)數(shù)目變化較小,當(dāng)隱藏層節(jié)點(diǎn)數(shù)增加到150以上時(shí),分類準(zhǔn)確率開始下降。即序列長度400-600bp,隱藏層節(jié)點(diǎn)數(shù)130-150的區(qū)間內(nèi),模型可以獲得較高的準(zhǔn)確率。綜合性能和開銷等多方面考慮,RNN模型的隱藏層節(jié)點(diǎn)數(shù)最終設(shè)置為130,之后的研究基于400bp長度的DNA序列。3.3實(shí)驗(yàn)結(jié)果及性能分析3.3.1RNN模型的回歸性能分析使用2.3節(jié)介紹的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,并統(tǒng)計(jì)了RNN模型和MRCNN模型所有測試位點(diǎn)的預(yù)測值和真實(shí)值之間的絕對(duì)誤差,并通過統(tǒng)計(jì)結(jié)果擬合了如圖3-9所示的兩種模型的誤差分布概率密度曲線。其中藍(lán)色實(shí)線為RNN模型的誤差分布概率密度曲線,綠色虛線為MRCNN模型的誤差分布概率密度曲線。從圖中可以看出兩種模型的誤差分布概率密度曲線存在明顯的差異,RNN的誤差分布概率密度曲線峰值在0左側(cè),而MRCNN誤差分布概率密度曲線峰值在0右側(cè),這表示RNN模型在回歸預(yù)測時(shí)更容易出現(xiàn)預(yù)測值小于實(shí)際值的情況,而MRCNN模型預(yù)測值和真實(shí)值之間的絕對(duì)誤差為正的情況較多。對(duì)于兩種模型概率密度曲線的差異,推測主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型對(duì)DNA序列進(jìn)行特征提取時(shí),會(huì)對(duì)特征矩陣進(jìn)行重塑,不利于時(shí)序特征的提取,但不會(huì)對(duì)類似于CG含量這樣的非時(shí)序特征造成影響。而RNN模型,其內(nèi)部循環(huán)單元彼此連接,并在輸入序列傳遞方向上進(jìn)行遞歸,使得其更擅長提取序列特征。圖3-9誤差分布概率密度曲線
【參考文獻(xiàn)】:
期刊論文
[1]表觀遺傳學(xué)的作用機(jī)制及其與經(jīng)典遺傳學(xué)的異同[J]. 惠瑞敏,王小榮,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化與衰老的研究進(jìn)展[J]. 沈赟,鐘遠(yuǎn),苗雅. 老年醫(yī)學(xué)與保健. 2018(04)
[3]DNA甲基化檢測方法研究進(jìn)展[J]. 代雅琪,張博洋,朱麗葉,唐小革,許文濤. 農(nóng)業(yè)生物技術(shù)學(xué)報(bào). 2017(01)
博士論文
[1]多任務(wù)學(xué)習(xí)算法研究[D]. 浦劍.復(fù)旦大學(xué) 2013
[2]基于特征融合與仿生模式的生物特征識(shí)別研究[D]. 徐穎.華南理工大學(xué) 2013
碩士論文
[1]組稀疏多任務(wù)學(xué)習(xí)方法及其應(yīng)用研究[D]. 孫怡.南京郵電大學(xué) 2019
[2]基于雙通道時(shí)空特征深度學(xué)習(xí)的新生兒疼痛表情識(shí)別[D]. 耿惠惠.南京郵電大學(xué) 2019
[3]基于阿貝爾復(fù)雜度方法的全基因組DNA甲基化的預(yù)測[D]. 劉云霞.華中農(nóng)業(yè)大學(xué) 2018
[4]DNA甲基化狀態(tài)在線預(yù)測平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李承哲.電子科技大學(xué) 2016
本文編號(hào):3328777
【文章來源】:電子科技大學(xué)四川省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:76 頁
【學(xué)位級(jí)別】:碩士
【部分圖文】:
DeepCpG模型結(jié)構(gòu)
電子科技大學(xué)碩士學(xué)位論文16圖2-3MRCNN模型結(jié)構(gòu)相比于DeepCpG模型,MRCNN模型只有DNA模塊而沒有CpG模塊,即MRCNN模型只使用了DNA序列模式作為輸入。MRCNN的輸入是一個(gè)以目標(biāo)CpG位點(diǎn)為中心上下游各200bp長度的DNA序列。在進(jìn)行MRCNN訓(xùn)練之前,需要對(duì)這些DNA序列片段進(jìn)行one-hot編碼,以將原始序列中的堿基A,T,C和G轉(zhuǎn)換為可以輸入到網(wǎng)絡(luò)的矩陣。預(yù)處理后,可以為每個(gè)目標(biāo)CpG位點(diǎn)生成400×4大小的矩陣,其中每一行代表一個(gè)堿基(A,T,C,G),而各列則組裝了整個(gè)原始片段。MRCNN模塊的第一層是單個(gè)卷積層,卷積內(nèi)核的大小是1×4,主要用于從400×4輸入矩陣中提取單個(gè)含氮堿基的信息。第一層之后有一個(gè)重塑操作,將400×1的輸出張量重塑為20×20張量。第二和第三層是傳統(tǒng)的卷積和池化層,卷積核的大小為3×3,步長為1×1和3×3。第四、五層都是卷積層,其卷積核大小和步長與第二層相同。最后,將最后一層獲得的張量擴(kuò)展到整個(gè)連接層。連接層引入了dropout功能,防止在訓(xùn)練中過度擬合,然后通過輸出層預(yù)測甲基化水平。選擇了均方誤差函數(shù)作為訓(xùn)練過程中的損失函數(shù),通過最小化均方誤差來訓(xùn)練各層濾波器權(quán)重。通過多層卷積學(xué)習(xí),MRCNN可在單堿基分辨率下實(shí)現(xiàn)CpG位點(diǎn)的甲基化預(yù)測,并且由于具有連續(xù)的損失函數(shù),該方法能夠?qū)崿F(xiàn)連續(xù)的甲基化值回歸。為了說明模型的性能,田奇等人還將MRCNN與DeepCpG進(jìn)行了比較。發(fā)現(xiàn)MRCNN在只使用DNA序列信息的情況下,依然能夠擁有不亞于DeepCpG的預(yù)測準(zhǔn)確率,這也證實(shí)了只使用DNA序列進(jìn)行甲基化預(yù)測的可行性。2.3本文所用的數(shù)據(jù)集本文模型研究與訓(xùn)練所用的數(shù)據(jù)為全基因組亞硫酸氫鹽測序(wholegenomebisulfitesequencing,WGBS)數(shù)據(jù),下載自GEO公共數(shù)據(jù)庫。本文使用了小腸組織(編號(hào)GSM983646)、食道組織?
電子科技大學(xué)碩士學(xué)位論文32增加到130時(shí),模型的分類準(zhǔn)確率明顯上升,在130到150之間,分類準(zhǔn)確率隨隱藏層節(jié)點(diǎn)數(shù)目變化較小,當(dāng)隱藏層節(jié)點(diǎn)數(shù)增加到150以上時(shí),分類準(zhǔn)確率開始下降。即序列長度400-600bp,隱藏層節(jié)點(diǎn)數(shù)130-150的區(qū)間內(nèi),模型可以獲得較高的準(zhǔn)確率。綜合性能和開銷等多方面考慮,RNN模型的隱藏層節(jié)點(diǎn)數(shù)最終設(shè)置為130,之后的研究基于400bp長度的DNA序列。3.3實(shí)驗(yàn)結(jié)果及性能分析3.3.1RNN模型的回歸性能分析使用2.3節(jié)介紹的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,并統(tǒng)計(jì)了RNN模型和MRCNN模型所有測試位點(diǎn)的預(yù)測值和真實(shí)值之間的絕對(duì)誤差,并通過統(tǒng)計(jì)結(jié)果擬合了如圖3-9所示的兩種模型的誤差分布概率密度曲線。其中藍(lán)色實(shí)線為RNN模型的誤差分布概率密度曲線,綠色虛線為MRCNN模型的誤差分布概率密度曲線。從圖中可以看出兩種模型的誤差分布概率密度曲線存在明顯的差異,RNN的誤差分布概率密度曲線峰值在0左側(cè),而MRCNN誤差分布概率密度曲線峰值在0右側(cè),這表示RNN模型在回歸預(yù)測時(shí)更容易出現(xiàn)預(yù)測值小于實(shí)際值的情況,而MRCNN模型預(yù)測值和真實(shí)值之間的絕對(duì)誤差為正的情況較多。對(duì)于兩種模型概率密度曲線的差異,推測主要是由于RNN模型和MRCNN模型特征提取模式的不同造成的,MRCNN模型對(duì)DNA序列進(jìn)行特征提取時(shí),會(huì)對(duì)特征矩陣進(jìn)行重塑,不利于時(shí)序特征的提取,但不會(huì)對(duì)類似于CG含量這樣的非時(shí)序特征造成影響。而RNN模型,其內(nèi)部循環(huán)單元彼此連接,并在輸入序列傳遞方向上進(jìn)行遞歸,使得其更擅長提取序列特征。圖3-9誤差分布概率密度曲線
【參考文獻(xiàn)】:
期刊論文
[1]表觀遺傳學(xué)的作用機(jī)制及其與經(jīng)典遺傳學(xué)的異同[J]. 惠瑞敏,王小榮,朱文婷. 生物化工. 2018(05)
[2]DNA甲基化與衰老的研究進(jìn)展[J]. 沈赟,鐘遠(yuǎn),苗雅. 老年醫(yī)學(xué)與保健. 2018(04)
[3]DNA甲基化檢測方法研究進(jìn)展[J]. 代雅琪,張博洋,朱麗葉,唐小革,許文濤. 農(nóng)業(yè)生物技術(shù)學(xué)報(bào). 2017(01)
博士論文
[1]多任務(wù)學(xué)習(xí)算法研究[D]. 浦劍.復(fù)旦大學(xué) 2013
[2]基于特征融合與仿生模式的生物特征識(shí)別研究[D]. 徐穎.華南理工大學(xué) 2013
碩士論文
[1]組稀疏多任務(wù)學(xué)習(xí)方法及其應(yīng)用研究[D]. 孫怡.南京郵電大學(xué) 2019
[2]基于雙通道時(shí)空特征深度學(xué)習(xí)的新生兒疼痛表情識(shí)別[D]. 耿惠惠.南京郵電大學(xué) 2019
[3]基于阿貝爾復(fù)雜度方法的全基因組DNA甲基化的預(yù)測[D]. 劉云霞.華中農(nóng)業(yè)大學(xué) 2018
[4]DNA甲基化狀態(tài)在線預(yù)測平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 李承哲.電子科技大學(xué) 2016
本文編號(hào):3328777
本文鏈接:http://www.sikaile.net/projectlw/swxlw/3328777.html
最近更新
教材專著