基于深度學習的基因調(diào)控網(wǎng)絡推斷研究
發(fā)布時間:2021-11-10 01:38
基因調(diào)控網(wǎng)絡描述了基因、RNA和調(diào)控子等生物大分子之間的調(diào)控關(guān)系,通過分析基因調(diào)控網(wǎng)絡,可以實現(xiàn)基因組層面的生理過程解析。作為計算生物學與系統(tǒng)生物學領(lǐng)域的重要課題,基因調(diào)控網(wǎng)絡推斷問題一直是國內(nèi)外學者的研究熱點。現(xiàn)有的基因調(diào)控網(wǎng)絡推斷技術(shù)主要分為基于特征工程的機器學習方法和基于深度學習的方法兩類。基于特征工程的機器學習方法不足主要包括三個方面,分別是無法考慮調(diào)控關(guān)系的方向性、無法應用于大規(guī)模網(wǎng)絡和輸入特征的設(shè)計與特征選擇的不穩(wěn)定問題。基于深度學習的方法則存在有標注數(shù)據(jù)量不足和特征數(shù)據(jù)維度過高的問題,導致深度學習模型在基因調(diào)控網(wǎng)絡推斷問題中未成為主流。針對現(xiàn)有方法存在的問題,本文同時從數(shù)據(jù)構(gòu)造和模型設(shè)計兩方面入手,通過合理構(gòu)造訓練數(shù)據(jù)以及結(jié)合深度學習模型和噪聲估計方法,研究基于深度學習的基因調(diào)控網(wǎng)絡推斷方法。本文通過分析來自ENCODE項目的老鼠基因表達數(shù)據(jù)集的基因表達數(shù)據(jù)和標簽構(gòu)成,設(shè)計了適用于基因表達數(shù)據(jù)的負樣例構(gòu)造方法;結(jié)合數(shù)據(jù)來源特點和生物學背景知識,基于語義匹配的思想,提出了Match-LSTM模型作為基線模型。利用注意力機制建模不同時間點和不同細胞環(huán)境表達強度對整體關(guān)系判定的...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
細胞類型特異基因調(diào)控過程示意圖
示基因之間、基因和蛋白質(zhì)之間的調(diào)控關(guān)系的特征用于推斷基因調(diào)控網(wǎng)絡。從本質(zhì)上講,關(guān)系推斷就是通過總結(jié)具有調(diào)控關(guān)系的基因?qū)Ρ磉_特征之間的共性規(guī)律,并將此規(guī)律用于判斷其他基因之間的關(guān)系。圖1-2介紹了本文的基本研究內(nèi)容以及各部分之間的關(guān)系。本文主要研究內(nèi)容包括:(1)通過分析基因調(diào)控網(wǎng)絡推斷任務的特點和老鼠基因表達數(shù)據(jù)集構(gòu)成,研究基于基因表達數(shù)據(jù)特點的預處理方法和數(shù)據(jù)集負樣例構(gòu)造方法;針對數(shù)據(jù)來源的特點和相關(guān)生物背景知識,依據(jù)語義匹配的思想,提出了兩種分別結(jié)合內(nèi)部和交互注意力機制的關(guān)系判定模型,稱作 Att-Match 模型。實驗結(jié)果顯示,在相同數(shù)據(jù)量和基因表達特征數(shù)據(jù)的條件下,Att-Match 模型相比于主流特征工程方法,對調(diào)控網(wǎng)絡推斷的關(guān)系判定問題具有明顯更優(yōu)的效果。(2)針對基因調(diào)控網(wǎng)絡推斷問題中已知調(diào)控關(guān)系偏少和先驗調(diào)控網(wǎng)絡可信度偏低的特點,本文研究通過結(jié)合類噪聲估計模型和半監(jiān)督學習方法,將現(xiàn)有調(diào)控網(wǎng)- 5 -
哈爾濱工業(yè)大學工學碩士學位論文用,而且 BBSR 在從表達數(shù)據(jù)和噪聲結(jié)構(gòu)先驗推斷基因調(diào)控關(guān)系時性能N。LARS-EN[38]使用彈性網(wǎng)絡回歸(elastic net regression),結(jié)合 L1 和 L2 正變量選擇。實驗表明,彈性網(wǎng)絡和 LASSO 相比,性能占優(yōu),而且具有類的效果;彈性網(wǎng)絡鼓勵分組效應,強相關(guān)的預測趨于同進同出,當標簽數(shù)本數(shù)量時,這種效應尤為明顯;跇涞木C合回歸方法,比如 GENIE3 算法[39],和線性回歸模型不同的是模型不做任何關(guān)于基因調(diào)控的假設(shè),使得它可以解決組合的和非線性的。作為 DREAM4 項目的 Silico Multfactorial Challenge 最優(yōu)方案,GENIE p 個基因之間的調(diào)控網(wǎng)絡預測問題轉(zhuǎn)化成 p 個不同的回歸問題。該算法歸問題中,使用隨機森林作為基本的集合方法,并以所有其他基因的表為輸入,預測靶基因的表達模式。輸入基因的重要性權(quán)重被作為輸入基因之間推斷整個調(diào)控網(wǎng)絡的重要指標。 圖2-1是 GENIE3 算法的基本流程
【參考文獻】:
期刊論文
[1]基于部分互信息和貝葉斯打分函數(shù)的基因調(diào)控網(wǎng)絡構(gòu)建算法[J]. 劉飛,張紹武,高紅艷. 西北工業(yè)大學學報. 2017(05)
[2]基于有序條件互信息和有限父結(jié)點構(gòu)建基因調(diào)控網(wǎng)絡[J]. 劉飛,張紹武,高紅艷. 生物化學與生物物理進展. 2017(05)
[3]基于布爾網(wǎng)絡模型的乳腺癌基因調(diào)控網(wǎng)絡的研究[J]. 周漩,周欣,鐘兆健. 計算機與應用化學. 2016(01)
[4]基于基因擾動及變分逼近技術(shù)的基因調(diào)控網(wǎng)絡推斷[J]. 董自健,宋鐵成,袁創(chuàng). 東南大學學報(自然科學版). 2013(06)
[5]基于遞歸神經(jīng)網(wǎng)絡的基因調(diào)控網(wǎng)絡穩(wěn)定性分析[J]. 朱延正,李玉榕,杜民. 系統(tǒng)仿真學報. 2012(12)
[6]基于遞歸模糊神經(jīng)網(wǎng)絡的多時延基因調(diào)控網(wǎng)絡構(gòu)建方法[J]. 徐賽娟,郭紅. 福州大學學報(自然科學版). 2012(02)
本文編號:3486314
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:68 頁
【學位級別】:碩士
【部分圖文】:
細胞類型特異基因調(diào)控過程示意圖
示基因之間、基因和蛋白質(zhì)之間的調(diào)控關(guān)系的特征用于推斷基因調(diào)控網(wǎng)絡。從本質(zhì)上講,關(guān)系推斷就是通過總結(jié)具有調(diào)控關(guān)系的基因?qū)Ρ磉_特征之間的共性規(guī)律,并將此規(guī)律用于判斷其他基因之間的關(guān)系。圖1-2介紹了本文的基本研究內(nèi)容以及各部分之間的關(guān)系。本文主要研究內(nèi)容包括:(1)通過分析基因調(diào)控網(wǎng)絡推斷任務的特點和老鼠基因表達數(shù)據(jù)集構(gòu)成,研究基于基因表達數(shù)據(jù)特點的預處理方法和數(shù)據(jù)集負樣例構(gòu)造方法;針對數(shù)據(jù)來源的特點和相關(guān)生物背景知識,依據(jù)語義匹配的思想,提出了兩種分別結(jié)合內(nèi)部和交互注意力機制的關(guān)系判定模型,稱作 Att-Match 模型。實驗結(jié)果顯示,在相同數(shù)據(jù)量和基因表達特征數(shù)據(jù)的條件下,Att-Match 模型相比于主流特征工程方法,對調(diào)控網(wǎng)絡推斷的關(guān)系判定問題具有明顯更優(yōu)的效果。(2)針對基因調(diào)控網(wǎng)絡推斷問題中已知調(diào)控關(guān)系偏少和先驗調(diào)控網(wǎng)絡可信度偏低的特點,本文研究通過結(jié)合類噪聲估計模型和半監(jiān)督學習方法,將現(xiàn)有調(diào)控網(wǎng)- 5 -
哈爾濱工業(yè)大學工學碩士學位論文用,而且 BBSR 在從表達數(shù)據(jù)和噪聲結(jié)構(gòu)先驗推斷基因調(diào)控關(guān)系時性能N。LARS-EN[38]使用彈性網(wǎng)絡回歸(elastic net regression),結(jié)合 L1 和 L2 正變量選擇。實驗表明,彈性網(wǎng)絡和 LASSO 相比,性能占優(yōu),而且具有類的效果;彈性網(wǎng)絡鼓勵分組效應,強相關(guān)的預測趨于同進同出,當標簽數(shù)本數(shù)量時,這種效應尤為明顯;跇涞木C合回歸方法,比如 GENIE3 算法[39],和線性回歸模型不同的是模型不做任何關(guān)于基因調(diào)控的假設(shè),使得它可以解決組合的和非線性的。作為 DREAM4 項目的 Silico Multfactorial Challenge 最優(yōu)方案,GENIE p 個基因之間的調(diào)控網(wǎng)絡預測問題轉(zhuǎn)化成 p 個不同的回歸問題。該算法歸問題中,使用隨機森林作為基本的集合方法,并以所有其他基因的表為輸入,預測靶基因的表達模式。輸入基因的重要性權(quán)重被作為輸入基因之間推斷整個調(diào)控網(wǎng)絡的重要指標。 圖2-1是 GENIE3 算法的基本流程
【參考文獻】:
期刊論文
[1]基于部分互信息和貝葉斯打分函數(shù)的基因調(diào)控網(wǎng)絡構(gòu)建算法[J]. 劉飛,張紹武,高紅艷. 西北工業(yè)大學學報. 2017(05)
[2]基于有序條件互信息和有限父結(jié)點構(gòu)建基因調(diào)控網(wǎng)絡[J]. 劉飛,張紹武,高紅艷. 生物化學與生物物理進展. 2017(05)
[3]基于布爾網(wǎng)絡模型的乳腺癌基因調(diào)控網(wǎng)絡的研究[J]. 周漩,周欣,鐘兆健. 計算機與應用化學. 2016(01)
[4]基于基因擾動及變分逼近技術(shù)的基因調(diào)控網(wǎng)絡推斷[J]. 董自健,宋鐵成,袁創(chuàng). 東南大學學報(自然科學版). 2013(06)
[5]基于遞歸神經(jīng)網(wǎng)絡的基因調(diào)控網(wǎng)絡穩(wěn)定性分析[J]. 朱延正,李玉榕,杜民. 系統(tǒng)仿真學報. 2012(12)
[6]基于遞歸模糊神經(jīng)網(wǎng)絡的多時延基因調(diào)控網(wǎng)絡構(gòu)建方法[J]. 徐賽娟,郭紅. 福州大學學報(自然科學版). 2012(02)
本文編號:3486314
本文鏈接:http://www.sikaile.net/projectlw/swxlw/3486314.html
最近更新
教材專著