基于集成學(xué)習(xí)模型下的蛋白質(zhì)交互作用預(yù)測(cè)方法研究
發(fā)布時(shí)間:2021-12-24 02:37
隨著后基因組發(fā)展,蛋白質(zhì)組的研究正在如火如荼地進(jìn)行.蛋白質(zhì)相互作用的研究不僅有助于揭示生命活動(dòng)的本質(zhì),而且還有助于理解疾病活動(dòng)的機(jī)制和有效藥物的開發(fā).機(jī)器學(xué)習(xí)的快速發(fā)展為理解蛋白質(zhì)相互作用的機(jī)制提供了新的機(jī)遇和挑戰(zhàn).它在蛋白質(zhì)組學(xué)研究領(lǐng)域發(fā)揮著重要作用.近年來,已經(jīng)開發(fā)了越來越多的用于預(yù)測(cè)蛋白質(zhì)相互作用的計(jì)算方法.本文的模型是基于集成學(xué)習(xí)的思想,結(jié)合隨機(jī)森林和支持向量機(jī)算法來預(yù)測(cè)蛋白質(zhì)間相互作用.本文的主要工作包含以下幾點(diǎn):(1)蛋白質(zhì)-蛋白質(zhì)相互作用在各種生物過程中起關(guān)鍵作用.已經(jīng)開發(fā)了許多方法來預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用.然而,許多現(xiàn)有的應(yīng)用是有局限的,因?yàn)樗鼈円蕾囉诖罅康耐吹鞍缀拖嗷プ饔脴?biāo)記.在本文中,我們提出了一種新的集成學(xué)習(xí)方法(RF-Ada-DF),和基于氨基酸序列的特征提取方法,用于識(shí)別蛋白質(zhì)-蛋白質(zhì)相互作用.我們的方法首先通過多元互信息和歸一化Moreau-Broto自相關(guān)描述符技術(shù)構(gòu)建基于蛋白質(zhì)序列的特征向量來表示每對(duì)蛋白質(zhì).然后,我們將提取的638維特征輸入到用于判斷交互對(duì)和非交互對(duì)的集成學(xué)習(xí)模型中.此外,該集成模型在AdaBoost框架中嵌入隨機(jī)森林,并將弱分類...
【文章來源】:安徽師范大學(xué)安徽省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.2 蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測(cè)方法研究現(xiàn)狀
1.2.1 基于進(jìn)化信息的方法
1.2.2 基于自然語言處理的預(yù)測(cè)方法
1.2.3 基于氨基酸序列的預(yù)測(cè)方法
1.3 機(jī)器學(xué)習(xí)算法在蛋白質(zhì)交互中的研究現(xiàn)狀
1.4 內(nèi)容安排
第二章 RF-Ada-DF:識(shí)別蛋白質(zhì)-蛋白質(zhì)相互作用的綜合預(yù)測(cè)因子
2.1 引言
2.2 蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測(cè)方法介紹
2.2.1 計(jì)算多元互信息
2.2.2 規(guī)范化Moreau-Broto自相關(guān)
2.3 集成學(xué)習(xí)模型
2.3.1 隨機(jī)森林
2.3.2 AdaBoost框架
2.3.3 雙誤度量故障檢測(cè)
2.3.4 RF-Ada-DF
2.4 數(shù)據(jù)集和評(píng)價(jià)方法
2.4.1 PPIs數(shù)據(jù)集.
2.4.2 實(shí)驗(yàn)設(shè)置
2.4.3 評(píng)價(jià)指標(biāo)
2.5 實(shí)驗(yàn)結(jié)果
2.5.1 分析MMI和 NMBAC的特征表現(xiàn).
2.5.2 將RF-Ada-DF與現(xiàn)有分類器進(jìn)行比較
2.5.3 在Heli.pylori數(shù)據(jù)集上的性能
2.5.4 在S.cerevisiae數(shù)據(jù)集的性能
2.5.5 在Human數(shù)據(jù)集上的性能
2.5.6 跨物種數(shù)據(jù)集的PPIs識(shí)別
2.5.7 兩個(gè)特殊的PPIs數(shù)據(jù)集
2.6 討論
2.7 本章小節(jié)
第三章 通過綜合計(jì)算方法識(shí)別配體-受體相互作用
3.1 引言
3.2 配體-受體相互作用預(yù)測(cè)方法
3.2.1 定向梯度直方圖
3.2.2 氨基酸接觸矩陣
3.2.3 分解矩陣和計(jì)算直方圖
3.2.4 離散余弦變換
3.2.5 模糊C均值聚類
3.2.6 支持向量機(jī)
3.3 Neighborhood Fuzzy和 Ensemble Fuzzy模型
3.3.1 相似性度量
3.3.2 Neighborhood Fuzzy模型
3.3.3 Ensemble Fuzzy模型
3.4 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
3.4.1 數(shù)據(jù)集
3.4.2 評(píng)價(jià)指標(biāo)
3.5 實(shí)驗(yàn)結(jié)果
3.5.1 實(shí)驗(yàn)設(shè)置
3.5.2 不平衡數(shù)據(jù)集
3.5.3 平衡數(shù)據(jù)集
3.5.4 PPIs預(yù)測(cè)的性能
3.6 討論
3.7 結(jié)論
第四章 總結(jié)與展望
4.1 總結(jié)
4.2 展望
參考文獻(xiàn)
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的其他研究成果
本文編號(hào):3549661
【文章來源】:安徽師范大學(xué)安徽省
【文章頁數(shù)】:69 頁
【學(xué)位級(jí)別】:碩士
【文章目錄】:
摘要
ABSTRACT
第一章 緒論
1.1 研究背景
1.2 蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測(cè)方法研究現(xiàn)狀
1.2.1 基于進(jìn)化信息的方法
1.2.2 基于自然語言處理的預(yù)測(cè)方法
1.2.3 基于氨基酸序列的預(yù)測(cè)方法
1.3 機(jī)器學(xué)習(xí)算法在蛋白質(zhì)交互中的研究現(xiàn)狀
1.4 內(nèi)容安排
第二章 RF-Ada-DF:識(shí)別蛋白質(zhì)-蛋白質(zhì)相互作用的綜合預(yù)測(cè)因子
2.1 引言
2.2 蛋白質(zhì)-蛋白質(zhì)相互作用預(yù)測(cè)方法介紹
2.2.1 計(jì)算多元互信息
2.2.2 規(guī)范化Moreau-Broto自相關(guān)
2.3 集成學(xué)習(xí)模型
2.3.1 隨機(jī)森林
2.3.2 AdaBoost框架
2.3.3 雙誤度量故障檢測(cè)
2.3.4 RF-Ada-DF
2.4 數(shù)據(jù)集和評(píng)價(jià)方法
2.4.1 PPIs數(shù)據(jù)集.
2.4.2 實(shí)驗(yàn)設(shè)置
2.4.3 評(píng)價(jià)指標(biāo)
2.5 實(shí)驗(yàn)結(jié)果
2.5.1 分析MMI和 NMBAC的特征表現(xiàn).
2.5.2 將RF-Ada-DF與現(xiàn)有分類器進(jìn)行比較
2.5.3 在Heli.pylori數(shù)據(jù)集上的性能
2.5.4 在S.cerevisiae數(shù)據(jù)集的性能
2.5.5 在Human數(shù)據(jù)集上的性能
2.5.6 跨物種數(shù)據(jù)集的PPIs識(shí)別
2.5.7 兩個(gè)特殊的PPIs數(shù)據(jù)集
2.6 討論
2.7 本章小節(jié)
第三章 通過綜合計(jì)算方法識(shí)別配體-受體相互作用
3.1 引言
3.2 配體-受體相互作用預(yù)測(cè)方法
3.2.1 定向梯度直方圖
3.2.2 氨基酸接觸矩陣
3.2.3 分解矩陣和計(jì)算直方圖
3.2.4 離散余弦變換
3.2.5 模糊C均值聚類
3.2.6 支持向量機(jī)
3.3 Neighborhood Fuzzy和 Ensemble Fuzzy模型
3.3.1 相似性度量
3.3.2 Neighborhood Fuzzy模型
3.3.3 Ensemble Fuzzy模型
3.4 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
3.4.1 數(shù)據(jù)集
3.4.2 評(píng)價(jià)指標(biāo)
3.5 實(shí)驗(yàn)結(jié)果
3.5.1 實(shí)驗(yàn)設(shè)置
3.5.2 不平衡數(shù)據(jù)集
3.5.3 平衡數(shù)據(jù)集
3.5.4 PPIs預(yù)測(cè)的性能
3.6 討論
3.7 結(jié)論
第四章 總結(jié)與展望
4.1 總結(jié)
4.2 展望
參考文獻(xiàn)
致謝
在讀期間發(fā)表的學(xué)術(shù)論文與取得的其他研究成果
本文編號(hào):3549661
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3549661.html
最近更新
教材專著