蛋白質(zhì)-RNA相互作用的集成算法預(yù)測研究及統(tǒng)計分析
發(fā)布時間:2017-05-25 12:23
本文關(guān)鍵詞:蛋白質(zhì)-RNA相互作用的集成算法預(yù)測研究及統(tǒng)計分析,由筆耕文化傳播整理發(fā)布。
【摘要】:蛋白質(zhì)-RNA相互作用與生物體內(nèi)的多種生命活動密切相關(guān)。因此,探討蛋白質(zhì)-RNA相互作用的分子機制,對于理解生物學(xué)過程、疾病病理研究以及藥物設(shè)計具有重要的指導(dǎo)意義。目前,生物學(xué)家通過X-射線晶體衍射和核磁共振等實驗方法得到蛋白質(zhì)-RNA復(fù)合物的結(jié)構(gòu)數(shù)據(jù)仍然較少,主要是由于實驗測定過程較為復(fù)雜繁瑣,時間和經(jīng)費方面花費比較大,并且有些蛋白質(zhì)-RNA復(fù)合物結(jié)晶很難通過實驗方法來獲得。因此,隨著蛋白質(zhì)-RNA復(fù)合物結(jié)構(gòu)數(shù)據(jù)的不斷積累,研究人員逐漸嘗試從生物信息學(xué)角度研究蛋白質(zhì)-RNA的相互作用。 本學(xué)位論文以蛋白質(zhì)-RNA復(fù)合物為研究對象,綜合應(yīng)用多種統(tǒng)計學(xué)和生物信息學(xué)方法,探討了蛋白質(zhì)-RNA相互作用的幾個關(guān)鍵問題:RNA結(jié)合蛋白識別、RNA結(jié)合氨基酸殘基識別、RNA結(jié)合殘基偏好性以及氨基酸-RNA結(jié)合模式的統(tǒng)計分析,希望建立以蛋白質(zhì)序列和結(jié)構(gòu)信息為基礎(chǔ)的RNA結(jié)合蛋白、RNA結(jié)合位點的預(yù)測模型,并對蛋白質(zhì)-RNA相互作用界面進行系統(tǒng)分析,為蛋白質(zhì)-RNA相互作用機制研究提供更為深入的參考信息。本論文的具體研究工作包括以下幾個方面: 1、建立了基于隨機森林算法和支持向量機算法的RNA結(jié)合蛋白識別的集成算法預(yù)測模型。建立預(yù)測模型過程中,我們充分考慮了蛋白質(zhì)的序列信息和結(jié)構(gòu)信息,即蛋白質(zhì)的物理化學(xué)性質(zhì)、進化信息以及溶劑可及化表面積。由于每條蛋白質(zhì)鏈的長度不一致,需要通過一定的方法將這些長度不等的蛋白質(zhì)特征轉(zhuǎn)換為長度相同的數(shù)值信息;谵D(zhuǎn)換后的特征信息,我們采用基于隨機森林算法和支持向量機為基礎(chǔ)分類器的集成學(xué)習(xí)方法來構(gòu)建分類模型,以解決數(shù)據(jù)集中不同類樣本量的不平衡問題。集成模型還可以有效提高模型的準確率和泛化能力。模型的預(yù)測結(jié)果顯示,本工作采用的方法獲得了令人滿意的結(jié)果。進一步討論分析發(fā)現(xiàn)支持向量機方法的預(yù)測能力和擬合能力優(yōu)于隨機森林方法,并且集成算法也確實有效地解決了樣本不平衡問題。 2、基于蛋白質(zhì)序列和結(jié)構(gòu)的綜合特征信息,我們構(gòu)建了RNA結(jié)合殘基的集成預(yù)測模型。首先基于蛋白質(zhì)序列,我們計算了氨基酸的進化信息、保守性信息和物理化學(xué)信息。其次根據(jù)蛋白質(zhì)的三維結(jié)構(gòu)計算得到氨基酸的溶劑可及化表面積和蛋白質(zhì)的殘基相互作用網(wǎng)絡(luò)參數(shù)。根據(jù)隨機森林方法對這些特征進行篩選以得到與蛋白質(zhì)-RNA相互作用密切相關(guān)的描述符。最后將所選取的特征子集作為隨機森林模型的輸入,構(gòu)建RNA結(jié)合位點識別的預(yù)測模型。本工作中我們共構(gòu)建了50個獨立的隨機森林預(yù)測模型,最后將所有獨立模型進行集成分析。結(jié)果顯示,我們所建立的模型得到了令人滿意的預(yù)測結(jié)果。另一方面,通過特征選擇找到了影響氨基酸與RNA發(fā)生作用的重要特征信息,有助于蛋白質(zhì)-RNA相互作用的作用機制的研究。 3、基于數(shù)據(jù)集RBP86,我們對復(fù)合物相互作用界面上的RNA結(jié)合殘基、氨基酸-RNA結(jié)合模式以及重要特征在結(jié)合位點和非結(jié)合位點上的分布情況進行了統(tǒng)計分析。統(tǒng)計分析結(jié)果表明:(1)20種氨基酸中堿性氨基酸易于和RNA分子發(fā)生作用,尤其是賴氨酸(K)和精氨酸(R)。這主要是由于堿性氨基酸側(cè)鏈帶有正電荷,容易與帶負電荷的RNA分子相互作用,并且堿性氨基酸的側(cè)鏈都比較長,因此靈活性好,柔性大,易于和RNA分子作用。進一步發(fā)現(xiàn)氨基酸的極性也是影響蛋白質(zhì)-RNA相互作用的重要影響因素;(2)在不同的蛋白質(zhì)二級結(jié)構(gòu)中,我們發(fā)現(xiàn)Turn類和Coil類結(jié)構(gòu)的相對使用偏好性比較大。主要是由于這兩類結(jié)構(gòu)具有高曲率,靈活性好,有利于氨基酸與RNA發(fā)生結(jié)合;(3)兩個相鄰殘基同時與RNA分子發(fā)生結(jié)合時,R、K和G之間的協(xié)同作用比較大,并且在殘基相互作用網(wǎng)絡(luò)中R與其他氨基酸之間的協(xié)同作用比較強烈。(4)本章還統(tǒng)計了6類不同氨基酸-RNA組合在復(fù)合物結(jié)構(gòu)中發(fā)生結(jié)合的相對使用偏好性,結(jié)果顯示結(jié)合氨基酸中堿性氨基酸和具有turn結(jié)構(gòu)的氨基酸與RNA中的磷酸基團結(jié)合具有很高的結(jié)合偏好性,并且R和K所具有的結(jié)合偏好性最大。(5)針對重要描述符特征值在結(jié)合殘基和非結(jié)合殘基中的數(shù)值分布情況的統(tǒng)計分析發(fā)現(xiàn),除了平均最短路徑、連通性和節(jié)點度外,其他各類網(wǎng)絡(luò)參數(shù)和保守性指數(shù)在低數(shù)值區(qū)域內(nèi),非結(jié)合位點殘基發(fā)生的概率明顯高于結(jié)合位點殘基。相反,在高數(shù)值區(qū)域內(nèi),結(jié)合位點殘基發(fā)生的概率高于非結(jié)合位點殘基。
【關(guān)鍵詞】:蛋白質(zhì)-RNA相互作用 殘基相互作用網(wǎng)絡(luò) 界面分析 結(jié)合蛋白識別 結(jié)合位點識別 集成算法
【學(xué)位授予單位】:蘭州大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:R3411
【目錄】:
- 摘要3-5
- Abstract5-10
- 第一章 研究背景與方法介紹10-37
- 1.1 蛋白質(zhì)-RNA相互作用概述10-16
- 1.1.1 RNA結(jié)合蛋白的特征11-12
- 1.1.2 蛋白質(zhì)-RNA相互作用的研究12-16
- 1.2 本文所使用的特征描述符介紹16-23
- 1.2.1 基于序列的蛋白質(zhì)結(jié)構(gòu)、物理化學(xué)性質(zhì)表征17-20
- 1.2.2 基于序列的遺傳信息表征20
- 1.2.3 基于結(jié)構(gòu)的溶劑可及化表面積20-21
- 1.2.4 基于結(jié)構(gòu)的殘基相互作用網(wǎng)絡(luò)特征參數(shù)21-23
- 1.3 本論文中應(yīng)用的主要研究方法23-29
- 1.3.1 特征選擇方法23-24
- 1.3.2 機器學(xué)習(xí)方法24-26
- 1.3.3 集成學(xué)習(xí)方法26-28
- 1.3.4 模型評價及驗證28-29
- 1.4 本論文的選題思路29-30
- 參考文獻30-37
- 第二章 基于機器學(xué)習(xí)算法集成的RNA結(jié)合蛋白的預(yù)測研究37-47
- 2.1 研究背景介紹37-38
- 2.2 數(shù)據(jù)來源和方法38-40
- 2.2.1 數(shù)據(jù)來源38-39
- 2.2.2 特征描述39-40
- 2.2.3 建模及驗證40
- 2.3 結(jié)果和討論40-44
- 2.3.1 訓(xùn)練集交互驗證和測試集結(jié)果40-41
- 2.3.2 特征分析41-43
- 2.3.3 與其它方法的結(jié)果比較43-44
- 2.4 結(jié)論44-45
- 參考文獻45-47
- 第三章 基于序列和結(jié)構(gòu)信息的RNA結(jié)合殘基集成預(yù)測模型47-60
- 3.1 研究背景介紹47-49
- 3.2 數(shù)據(jù)來源和方法49-51
- 3.2.1 數(shù)據(jù)來源49
- 3.2.2 特征描述49-51
- 3.2.3 建模及驗證51
- 3.3 結(jié)果和討論51-56
- 3.3.1 隨機森林集成方法的預(yù)測結(jié)果51-53
- 3.3.2 與其他方法的結(jié)果比較53-54
- 3.3.3 重要特征分析54-56
- 3.4 結(jié)論56-58
- 參考文獻58-60
- 第四章 蛋白質(zhì)-RNA相互作用界面的統(tǒng)計分析60-73
- 4.1 研究背景介紹60-61
- 4.2 數(shù)據(jù)來源和方法61-63
- 4.2.1 數(shù)據(jù)來源61
- 4.2.2 結(jié)合偏好性61-63
- 4.2.3 殘基保守性和網(wǎng)絡(luò)特征分析63
- 4.3 結(jié)果和討論63-71
- 4.3.1 蛋白質(zhì)-RNA復(fù)合物中RNA結(jié)合殘基的偏好性63-66
- 4.3.2 蛋白質(zhì)-RNA復(fù)合物中氨基酸-RNA結(jié)合對的偏好性66-68
- 4.3.3 重要特征在RNA結(jié)合殘基和非結(jié)合殘基上的分布差異性68-71
- 4.4 結(jié)論71-72
- 參考文獻72-73
- 在學(xué)期間的研究成果73-74
- 致謝74
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前1條
1 馬昕;郭靜;孫嘯;;蛋白質(zhì)中RNA-結(jié)合殘基預(yù)測的隨機森林模型[J];東南大學(xué)學(xué)報(自然科學(xué)版);2012年01期
本文關(guān)鍵詞:蛋白質(zhì)-RNA相互作用的集成算法預(yù)測研究及統(tǒng)計分析,,由筆耕文化傳播整理發(fā)布。
本文編號:393732
本文鏈接:http://www.sikaile.net/yixuelunwen/shiyanyixue/393732.html
最近更新
教材專著