基于SCOP拓撲結(jié)構(gòu)的蛋白質(zhì)遠同源性檢測與折疊識別

發(fā)布時間：2021-09-08 07:59

　　蛋白質(zhì)折疊識別和遠同源性檢測是生物信息學領(lǐng)域中的兩個基礎(chǔ)問題。通過蛋白質(zhì)的序列信息來準確的預測蛋白質(zhì)的遠同源物和折疊類別,對蛋白質(zhì)的功能結(jié)構(gòu)研究以及新型藥物的精準設(shè)計有著重要作用。本研究中,蛋白質(zhì)的序列檢測問題被視為檢索任務,旨在找到與未知查詢蛋白高度相關(guān)的已知功能結(jié)構(gòu)的蛋白質(zhì)序列,進而推斷未知蛋白質(zhì)的功能結(jié)構(gòu)。傳統(tǒng)基于序列比對的蛋白質(zhì)遠同源檢測方法對于序列相似度較低的蛋白質(zhì)檢測性能一般,雖然目前出現(xiàn)了一些機器學習方法來解決這個問題,但對特征的質(zhì)量依賴較強。而構(gòu)建蛋白質(zhì)相似性網(wǎng)絡可以進一步提高檢測性能,但其十分依賴基排序方法的性能。針對以上問題,本研究通過融合特征到學習排序方法中來提高基排序結(jié)果的性能,并構(gòu)建了基于SCOP拓撲結(jié)構(gòu)的蛋白質(zhì)相似性網(wǎng)絡。最后,將兩者融合起來提出了Prot Dec-LTR4.0方法。在SCOP基準數(shù)據(jù)集上的測試結(jié)果表明,該方法能夠有效地提高蛋白質(zhì)遠同源性檢測性能。雖然排序融合策略在解決蛋白質(zhì)遠同源性檢測方面取得了成功。但是折疊識別問題因為序列相似度較低,導致基排序的正樣本覆蓋率性能一般,獲得的特征存在大量缺失現(xiàn)象。針對這個問題,本研究提出了基于SCOP拓撲結(jié)...

【文章來源】：哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校

【文章頁數(shù)】：62 頁

【學位級別】：碩士

【部分圖文】：

SCOP數(shù)據(jù)集拓撲結(jié)構(gòu)形式與主要涉及問題示意圖[12]

蛋白質(zhì),同源性,內(nèi)容,方法

哈爾濱工業(yè)大學工學碩士學位論文-7-研究；三是基于三元閉包網(wǎng)絡的蛋白質(zhì)折疊識別方法的研究。三個章節(jié)之間的數(shù)據(jù)之間的序列相似度也依次更低，問題研究難度也依次遞增。因此本課題主要從三個方面來展開研究，主要研究內(nèi)容見圖1-2。具體介紹如下：圖1-2本文研究內(nèi)容（1）基于排序網(wǎng)絡的蛋白質(zhì)遠同源性檢測方法的研究。在該方法研究中，提出了三種用于蛋白質(zhì)對之間的相似度度量方法，將單序列的特征映射成雙序列比對特征。然后基于SCOP拓撲結(jié)構(gòu)構(gòu)建了蛋白質(zhì)的相似性網(wǎng)絡并進行了優(yōu)化，實現(xiàn)了對排序結(jié)果進行重排序，最后，將學習排序算法與網(wǎng)絡傳播算法融合一起提出了名叫Protdec-LTR4.0的蛋白質(zhì)遠程同源檢測方法。通過在SCOP基準數(shù)據(jù)集的進行性能評估測試和結(jié)果顯著性分析，表明本章節(jié)提出的方法有效的提高了蛋白質(zhì)遠同源性檢測的性能。（2）基于序列譜信息的蛋白質(zhì)折疊識識別方法的研究。基于序列譜的特征因其包含了蛋白質(zhì)的進化信息，使得其在比對算法中比直接序列對的方法得了更好的效果。本章研究中，通過將多種不同基于序列譜的方法提取的特征融合一起，從而達到多種方法相互增益的目的。針對折疊識別問題中蛋白質(zhì)之間序列相似度較低，導致部分蛋白質(zhì)對無法被命中，從而產(chǎn)生的特征缺失和部分特征維度缺失問題，分別提出了特征擴展和特征轉(zhuǎn)換策略來解決這個問題。最終，結(jié)合支持向量機分類器提出了Fold-LTR-SVM的方法。在兩個基于SCOP拓撲結(jié)構(gòu)劃分的折疊識別基準數(shù)據(jù)集上的實驗結(jié)果表明，F(xiàn)old-LTR-SVM方法可以有效提高預測性能。（3）基于三元閉包的蛋白質(zhì)折疊識別方法的研究�；赟COP數(shù)據(jù)集構(gòu)建的LE基準數(shù)據(jù)集在折疊識別問題研究中有著廣泛的應用。相同折疊的不同超家族蛋白質(zhì)序列之間的相似度一般都低于25%。數(shù)據(jù)之間的相似度較低，

示意圖,方法,示意圖,排序方法

哈爾濱工業(yè)大學工學碩士學位論文-11-算法[42]構(gòu)建蛋白質(zhì)相似網(wǎng)絡來提高查詢反饋結(jié)果的準確性。在本研究中，將學習排序算法、PageRank和HITS結(jié)合一起，提出了ProtDec-LTR4.0方法，進一步提高了排序結(jié)果的準確性。ProtDec-LTR4.0方法的示意圖如圖2-1所示:圖2-1ProtDec-LTR4.0方法示意圖2.4.特征工程2.4.1多種序列特征提取策略介紹在本研究中，三種最先進的蛋白質(zhì)檢測排序方法（PSI-BLAST[30]、Hmmer[36]和HHblits[37]）被作為基排序方法。這三種基排序方法被用來提取基于序列比對打分的特征。這些方法是互補的，因為它們基于不同的技術(shù)和

【參考文獻】：
期刊論文
[1]蛋白質(zhì)組學在醫(yī)學研究中的應用與進展[J]. 李玉香,戎浩,胡群英,李文華.  中國組織工程研究. 2016(33)
[2]基于同源基因的病原菌鑒定和分型靶位點的功能基因組學研究[J]. 杜鵬程,張雯,劉翟,陳晨.  中國科學:生命科學. 2011(08)
[3]生物信息學的現(xiàn)狀與展望[J]. 張春霆.  世界科技研究與發(fā)展. 2000(06)

碩士論文
[1]基于序列譜的蛋白質(zhì)折疊識別和遠同源性檢測[D]. 郭明月.哈爾濱工業(yè)大學 2018

本文編號：3390427

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會員下載

Download by Member

本文鏈接：http://www.sikaile.net/projectlw/swxlw/3390427.html

上一篇：拓展熒光顯微鏡在細胞生物學實驗教學中的應用
下一篇：擬南芥VQ3基因在調(diào)控植物生長發(fā)育中的作用及機制研究

論文發(fā)表

·知網(wǎng)|萬方|維普|龍源|省級|國家級|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于SCOP拓撲結(jié)構(gòu)的蛋白質(zhì)遠同源性檢測與折疊識別