基于SCOP拓撲結(jié)構(gòu)的蛋白質(zhì)遠同源性檢測與折疊識別
發(fā)布時間:2021-09-08 07:59
蛋白質(zhì)折疊識別和遠同源性檢測是生物信息學領(lǐng)域中的兩個基礎(chǔ)問題。通過蛋白質(zhì)的序列信息來準確的預測蛋白質(zhì)的遠同源物和折疊類別,對蛋白質(zhì)的功能結(jié)構(gòu)研究以及新型藥物的精準設(shè)計有著重要作用。本研究中,蛋白質(zhì)的序列檢測問題被視為檢索任務,旨在找到與未知查詢蛋白高度相關(guān)的已知功能結(jié)構(gòu)的蛋白質(zhì)序列,進而推斷未知蛋白質(zhì)的功能結(jié)構(gòu)。傳統(tǒng)基于序列比對的蛋白質(zhì)遠同源檢測方法對于序列相似度較低的蛋白質(zhì)檢測性能一般,雖然目前出現(xiàn)了一些機器學習方法來解決這個問題,但對特征的質(zhì)量依賴較強。而構(gòu)建蛋白質(zhì)相似性網(wǎng)絡可以進一步提高檢測性能,但其十分依賴基排序方法的性能。針對以上問題,本研究通過融合特征到學習排序方法中來提高基排序結(jié)果的性能,并構(gòu)建了基于SCOP拓撲結(jié)構(gòu)的蛋白質(zhì)相似性網(wǎng)絡。最后,將兩者融合起來提出了Prot Dec-LTR4.0方法。在SCOP基準數(shù)據(jù)集上的測試結(jié)果表明,該方法能夠有效地提高蛋白質(zhì)遠同源性檢測性能。雖然排序融合策略在解決蛋白質(zhì)遠同源性檢測方面取得了成功。但是折疊識別問題因為序列相似度較低,導致基排序的正樣本覆蓋率性能一般,獲得的特征存在大量缺失現(xiàn)象。針對這個問題,本研究提出了基于SCOP拓撲結(jié)...
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
SCOP數(shù)據(jù)集拓撲結(jié)構(gòu)形式與主要涉及問題示意圖[12]
哈爾濱工業(yè)大學工學碩士學位論文-7-研究;三是基于三元閉包網(wǎng)絡的蛋白質(zhì)折疊識別方法的研究。三個章節(jié)之間的數(shù)據(jù)之間的序列相似度也依次更低,問題研究難度也依次遞增。因此本課題主要從三個方面來展開研究,主要研究內(nèi)容見圖1-2。具體介紹如下:圖1-2本文研究內(nèi)容(1)基于排序網(wǎng)絡的蛋白質(zhì)遠同源性檢測方法的研究。在該方法研究中,提出了三種用于蛋白質(zhì)對之間的相似度度量方法,將單序列的特征映射成雙序列比對特征。然后基于SCOP拓撲結(jié)構(gòu)構(gòu)建了蛋白質(zhì)的相似性網(wǎng)絡并進行了優(yōu)化,實現(xiàn)了對排序結(jié)果進行重排序,最后,將學習排序算法與網(wǎng)絡傳播算法融合一起提出了名叫Protdec-LTR4.0的蛋白質(zhì)遠程同源檢測方法。通過在SCOP基準數(shù)據(jù)集的進行性能評估測試和結(jié)果顯著性分析,表明本章節(jié)提出的方法有效的提高了蛋白質(zhì)遠同源性檢測的性能。(2)基于序列譜信息的蛋白質(zhì)折疊識識別方法的研究。基于序列譜的特征因其包含了蛋白質(zhì)的進化信息,使得其在比對算法中比直接序列對的方法得了更好的效果。本章研究中,通過將多種不同基于序列譜的方法提取的特征融合一起,從而達到多種方法相互增益的目的。針對折疊識別問題中蛋白質(zhì)之間序列相似度較低,導致部分蛋白質(zhì)對無法被命中,從而產(chǎn)生的特征缺失和部分特征維度缺失問題,分別提出了特征擴展和特征轉(zhuǎn)換策略來解決這個問題。最終,結(jié)合支持向量機分類器提出了Fold-LTR-SVM的方法。在兩個基于SCOP拓撲結(jié)構(gòu)劃分的折疊識別基準數(shù)據(jù)集上的實驗結(jié)果表明,F(xiàn)old-LTR-SVM方法可以有效提高預測性能。(3)基于三元閉包的蛋白質(zhì)折疊識別方法的研究;赟COP數(shù)據(jù)集構(gòu)建的LE基準數(shù)據(jù)集在折疊識別問題研究中有著廣泛的應用。相同折疊的不同超家族蛋白質(zhì)序列之間的相似度一般都低于25%。數(shù)據(jù)之間的相似度較低,
哈爾濱工業(yè)大學工學碩士學位論文-11-算法[42]構(gòu)建蛋白質(zhì)相似網(wǎng)絡來提高查詢反饋結(jié)果的準確性。在本研究中,將學習排序算法、PageRank和HITS結(jié)合一起,提出了ProtDec-LTR4.0方法,進一步提高了排序結(jié)果的準確性。ProtDec-LTR4.0方法的示意圖如圖2-1所示:圖2-1ProtDec-LTR4.0方法示意圖2.4.特征工程2.4.1多種序列特征提取策略介紹在本研究中,三種最先進的蛋白質(zhì)檢測排序方法(PSI-BLAST[30]、Hmmer[36]和HHblits[37])被作為基排序方法。這三種基排序方法被用來提取基于序列比對打分的特征。這些方法是互補的,因為它們基于不同的技術(shù)和
【參考文獻】:
期刊論文
[1]蛋白質(zhì)組學在醫(yī)學研究中的應用與進展[J]. 李玉香,戎浩,胡群英,李文華. 中國組織工程研究. 2016(33)
[2]基于同源基因的病原菌鑒定和分型靶位點的功能基因組學研究[J]. 杜鵬程,張雯,劉翟,陳晨. 中國科學:生命科學. 2011(08)
[3]生物信息學的現(xiàn)狀與展望[J]. 張春霆. 世界科技研究與發(fā)展. 2000(06)
碩士論文
[1]基于序列譜的蛋白質(zhì)折疊識別和遠同源性檢測[D]. 郭明月.哈爾濱工業(yè)大學 2018
本文編號:3390427
【文章來源】:哈爾濱工業(yè)大學黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
SCOP數(shù)據(jù)集拓撲結(jié)構(gòu)形式與主要涉及問題示意圖[12]
哈爾濱工業(yè)大學工學碩士學位論文-7-研究;三是基于三元閉包網(wǎng)絡的蛋白質(zhì)折疊識別方法的研究。三個章節(jié)之間的數(shù)據(jù)之間的序列相似度也依次更低,問題研究難度也依次遞增。因此本課題主要從三個方面來展開研究,主要研究內(nèi)容見圖1-2。具體介紹如下:圖1-2本文研究內(nèi)容(1)基于排序網(wǎng)絡的蛋白質(zhì)遠同源性檢測方法的研究。在該方法研究中,提出了三種用于蛋白質(zhì)對之間的相似度度量方法,將單序列的特征映射成雙序列比對特征。然后基于SCOP拓撲結(jié)構(gòu)構(gòu)建了蛋白質(zhì)的相似性網(wǎng)絡并進行了優(yōu)化,實現(xiàn)了對排序結(jié)果進行重排序,最后,將學習排序算法與網(wǎng)絡傳播算法融合一起提出了名叫Protdec-LTR4.0的蛋白質(zhì)遠程同源檢測方法。通過在SCOP基準數(shù)據(jù)集的進行性能評估測試和結(jié)果顯著性分析,表明本章節(jié)提出的方法有效的提高了蛋白質(zhì)遠同源性檢測的性能。(2)基于序列譜信息的蛋白質(zhì)折疊識識別方法的研究。基于序列譜的特征因其包含了蛋白質(zhì)的進化信息,使得其在比對算法中比直接序列對的方法得了更好的效果。本章研究中,通過將多種不同基于序列譜的方法提取的特征融合一起,從而達到多種方法相互增益的目的。針對折疊識別問題中蛋白質(zhì)之間序列相似度較低,導致部分蛋白質(zhì)對無法被命中,從而產(chǎn)生的特征缺失和部分特征維度缺失問題,分別提出了特征擴展和特征轉(zhuǎn)換策略來解決這個問題。最終,結(jié)合支持向量機分類器提出了Fold-LTR-SVM的方法。在兩個基于SCOP拓撲結(jié)構(gòu)劃分的折疊識別基準數(shù)據(jù)集上的實驗結(jié)果表明,F(xiàn)old-LTR-SVM方法可以有效提高預測性能。(3)基于三元閉包的蛋白質(zhì)折疊識別方法的研究;赟COP數(shù)據(jù)集構(gòu)建的LE基準數(shù)據(jù)集在折疊識別問題研究中有著廣泛的應用。相同折疊的不同超家族蛋白質(zhì)序列之間的相似度一般都低于25%。數(shù)據(jù)之間的相似度較低,
哈爾濱工業(yè)大學工學碩士學位論文-11-算法[42]構(gòu)建蛋白質(zhì)相似網(wǎng)絡來提高查詢反饋結(jié)果的準確性。在本研究中,將學習排序算法、PageRank和HITS結(jié)合一起,提出了ProtDec-LTR4.0方法,進一步提高了排序結(jié)果的準確性。ProtDec-LTR4.0方法的示意圖如圖2-1所示:圖2-1ProtDec-LTR4.0方法示意圖2.4.特征工程2.4.1多種序列特征提取策略介紹在本研究中,三種最先進的蛋白質(zhì)檢測排序方法(PSI-BLAST[30]、Hmmer[36]和HHblits[37])被作為基排序方法。這三種基排序方法被用來提取基于序列比對打分的特征。這些方法是互補的,因為它們基于不同的技術(shù)和
【參考文獻】:
期刊論文
[1]蛋白質(zhì)組學在醫(yī)學研究中的應用與進展[J]. 李玉香,戎浩,胡群英,李文華. 中國組織工程研究. 2016(33)
[2]基于同源基因的病原菌鑒定和分型靶位點的功能基因組學研究[J]. 杜鵬程,張雯,劉翟,陳晨. 中國科學:生命科學. 2011(08)
[3]生物信息學的現(xiàn)狀與展望[J]. 張春霆. 世界科技研究與發(fā)展. 2000(06)
碩士論文
[1]基于序列譜的蛋白質(zhì)折疊識別和遠同源性檢測[D]. 郭明月.哈爾濱工業(yè)大學 2018
本文編號:3390427
本文鏈接:http://www.sikaile.net/projectlw/swxlw/3390427.html
最近更新
教材專著