天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于HOG-Cos-PSSM特征表達(dá)和TKSE集成方法的氧化還原酶分類預(yù)測(cè)

發(fā)布時(shí)間:2020-06-07 13:51
【摘要】:近年來,隨著生物醫(yī)學(xué)界對(duì)于氧化還原酶的認(rèn)知逐步加深,其在藥物研究以及疾病診斷方面的作用愈發(fā)被重視。氧化還原酶有許多具有不同功能的亞類,因此對(duì)其進(jìn)行準(zhǔn)確的分類是生物信息學(xué)中的一項(xiàng)重要任務(wù)。傳統(tǒng)生物方法對(duì)其進(jìn)行類別研究存在花費(fèi)時(shí)間長(zhǎng)、所需費(fèi)用高的問題。但如果可以根據(jù)它的序列建立有效的機(jī)器學(xué)習(xí)方法,將會(huì)對(duì)其亞家族分類研究提供非常有效的幫助。隨著機(jī)器學(xué)習(xí)以及生物信息的發(fā)展,基于計(jì)算機(jī)算法的蛋白質(zhì)序列識(shí)別研究得到了長(zhǎng)足的發(fā)展。眾所周知,酶的本質(zhì)是蛋白質(zhì),因此本文考慮對(duì)酶蛋白序列進(jìn)行特征描述,并結(jié)合機(jī)器學(xué)習(xí)算法對(duì)其進(jìn)行分類預(yù)測(cè)研究,試圖以此構(gòu)建一個(gè)高效準(zhǔn)確的預(yù)測(cè)方法。為了高效準(zhǔn)確的進(jìn)行預(yù)測(cè),本文研究分為兩個(gè)方面:針對(duì)酶蛋白序列特征描述方法的研究改進(jìn)、預(yù)測(cè)分類器的構(gòu)造,分別提出了 HOG-Cos-PSSM(Histogram of Oriented Gradient-Cosine similarity-PSSM)特征描述 方法和 TKSE(T-sne+K-meansSelection ensemble classifier framework)集成分類框架。第一,本文對(duì)現(xiàn)有的特征描述方法進(jìn)行總結(jié),針對(duì)酶蛋白序列特征矩陣位置信息丟失的問題,引入方向梯度直方圖和余弦夾角相似度的概念,分別提出HOG-PSSM(Histogram of Oriented Gradient PSSM)Cos-PSSM(Cosine similarity PSSM)。并且在相關(guān)性分析之后進(jìn)行特征融合提出HOG-Cos-PSSM特征描述方法。實(shí)驗(yàn)表明,HOG-Cos-PSSM特征描述方法有效的對(duì)現(xiàn)有特征描述方法進(jìn)行改進(jìn)。第二,在分類器研究方面,本文使用多分類器集成方法,引入“能力區(qū)域”和“區(qū)域選擇集成”的概念并提出TKSE集成分類框架。首先,使用基于t分布的隨機(jī)近鄰嵌入算法T-sne和K-means聚類算法對(duì)樣本空間進(jìn)行“能力區(qū)域”的劃分。然后,對(duì)區(qū)域中各基分類器進(jìn)行篩選并使用Stacking層次集成框架以構(gòu)成各區(qū)域的集成分類器。最后,測(cè)試樣本選擇相似度最高區(qū)域?qū)?yīng)的集成分類器進(jìn)行分類。大量實(shí)驗(yàn)結(jié)果證實(shí),TKSE集成分類框架的預(yù)測(cè)效果明顯高于各基分類器,并且其與HOG-Cos-PSSM特征描述方法共同使用將氧化還原酶分類預(yù)測(cè)精度提升至95.87%。本文所提出的HOG-Cos-PSSM特征描述方法與TKSE集成分類框架有效提高了氧化還原酶分類預(yù)測(cè)精度,此方法是對(duì)現(xiàn)有預(yù)測(cè)方法的有效補(bǔ)充。
【圖文】:

基于HOG-Cos-PSSM特征表達(dá)和TKSE集成方法的氧化還原酶分類預(yù)測(cè)


圖2:本文預(yù)測(cè)研宄流整體程圖逡逑

示意圖,交叉驗(yàn)證,檢驗(yàn)方法,示意圖


再用訓(xùn)練完成的分類模型對(duì)測(cè)試樣本進(jìn)行預(yù)測(cè)以評(píng)估其性能[4SH46]。逡逑K折交叉驗(yàn)證被視為較為客觀的檢驗(yàn)方法,其可以在較為復(fù)雜的樣本分布中對(duì)逡逑分類模型進(jìn)行無偏估計(jì)[13)。如圖6所示,K折交叉驗(yàn)證首先將原始數(shù)據(jù)集分割成逡逑不交叉的A個(gè)子集,并且每個(gè)子集中各類別之間的比例大致相同m[48]。之后將其中逡逑任一子集提出以作為測(cè)試集,而其余A-1個(gè)集合作為訓(xùn)練集對(duì)分類模型進(jìn)行訓(xùn)練。逡逑以此循環(huán)/t次以確保每一個(gè)子集都被當(dāng)做過測(cè)試集[13]。最后將A次的預(yù)測(cè)結(jié)果計(jì)算逡逑求平均并以此作為評(píng)估結(jié)果。逡逑其中,Jackknife檢驗(yàn)方法作為交叉驗(yàn)證的一種,,被認(rèn)為是最嚴(yán)格和客觀的檢驗(yàn)逡逑方法。其在蛋白質(zhì)結(jié)構(gòu)和功能預(yù)測(cè)研究中常常被用來評(píng)估算法的性能。在Jackknife逡逑測(cè)試中,每次提出一條蛋白質(zhì)序列作為測(cè)試樣本,剩余的蛋白質(zhì)序列構(gòu)成訓(xùn)練集。逡逑以此不斷循環(huán),確保確保每條蛋白質(zhì)序列均被當(dāng)做過測(cè)試樣本。因此,Jackknife逡逑測(cè)試也被稱為留一法測(cè)試。本文中,我們將使用Jackknife檢驗(yàn)方法來評(píng)估分類模逡逑型。逡逑19逡逑
【學(xué)位授予單位】:云南大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2019
【分類號(hào)】:R318;TP181

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 孫晶京;;使用偽氨基酸模型和K近鄰分類器預(yù)測(cè)酶的分類[J];計(jì)算機(jī)工程與應(yīng)用;2013年09期

2 張斌;尹京苑;薛丹;;基于 RBF 神經(jīng)網(wǎng)絡(luò)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)[J];生物信息學(xué);2011年03期

3 石瑞佳;胡秀珍;王偉;;基于離散量算法預(yù)測(cè)酶的亞類[J];河南科學(xué);2008年11期

4 馮煥清;張相華;許文龍;;基于進(jìn)化信息和支持向量機(jī)的酶蛋白亞家族預(yù)測(cè)[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2008年07期

5 張紹武,潘泉,張洪才,張?jiān)讫?王海瑜;基于支持向量機(jī)和貝葉斯方法的蛋白質(zhì)四級(jí)結(jié)構(gòu)分類研究[J];生物物理學(xué)報(bào);2003年02期

相關(guān)博士學(xué)位論文 前3條

1 徐微微;高維數(shù)據(jù)降維可視化研究及其在生物醫(yī)學(xué)中的應(yīng)用[D];武漢大學(xué);2016年

2 白雪;聚類分析中的相似性度量及其應(yīng)用研究[D];北京交通大學(xué);2012年

3 王彤;高維生物數(shù)據(jù)的分類與預(yù)測(cè)研究[D];上海交通大學(xué);2009年

相關(guān)碩士學(xué)位論文 前5條

1 邵麗芬;基于深度學(xué)習(xí)的蛋白質(zhì)序列分類問題的研究與應(yīng)用[D];電子科技大學(xué);2018年

2 謝尚欣;基于深度學(xué)習(xí)的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)[D];浙江理工大學(xué);2018年

3 王靜;基于模糊支持向量機(jī)的蛋白質(zhì)二級(jí)結(jié)構(gòu)智能預(yù)測(cè)[D];浙江理工大學(xué);2017年

4 劉樹慧;基于特征融合和降維算法的蛋白質(zhì)亞核定位研究[D];云南大學(xué);2016年

5 曹佳佳;基于多信息融合的蛋白質(zhì)結(jié)構(gòu)類預(yù)測(cè)方法研究[D];浙江理工大學(xué);2015年



本文編號(hào):2701518

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/2701518.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7cf94***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com