天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 理工論文 > 生物學論文 >

基于蛋白質序列的表示學習和最適條件分析

發(fā)布時間:2020-07-16 08:57
【摘要】:蛋白質是具有復雜結構的化合物,是生命體細胞中重要的組成成分。酶是一類具有催化作用的蛋白質,其只能在例如:酸性環(huán)境,高溫環(huán)境等特定的環(huán)境條件中發(fā)揮催化作用。能夠使酶發(fā)揮最大催化作用的環(huán)境條件稱為最適條件。自然界中的野生型酶不能在研究人員預期條件下發(fā)揮良好的催化作用。因此獲得酶的最適條件,并利用蛋白質工程使突變體能夠在預期環(huán)境中發(fā)揮催化作用,一直是生命科學研究的熱點。生物研究人員通常使用梯度試驗獲得野生型酶的最適條件。然后,利用三級結構分析結構與最適條件的關系,通過定向突變獲得野生型酶的多種突變體。最后,通過篩選找到能夠在預期環(huán)境條件種發(fā)揮催化作用的突變體。但梯度試驗過程繁瑣,單次實驗只能對單個酶進行實驗,獲得最適條件的效率較低。定向突變雖然能夠獲得滿足需求的酶,但對野生型酶的突變是不可控的,生物研究人員需要對一種酶執(zhí)行多種突變方案從中篩選預期的突變體。因此,使用傳統(tǒng)的生物學方法獲得滿足預期的突變體酶是困難且低效的。針對上述問題,本文從酶的氨基酸序列出發(fā),探討酶的最適條件與氨基酸序列的關聯(lián)關系。提出了一種將氨基酸以及序列結構信息轉化為隱式空間中多維向量的表示學習方法。氨基酸和序列位點的向量中包含了氨基酸與序列位點的相容性關系以及氨基酸和序列位點與最適條件的關聯(lián)關系。利用這些向量,本文設計了一個相容性得分來評估氨基酸與序列位點的相容性。本文利用相容性得分做了一下幾點嘗試:(1)分析酶的保守區(qū)和非保守區(qū):若某些序列片段或位點與不同種類氨基酸的相容性得分均高于其他片段或位點,表明該序列片段或位點能夠影響最適條件,則該序列片段或位點為非保守區(qū);反之,則為保守區(qū)。(2)預測給定酶的最適條件:將氨基酸序列位點與該位點氨基酸的相容性得分作為該位點的特征值,將氨基酸序列轉化為蛋白質的特征向量,利用回歸模型預測酶的最適條件。(3)給定預期條件,對野生型酶進行突變指導:在非保守區(qū)中找到相容性得分最低的位點,通過替換氨基酸改善該位點的相容性得分,使替換后的突變體的最適條件更加接近預期條件。(4)給定預期條件,設計氨基酸序列:參考生物學知識與規(guī)范,將相容性得分轉化成在某個位點出現(xiàn)某種氨基酸的概率。根據氨基酸的概率分布為每個位點選擇合適的氨基酸,從而生成新的氨基酸序列。為了方便實際應用,本文爬取了CAZY數據庫中糖化水解酶GH11家族的氨基酸序列,并從相關文獻中收集125條氨基酸序列的最適pH。由于從機器學習的角度來看,本實驗樣本量較小,因此本文引入了一種面向小樣本的概率生成方法來實現(xiàn)對小樣本的表示學習。與生物傳統(tǒng)方法相比,本文的表示學習方法速度更快,效果更好;與其他計算方法相比,本文方法輸入更少且更加有效。為了方便生物研究人員對本文方法的使用,本文開發(fā)了一款面向蛋白質家族表示學習的可視化工具。該工具提供了簡易的模型調試操作以及可視化的模型評估界面,使得生物研究人員不需要了解計算知識即可對模型進行修改和使用。
【學位授予單位】:山東大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP181;Q51
【圖文】:

框架圖,學習模型,應用場,框架


邐" ̄?? ̄邋\逡逑圖2-1序列表示學習模型及應用框架逡逑氨基酸和序列位點向量的學習流程和應用場景框架如圖2-1所示。框架圖的逡逑左上部分是氨基酸和序列位點向量的學習部分。其中,黑色箭頭表示數據處理過逡逑程和基于兩個優(yōu)化目標的模型訓練過程。右下部分為向量應用的四個示例,由紅逡逑色箭頭表示,即:1)預測序列的最適條件。2)比較同一家族兩個序列的最適條逡逑件。3)尋找保守區(qū)和非保守區(qū)。4)對野生型蛋白給出突變建議。其中,灰色箭逡逑頭表示數據流。逡逑2.2面向最適條件的氨基酸和序列位點向量的表示學習逡逑氨基酸序列的最適條件受兩個因素影響,一是氨基酸序列由何種氨基酸組成,逡逑二是氨基酸在序列中是如何排布的。由此,引入兩個目標函數來了解最適條件與逡逑氨基酸序列之間的關系:1)單個位點上氨基酸種類對最適條件的影響。2)不同逡逑位點的氨基酸相互作用共同對最適條件產生影響。第一個目標用于確定何種氨基逡逑酸在序列的哪個位置上會影響酶的最適條件,而第二個目標用于確定影響酶最適逡逑條件的非保守區(qū)域。本文提出了一種表示學習方法將兩個目標結合在一起。通過逡逑對聯(lián)合目標的學習

樣本集,訓練集,氨基酸序列,隨機選擇


2.3.3數據預處理逡逑根據預期條件將訓練集分成心和&兩個數據集,其中&中氨基酸序列的最適逡逑pH更接近預期條件。例如:預期條件是耐堿性,則把最適PH高于7的氨基酸逡逑序列劃入心集合中,將最適pH小于等于7的氨基酸序列劃入集合中。按照以逡逑下三步生成樣木:逡逑(1邋)從心中隨機選擇一條氨基酸序列a,從&中隨機選擇一條氨基酸序列L逡逑(2)比較這兩條氨基酸序列每個位點的元素,隨機選擇一個差異位點逡逑(3)將(fc,a)放入正樣本集合中,將(fcj)放入負樣本集合中。逡逑重復上述三步N次生成正樣本集和負樣本集。在訓練位點和氨基酸的向量逡逑時,隨機從正負樣本集中隨機抽取一個或多個正負樣本進行訓練。逡逑2.4表示向置的語義分析逡逑

信息增益,位點,家族,氨基酸序列


量化了序列最適pH是否高于或低于期望條件的不確定性,如公式(19)所示。逡逑H(y)邋=邋-Ssi=Si,shpC^)邋?邋l0gp(Si)邐(19)逡逑其中,然后,量化當確定一個位點的氨基酸時能夠多大程度的減少這逡逑I尸I逡逑種不確定性。對于給定位點/c,條件熵//(y|cfc)量化了當己知該位點的氨基酸為cfc逡逑時最適邋pH邋的不確定性,即:.邋Z05PCS"i|cfc)。位點fc逡逑的條件熵為=ECfce』^^H(y|Cfc),其中表示第fc個位點上是氨基酸&逡逑的序列集合。最后,通過公式Gain(/c)邋=邋H(y)邋-邋//(y|/c)計算氨基酸序列第々個位逡逑點的信息增益。以散點圖的形式展示GH11家族氨基酸序列集合每個位點的信息逡逑增益。如圖2-3所示,橫坐標表示對齊序列上的位點,縱坐標表示位點的信息增逡逑益。逡逑

【相似文獻】

相關期刊論文 前10條

1 周勤;實驗設計與分析中確定最適條件的統(tǒng)計試驗實現(xiàn)方法[J];山東建材學院學報;1998年01期

2 王愛華,靳亞平,武浩;豬PBMC產生IL-2最適條件的探討[J];西北農業(yè)學報;2000年03期

3 鄭健;郭守華;宋瑜;鄭勇奇;楊曉燕;苑林;;臭椿種子萌發(fā)最適條件研究[J];西北植物學報;2007年05期

4 魏杰;候蕭;李輝;劉宏生;;產谷氨酰胺合成酶發(fā)酵條件的研究[J];遼寧大學學報(自然科學版);2006年03期

5 王珊,金先慶,楊純正,齊靜;探討MDR1基因轉染k562細胞的最適條件[J];中華小兒外科雜志;2002年06期

6 孫蕓;毛彩霞;景崤壁;;探究銅和濃硫酸反應的最適條件[J];中學生數理化(學習研究);2016年10期

7 張霞,張利;液態(tài)高溫糖化——固態(tài)酒化醋化工藝生產優(yōu)質香醋[J];中國調味品;2002年10期

8 艾斯卡爾·依米提,哈木拉提·吾甫爾,伊力哈木江·沙比提;AP-RCR方法進行基因多態(tài)性分析時最佳反應條件的構建[J];新疆醫(yī)科大學學報;2000年03期

9 孫燕;洪青;李順鵬;;一株生物表面活性劑產生菌的分離及其特性研究[J];微生物學通報;2009年08期

10 鄒糧澤;李樂;吳貴富;張敏;金英海;;乳酸菌發(fā)酵米糠富鍺條件的篩選[J];吉林畜牧獸醫(yī);2017年09期

相關會議論文 前1條

1 黃燕華;馮定遠;;不同來源纖維素酶的酶活最適條件研究[A];酶制劑在飼料工業(yè)中的應用[C];2005年

相關博士學位論文 前1條

1 陳朋;氧化亞鐵硫桿菌生物浸出雄黃系統(tǒng)研究[D];蘭州大學;2011年

相關碩士學位論文 前2條

1 李相君;基于蛋白質序列的表示學習和最適條件分析[D];山東大學;2019年

2 王迪;消化法檢驗旋毛蟲最適條件的篩選[D];吉林大學;2014年



本文編號:2757798

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/projectlw/swxlw/2757798.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶f7cf7***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com