基于人工神經網絡的蛋白質編碼區(qū)識別
發(fā)布時間:2024-02-27 11:04
蛋白質是生物的重要組成成分,是生命活動的主要承擔者,如何從基因序列中找到編碼蛋白質的區(qū)域對于我們研究生命活動至關重要。生物學中我們把編碼蛋白質的基因序列叫做蛋白質編碼區(qū),不同基因在長度、含有的編碼區(qū)個數、編碼區(qū)的長度都存在差異性,編碼區(qū)和非編碼區(qū)的特征也不明確,這給我們對蛋白質編碼區(qū)的識別帶來很大困難;诖吮疚臉嫿嘶谌斯ど窠浘W絡的蛋白質編碼區(qū)識別模型,依賴神經網絡的自組織能力自動提取已知蛋白質編碼區(qū)和非編碼區(qū)的特征,進而對未知基因中的編碼區(qū)進行識別。本文針對蛋白質編碼區(qū)識別問題構建了六種解決方案,總體可以分為兩類模型:一是基于MLP、CNN、RNN三種網絡結構的蛋白質編碼區(qū)識別模型,二是利用模型間的差異性構建了基于投票、再學習、模型合并的蛋白質編碼區(qū)識別集成模型。首先,本文構建了基于MLP的蛋白質編碼區(qū)識別模型,經過理論分析和實驗我們選擇了具有一層隱藏層的模型結構;其次,鑒于CNN通過權值共享、池化等操作即能提取樣本中的主要特征又能減少模型參數的特征,構建了具有兩個卷積層和兩個池化層的基于CNN的蛋白質編碼區(qū)識別模型;然后,根據基因序列類似于時間序列的特征,而RNN能夠很好地處理...
【文章頁數】:74 頁
【學位級別】:碩士
【部分圖文】:
本文編號:3912591
【文章頁數】:74 頁
【學位級別】:碩士
【部分圖文】:
圖3.3不同梯度下降算法下MLP的性能
該方法將Momentum和RMSprop這兩種算法的優(yōu)點進行結合,使參數的更新過程大大加快。圖3.3不同梯度下降算法下MLP的性能
圖3.4常見的激活函數
加了激活函數的每一層的輸出結果就變得比之前模式復雜很多,進而對整個網絡的表達能力上有了很大的提升。圖3.4常見的激活函數如何選擇合適的激活函數對我們訓練好網絡非常重要,圖3.4給我們展示了幾種常見的激活函數。每種激活都有優(yōu)缺點:sigmod函數輸出結果范圍在(0,1)之間....
圖3.6MLP的準確率、誤差隨隱藏層節(jié)點個數的變化
同隱藏層個數的選擇一樣,隱藏層節(jié)點的數目與待解決問題規(guī)模和復雜程度、輸入和輸出單元的個數有著直接的關系。如果隱藏層節(jié)點的個數太多,會導致模型學習時間過長,而節(jié)點數目太少則會導致模型過于簡單而不能很好地提取編碼區(qū)和非編碼的模式。針對如何選擇隱藏節(jié)點的數目這一問題至今為止尚未找到一個....
圖3.7MLP的準確率、誤差隨著訓練次數的變化
圖3.7MLP的準確率、誤差隨著訓練次數的變化常用的解決過擬合的方法有:數據集擴增、正則化、提前終止、drop-out[37]:提前終止模型訓練是一種最常用也是最簡單的防止過擬合的方法。該方式是在過程中發(fā)現模型出現過擬合后,便自動終止模型迭代,進而解決過擬合的方法。體做法是在....
本文編號:3912591
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3912591.html