基于多核學習的蛋白質(zhì)序列分類問題的研究與應用
發(fā)布時間:2020-10-17 09:09
蛋白質(zhì)是地球上生物體的必要組成成分,針對蛋白質(zhì)的功能預測已成為生物蛋白領域的一個研究熱點。嗜熱蛋白質(zhì)可作極端環(huán)境下的生物催化劑,有著加速化學反應、降低工業(yè)制造成本、減少能源消耗等優(yōu)點,因此針對嗜熱蛋白質(zhì)的有效功能預測在各類制造業(yè)中有著極為重要的作用。隨著人類基因組計劃的推進和實施,越來越多的蛋白質(zhì)序列被測定,傳統(tǒng)的蛋白質(zhì)功能識別方法因其耗時長、效率低等缺點已無法滿足需求,開發(fā)實時有效的蛋白質(zhì)功能預測方法迫在眉睫。機器學習算法的興起和計算機計算能力的增強,為海量數(shù)據(jù)的信息挖掘提供了便利。本文主要研究了多核學習算法在蛋白質(zhì)序列功能預測中的應用,具體研究內(nèi)容如下:1)為了更好地表示蛋白質(zhì),本文提出了一種新的基于word2vec的特征提取方法。該方法將蛋白質(zhì)序列看作一個文本句子,將二肽看作一個詞語,使用word2vec算法將每個二肽轉(zhuǎn)化為詞向量表示,然后依據(jù)蛋白質(zhì)序列中出現(xiàn)二肽對應的詞向量得到序列的向量表示。實驗結果表明,該方法可提升模型預測準確率。2)多核學習方法第一步是選取基礎核函數(shù),包括核函數(shù)個數(shù)、類別及其內(nèi)部參數(shù),由于常規(guī)方法盲目且耗時耗力,本文提出了基于貪心算法的核函數(shù)選擇方法。該方法考慮特征向量主要源于不同的特征提取方法,故首先將特征提取方法個數(shù)作為核函數(shù)個數(shù),然后針對特征向量中不同特征提取方法對應的特征組,使用貪心算法選出最佳核函數(shù),從而得到基礎核函數(shù)的選擇結果。3)本文提出了基于多核學習的蛋白質(zhì)序列分類模型。相對于其它方法,多核學習方法具有更高的靈活性。本文首先使用基于貪心算法的核函數(shù)選擇方法完成基礎核函數(shù)的選擇,然后使用簡單多核學習算法學習最佳組合核函數(shù),最后使用最佳組合核作為核函數(shù)的SVM算法訓練分類模型。實驗結果表明,該模型能夠很好地識別出嗜熱蛋白質(zhì),在本文使用的嗜熱蛋白質(zhì)序列數(shù)據(jù)集上,10折交叉驗證的結果為:準確率94.72%,嗜熱蛋白質(zhì)的召回率為94.84%,MCC值0.8939,ROCAUC值0.9859,優(yōu)于其它機器學習方法和已有方法。4)開發(fā)了針對嗜熱蛋白質(zhì)序列預測的web服務,便于其他相關研究者使用本文提出的模型。
【學位單位】:電子科技大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:Q51;TP181
【部分圖文】:
圖 2-1 蛋白質(zhì)四種結構示意圖2.1.2 氨基酸相關介紹蛋白質(zhì)結構與其功能之間的關系密不可分,而一級結構是其它高級結構的礎,又有著直觀、簡單且易于獲取和預測等優(yōu)點,故本文主要使用蛋白質(zhì)的一級構對蛋白質(zhì)進行功能預測。當今自然界中發(fā)現(xiàn)的氨基酸約有 300 多種,但在基翻譯中,由于部分密碼子是冗余的,參與蛋白質(zhì)合成的標準氨基酸只有 20 種;崾巧飳W上重要的有機化合物之一,每個氨基酸都由中心碳原子、氫原子、基、氨基和側鏈 R 基(又稱為側鏈基團)共同組成,具體的氨基酸分子的結構式如圖 2-2 所示,不同種類氨基酸之間主要的區(qū)別就是側鏈 R 基之間的差異,鏈 R 基往往決定著氨基酸的種類和各種理化性質(zhì)。在生物學中,通常每種氨基都用與其對應的英文大寫字母表示,如表 2-1 即為 20 種標準氨基酸及其對應的文字母簡稱。不同氨基酸分子之間是由其氨基和羧基相連脫去一個水分子進行接的,其中連接的化學鍵稱為肽鍵。通常所說的二肽指的是兩個氨基酸脫水縮合
酸相關介紹構與其功能之間的關系密不可分,而一級結構是其它觀、簡單且易于獲取和預測等優(yōu)點,故本文主要使用蛋行功能預測。當今自然界中發(fā)現(xiàn)的氨基酸約有 300 多部分密碼子是冗余的,參與蛋白質(zhì)合成的標準氨基酸上重要的有機化合物之一,每個氨基酸都由中心碳原子鏈 R 基(又稱為側鏈基團)共同組成,具體的氨基酸示,不同種類氨基酸之間主要的區(qū)別就是側鏈 R 基之決定著氨基酸的種類和各種理化性質(zhì)。在生物學中,通的英文大寫字母表示,如表 2-1 即為 20 種標準氨基酸不同氨基酸分子之間是由其氨基和羧基相連脫去一個接的化學鍵稱為肽鍵。通常所說的二肽指的是兩個氨基更廣泛的定義是指由兩個氨基酸和一個肽鍵組成的多肽物理位置上相鄰。
電子科技大學碩士學位論文目標詞的前面兩個詞和后面兩個詞的初始詞向量表示(通常為 One-hot 表ction 投影層為神經(jīng)網(wǎng)絡的隱層,與輸入層的連接方式為全連接,outpu要是對目標詞的預測;圖中右側為 skip-gram 模型,input 輸入層為目標詞始詞向量表示,projection 投影層為神經(jīng)網(wǎng)絡的隱層,與輸入層的連接方接,output 輸出層主要是對目標詞上下文信息的預測,主要預測目標詞的詞和后面兩個詞。
【參考文獻】
本文編號:2844583
【學位單位】:電子科技大學
【學位級別】:碩士
【學位年份】:2019
【中圖分類】:Q51;TP181
【部分圖文】:
圖 2-1 蛋白質(zhì)四種結構示意圖2.1.2 氨基酸相關介紹蛋白質(zhì)結構與其功能之間的關系密不可分,而一級結構是其它高級結構的礎,又有著直觀、簡單且易于獲取和預測等優(yōu)點,故本文主要使用蛋白質(zhì)的一級構對蛋白質(zhì)進行功能預測。當今自然界中發(fā)現(xiàn)的氨基酸約有 300 多種,但在基翻譯中,由于部分密碼子是冗余的,參與蛋白質(zhì)合成的標準氨基酸只有 20 種;崾巧飳W上重要的有機化合物之一,每個氨基酸都由中心碳原子、氫原子、基、氨基和側鏈 R 基(又稱為側鏈基團)共同組成,具體的氨基酸分子的結構式如圖 2-2 所示,不同種類氨基酸之間主要的區(qū)別就是側鏈 R 基之間的差異,鏈 R 基往往決定著氨基酸的種類和各種理化性質(zhì)。在生物學中,通常每種氨基都用與其對應的英文大寫字母表示,如表 2-1 即為 20 種標準氨基酸及其對應的文字母簡稱。不同氨基酸分子之間是由其氨基和羧基相連脫去一個水分子進行接的,其中連接的化學鍵稱為肽鍵。通常所說的二肽指的是兩個氨基酸脫水縮合
酸相關介紹構與其功能之間的關系密不可分,而一級結構是其它觀、簡單且易于獲取和預測等優(yōu)點,故本文主要使用蛋行功能預測。當今自然界中發(fā)現(xiàn)的氨基酸約有 300 多部分密碼子是冗余的,參與蛋白質(zhì)合成的標準氨基酸上重要的有機化合物之一,每個氨基酸都由中心碳原子鏈 R 基(又稱為側鏈基團)共同組成,具體的氨基酸示,不同種類氨基酸之間主要的區(qū)別就是側鏈 R 基之決定著氨基酸的種類和各種理化性質(zhì)。在生物學中,通的英文大寫字母表示,如表 2-1 即為 20 種標準氨基酸不同氨基酸分子之間是由其氨基和羧基相連脫去一個接的化學鍵稱為肽鍵。通常所說的二肽指的是兩個氨基更廣泛的定義是指由兩個氨基酸和一個肽鍵組成的多肽物理位置上相鄰。
電子科技大學碩士學位論文目標詞的前面兩個詞和后面兩個詞的初始詞向量表示(通常為 One-hot 表ction 投影層為神經(jīng)網(wǎng)絡的隱層,與輸入層的連接方式為全連接,outpu要是對目標詞的預測;圖中右側為 skip-gram 模型,input 輸入層為目標詞始詞向量表示,projection 投影層為神經(jīng)網(wǎng)絡的隱層,與輸入層的連接方接,output 輸出層主要是對目標詞上下文信息的預測,主要預測目標詞的詞和后面兩個詞。
【參考文獻】
相關期刊論文 前1條
1 蔣英芝;賀連華;劉建軍;;蛋白質(zhì)功能研究方法及技術[J];生物技術通報;2009年09期
相關碩士學位論文 前1條
1 邵麗芬;基于深度學習的蛋白質(zhì)序列分類問題的研究與應用[D];電子科技大學;2018年
本文編號:2844583
本文鏈接:http://www.sikaile.net/projectlw/swxlw/2844583.html
最近更新
教材專著