天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 自動(dòng)化論文 >

基于集成學(xué)習(xí)的酰胺化位點(diǎn)預(yù)測(cè)

發(fā)布時(shí)間:2021-08-29 10:58
  在蛋白質(zhì)合成后,許多神經(jīng)肽和肽激素需要將其羧基末端酰胺化來(lái)獲得完整的生物活性,酰胺化在生物各種病理過(guò)程起著十分重要的作用,所以對(duì)其研究具有重要意義。用傳統(tǒng)生物實(shí)驗(yàn)方法如生物質(zhì)譜技術(shù)等進(jìn)行研究有著勞動(dòng)密集、需要時(shí)間長(zhǎng)和成本高等缺點(diǎn),而常見(jiàn)的機(jī)器學(xué)習(xí)算法對(duì)于特征空間的擬合不是特別完美,所以本文提出了一種集成學(xué)習(xí)算法來(lái)實(shí)現(xiàn)對(duì)酰胺化位點(diǎn)研究效果的提高,該方法相比之前的方法有了不錯(cuò)的提高。在本文中,提出了一種集成學(xué)習(xí)算法,stacking算法來(lái)進(jìn)行實(shí)驗(yàn)。將高質(zhì)量指數(shù)、氨基酸位置特異性?xún)A向、K間隔氨基酸對(duì)相關(guān)性三種特征提取方法獲得的特征相結(jié)合,經(jīng)過(guò)特征選擇后分別訓(xùn)練支持向量機(jī)、決策樹(shù)、樸素貝葉斯模型,用改進(jìn)的K間隔氨基酸組成、氨基酸因子兩類(lèi)特征經(jīng)過(guò)特征選擇后分別訓(xùn)練相應(yīng)最優(yōu)支持向量機(jī)模型,經(jīng)過(guò)上述實(shí)驗(yàn)后一共獲得五個(gè)模型,使用stacking算法將這五個(gè)模型作為基模型,利用五折交叉驗(yàn)證獲得5維的特征來(lái)訓(xùn)練一個(gè)邏輯回歸模型。最終得到了一個(gè)具有不錯(cuò)泛化能力的模型。該方法不但能夠?qū)⒍囝?lèi)特征信息使用到,而且還通過(guò)不同類(lèi)型的分類(lèi)算法,將不同分類(lèi)器誤分類(lèi)的特征空間通過(guò)其他分類(lèi)器進(jìn)行修正,最終獲得最好的效果。最后... 

【文章來(lái)源】:天津大學(xué)天津市 211工程院校 985工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:49 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于集成學(xué)習(xí)的酰胺化位點(diǎn)預(yù)測(cè)


酰胺化的機(jī)理

模型圖,決策樹(shù),模型,信息增益


天津大學(xué)碩士學(xué)位論文102.2.2決策樹(shù)決策樹(shù)[23]是一種常見(jiàn)的基本分類(lèi)和回歸算法,而在本文中使用決策樹(shù)方法是用來(lái)解決分類(lèi)問(wèn)題的。決策樹(shù)模型是一種樹(shù)形結(jié)構(gòu),由節(jié)點(diǎn)和有向邊組成,其中節(jié)點(diǎn)又分兩種,一種是內(nèi)部節(jié)點(diǎn),代表某一種特征;另外一種葉節(jié)點(diǎn),表示類(lèi)標(biāo)簽,即屬于哪一類(lèi),如圖2-2所示。決策樹(shù)的核心思想是對(duì)于給定訓(xùn)練數(shù)據(jù)集,尋找出一組分類(lèi)規(guī)則,從而構(gòu)建一個(gè)決策樹(shù),而決策樹(shù)可能存在也可能不存在,但最終的目標(biāo)是構(gòu)造一個(gè)與訓(xùn)練數(shù)據(jù)集沖突最小的決策樹(shù)。它的優(yōu)點(diǎn)是易于理解,分類(lèi)速度相對(duì)于其他分類(lèi)算法要顯得更快。構(gòu)建決策樹(shù)模型通常分為三個(gè)步驟:第一步:特征選擇[24],在進(jìn)行分類(lèi)的時(shí)候,往往利用特征進(jìn)行分類(lèi),而數(shù)據(jù)集的有些特征是無(wú)用的,利用該特征進(jìn)行分類(lèi)的時(shí)候效果和隨機(jī)分類(lèi)差不多,所以選擇合適的特征是非常有必要的,而在決策樹(shù)算法中特征選擇通常采用信息增益或者信息增益比。信息增益的計(jì)算公式如下所示|,XDHDHXDg(2-11)其中DH表示數(shù)據(jù)集的經(jīng)驗(yàn)熵,XDH|表示特征X給定條件下D的經(jīng)驗(yàn)條件熵。通常情況下,特征信息增益越大,表示該特征分類(lèi)能力越強(qiáng)。在決策樹(shù)中,基于信息增益的特征選擇方法是指在構(gòu)建決策樹(shù)的過(guò)程中每次選擇信息增益最大的特征,然后逐步生成決策樹(shù)。信息增益比,利用信息增益作為劃分訓(xùn)練數(shù)據(jù)集特征的準(zhǔn)則會(huì)存在一個(gè)缺點(diǎn),那就是傾向于選擇取值比較多的特征。為了解決這個(gè)問(wèn)題,于是提出了信息增益比這個(gè)概念。特征X的信息增益比計(jì)算方式是它的信息增益和特征X的熵的比,即DHADgADgAR,,(2-12)圖2-2決策樹(shù)模型

函數(shù)圖像,函數(shù)圖像


第2章關(guān)鍵技術(shù)介紹13圖2-3S函數(shù)圖像在確定了邏輯回歸分類(lèi)模型的函數(shù)形式后,需要求解最佳回歸系數(shù),通常采用的方法是數(shù)學(xué)問(wèn)題中常用的最優(yōu)化方法,其中包括梯度上升法和隨機(jī)梯度上升法。邏輯回歸分類(lèi)算法的優(yōu)點(diǎn)是實(shí)現(xiàn)比較簡(jiǎn)單,在實(shí)際應(yīng)用中受到廣泛使用,尤其在工業(yè)問(wèn)題上更加受歡迎;而且運(yùn)行速度快,很適用于二分類(lèi)問(wèn)題,在實(shí)現(xiàn)過(guò)程中能計(jì)算出各個(gè)特征的權(quán)重,方便對(duì)于特征重要性判斷。缺點(diǎn)是當(dāng)特征空間比較大的時(shí)候,模型的性能會(huì)比較低,而且邏輯回歸常會(huì)出現(xiàn)欠擬合現(xiàn)象,精確度不是特別的高。2.2.5集成學(xué)習(xí)集成學(xué)習(xí)是當(dāng)前比較熱門(mén)的機(jī)器學(xué)習(xí)方法,它通過(guò)多個(gè)機(jī)器學(xué)習(xí)器來(lái)完成對(duì)訓(xùn)練數(shù)據(jù)集的學(xué)習(xí)。集成學(xué)習(xí)的核心思想在于通過(guò)學(xué)習(xí)多個(gè)機(jī)器學(xué)習(xí)器,將多個(gè)學(xué)習(xí)器用一定的策略相結(jié)合,最終形成一個(gè)學(xué)習(xí)能力更強(qiáng)的學(xué)習(xí)器。目前,集成學(xué)習(xí)廣泛用于分類(lèi)問(wèn)題集成,回歸問(wèn)題集成,特征選取集成等。常見(jiàn)的集成學(xué)習(xí)方法有boosting,bagging,stacking算法,而在本文中使用的是stacking算法[28]。Stacking算法是通過(guò)組合多個(gè)機(jī)器學(xué)習(xí)模型從而獲得一個(gè)更好的模型,核心思想并不復(fù)雜,它通常分為兩層,第一層利用訓(xùn)練數(shù)據(jù)集訓(xùn)練多個(gè)不同的機(jī)器學(xué)習(xí)模型,這些學(xué)習(xí)器又被稱(chēng)為base-classifier;然后將第一層的各個(gè)base-classifier的輸出作為第二層的輸入來(lái)訓(xùn)練一個(gè)模型,這個(gè)模型通過(guò)學(xué)習(xí)第一層的多個(gè)模型,從而大大提高模型的效果,第二層這一個(gè)模型通常稱(chēng)為meta-classifier,而這個(gè)組合模型常常采用的是邏輯回歸算法。整個(gè)框架雖然看起來(lái)比較簡(jiǎn)單,但靈


本文編號(hào):3370525

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3370525.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶(hù)69e2e***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com