基于支持向量機(jī)的串聯(lián)譜圖預(yù)處理模型
發(fā)布時(shí)間:2017-12-24 18:19
本文關(guān)鍵詞:基于支持向量機(jī)的串聯(lián)譜圖預(yù)處理模型 出處:《深圳大學(xué)》2017年碩士論文 論文類(lèi)型:學(xué)位論文
更多相關(guān)文章: 蛋白質(zhì)組 串聯(lián)質(zhì)譜圖 譜峰預(yù)處理 除噪 支持向量機(jī)
【摘要】:基于串聯(lián)質(zhì)譜技術(shù)的分析方法是如今蛋白質(zhì)鑒定方法中的主角。隨著科技技術(shù)的發(fā)展,質(zhì)譜技術(shù)也日趨成熟,能夠在很短時(shí)間內(nèi)產(chǎn)生大量質(zhì)譜圖,但遺憾的是,幾乎每張譜圖中都存在或多或少的噪音。一方面,噪音的存在會(huì)延長(zhǎng)數(shù)據(jù)庫(kù)搜索的時(shí)間,最終導(dǎo)致蛋白質(zhì)鑒定時(shí)間的增加;另一方面,噪音的存在對(duì)質(zhì)譜鑒定結(jié)果存在干擾,噪音嚴(yán)重的情況下,將影響譜圖的鑒定,使其發(fā)生錯(cuò)誤鑒定或者鑒定不出結(jié)果。因此,各種質(zhì)譜去噪方法如雨后春筍般出現(xiàn)。質(zhì)譜圖去噪方法旨在去除噪音峰的同時(shí)保留信號(hào)峰。傳統(tǒng)的去噪方法多是基于閾值:譜圖中強(qiáng)度低于設(shè)定閾值的峰將會(huì)被舍去;又或者選取強(qiáng)度排名前X的峰作為信號(hào)峰,X可根據(jù)需要自行設(shè)定;除此之外,還有一種以X Da為單位,選取范圍內(nèi)排名靠前的峰的方法,X同樣可根據(jù)譜圖實(shí)際情況自行設(shè)定。以上類(lèi)型的方法都只是簡(jiǎn)單考慮了峰的強(qiáng)度,而忽略了隱藏在峰與峰之間的其他特征,在這種過(guò)濾方法下,難免會(huì)產(chǎn)生有效峰因?yàn)閺?qiáng)度低而被濾除的情況。機(jī)器學(xué)習(xí)是近幾年來(lái)熱門(mén)研究方向,其種類(lèi)包含:支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、貝葉斯等,將機(jī)器學(xué)習(xí)應(yīng)用于質(zhì)譜除噪是一個(gè)新的領(lǐng)域,目前發(fā)表的專(zhuān)業(yè)文章較少,可研究性強(qiáng)。本文通過(guò)分析機(jī)器學(xué)習(xí)的幾個(gè)種類(lèi),考慮適用性,提出了一種基于支持向量機(jī)的方法。支持向量機(jī)是以統(tǒng)計(jì)學(xué)習(xí)為基礎(chǔ)的機(jī)器學(xué)習(xí)方法,主要用來(lái)解決二分類(lèi)問(wèn)題。在使用支持向量機(jī)構(gòu)建模型的過(guò)程中,由于現(xiàn)今的質(zhì)譜圖中存在著數(shù)據(jù)不均衡的情況,負(fù)樣本數(shù)據(jù)占了大部分,如何處理不平衡數(shù)據(jù)也是模型構(gòu)建時(shí)需要考慮的地方。對(duì)于不平衡數(shù)據(jù)常用的方法有重采樣、欠采樣、代價(jià)敏感等,通過(guò)分析其原理及適用范圍,我們最終選擇欠采樣方法來(lái)處理不平衡數(shù)據(jù)。根據(jù)質(zhì)譜原理及機(jī)器學(xué)習(xí)方法,我們最終選擇25個(gè)特征構(gòu)建模型,特征包括中性丟失、譜峰強(qiáng)度及同位素等。模型能夠?qū)π盘?hào)峰與噪音峰進(jìn)行預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果去除噪音峰實(shí)現(xiàn)質(zhì)譜圖過(guò)濾。為了檢驗(yàn)?zāi)P托Ч?我們?cè)谌藰颖?iTRAQ類(lèi)型數(shù)據(jù)集上進(jìn)行了測(cè)試及訓(xùn)練,分別考察了自訓(xùn)練以及組分訓(xùn)練兩個(gè)方向,并對(duì)同種類(lèi)不同實(shí)驗(yàn)結(jié)果的數(shù)據(jù)進(jìn)行建模檢驗(yàn),通過(guò)Mascot鑒定后結(jié)果表明我們的模型能夠有效預(yù)測(cè)出有效峰與噪音峰,在譜圖打分及肽段、蛋白質(zhì)鑒定數(shù)目上均有提升。
【學(xué)位授予單位】:深圳大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:Q503;TP181
【參考文獻(xiàn)】
相關(guān)期刊論文 前2條
1 花蓓;基于決策樹(shù)方法的信用卡審批模型分析[J];福建電腦;2005年09期
2 錢(qián)小紅;蛋白質(zhì)組與生物質(zhì)譜技術(shù)[J];質(zhì)譜學(xué)報(bào);1998年04期
,本文編號(hào):1329449
本文鏈接:http://www.sikaile.net/shoufeilunwen/benkebiyelunwen/1329449.html
最近更新
教材專(zhuān)著