基于機器學習的復制起始位點識別
發(fā)布時間:2021-07-12 04:07
隨著社會日益信息化,各個領域在這一進程中不斷地推進科學與技術(shù)的相互結(jié)合,綜合了多門學科知識的生物信息學應運而生,它不再局限于僅使用傳統(tǒng)的生物實驗方法解決問題。而人類基因組計劃的實施使得生物基因測序工程得到了迅猛發(fā)展,在生物信息學基因時代,載有遺傳信息的基因數(shù)據(jù)呈爆炸式增長。這些龐大的數(shù)據(jù)帶動了生物學很多領域的快速發(fā)展如基因組學,蛋白質(zhì)組學,疾病研究,精確醫(yī)療等。在這些領域中,二分類和多分類問題是經(jīng)常遇到的問題,如非編碼RNA識別、蛋白質(zhì)同源檢測、位點識別等問題。其中本文研究的DNA復制起始位點識別屬于位點識別中的一種。本文首先對生物信息學和機器學習進行理論闡述,然后根據(jù)研究任務制定相應的研究思路。在實證分析中,本文把從國際酵母生物數(shù)據(jù)庫獲取得到的基因組作為我們的初始數(shù)據(jù)集,利用k元核苷酸頻率、偽核苷酸組分、熱獨編碼和詞向量等特征提取方法,訓練出融合DNA序列的k元堿基頻率特征和二型三元偽核苷酸物理化學性質(zhì)特征的一種新方法。該方法主要是先對核苷酸頻率特征進行了優(yōu)化選擇,然后結(jié)合改進的偽核苷酸組分做第二步特征提取,其中選取了所有三元偽核苷酸物理化學性質(zhì)來進行研究。接著利用主成分分析對特征集...
【文章來源】:湘潭大學湖南省
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
復制起始位點示意圖
-14-過激活函數(shù)變換后,在輸出節(jié)點得到最高概率下的值,然后用它和target的編碼向量值比較,計算損失函數(shù),通過不斷迭代更新權(quán)重矩陣。最終訓練后會得一個權(quán)重矩陣W,輸入層中每個特征的One-hot編碼值和權(quán)重矩陣W相乘,就是我們的詞向量。注意,Word2Vec過程中的輸出層并不是我們所需要的結(jié)果,訓練得到的權(quán)重矩陣W才是。圖3-2Skip-gram模型的網(wǎng)絡結(jié)構(gòu)圖3.1.5小結(jié)論文在3.1節(jié)中介紹了4種特征特征處理方法,但是每種方法都各有利弊。其中熱度編碼和詞嵌入方法處理后得到特征維度過大,特征前后位置的關(guān)聯(lián)性沒有得到體現(xiàn),這與我們研究的最初目的相違背。所以在本文最終基于k-mer和偽核苷酸組分這兩種方法特征提齲3.2特征選擇方法在很多領域的研究和應用中,為了進行分析尋找規(guī)律,我們往往通過搜集大量數(shù)據(jù)特征建立指標系統(tǒng)來表征某一事物或者現(xiàn)象。雖然大樣本會為統(tǒng)計研究提供更豐富的信息量,但是這同時也增加了研究者的工作量,導致分析變得更加復雜。特征空間包括相關(guān)特征、無關(guān)特征、冗余特征,一個特定的學習算法下,無法確定某一特征的有效性。而特征選擇正是從當前特征空間中選取對學習算法最
-16-把特征值21、帶入到線性方程0E-Ax,求出標準化后的特征向量為:.2121,2121(4)把特征向量按其對應的特征值降序排列得到矩陣A,同時驗證矩陣C對角化。,21212121A.5/2002212121215654545621212121TACA(5)若要得到降維后的s維數(shù)據(jù),只需取矩陣A的前s行作為新的矩陣S,Y=SX即為降維s維后的數(shù)據(jù)。假設我們選取的數(shù)據(jù)維度是2,通過基變換可以把二維降到一維。如圖示3-3,原始二維數(shù)據(jù)通過基變換降維后,投影到一維坐標上。圖3-3利用主成分降維圖示3.2.2線性判別分析LDA線性判別分析(LDA),在模式識別中有著相當廣泛的應用。它和上節(jié)介紹的PCA就像是一對雙胞胎,二者進行降維的基本思想是相同的,都是通過把高維數(shù)據(jù)在低維度上做投影的同時,保留盡可能多的原始數(shù)據(jù)信息。PCA是一種不考慮分類標簽的降維方法,而LDA進行降維的時候需要樣本標簽,它是一種有監(jiān)督的降維方法,是一種基于分類模型進行特征屬性合并的操作。
【參考文獻】:
期刊論文
[1]裂殖酵母復制起始位點的序列特征分析和預測[J]. 邢永強,趙宏宇,劉國慶,趙秀娟,蔡祿. 生物物理學報. 2014(06)
[2]集成學習方法在企業(yè)財務危機預警中的應用[J]. 梁明江,莊宇. 軟科學. 2012(04)
[3]神經(jīng)網(wǎng)絡在預測中的一些應用研究[J]. 劉豹,胡代平. 系統(tǒng)工程學報. 1999(04)
碩士論文
[1]主成分分析法研究及其在特征提取中的應用[D]. 陳佩.陜西師范大學 2014
[2]集成學習算法研究[D]. 馬冉冉.山東科技大學 2010
本文編號:3279168
【文章來源】:湘潭大學湖南省
【文章頁數(shù)】:52 頁
【學位級別】:碩士
【部分圖文】:
復制起始位點示意圖
-14-過激活函數(shù)變換后,在輸出節(jié)點得到最高概率下的值,然后用它和target的編碼向量值比較,計算損失函數(shù),通過不斷迭代更新權(quán)重矩陣。最終訓練后會得一個權(quán)重矩陣W,輸入層中每個特征的One-hot編碼值和權(quán)重矩陣W相乘,就是我們的詞向量。注意,Word2Vec過程中的輸出層并不是我們所需要的結(jié)果,訓練得到的權(quán)重矩陣W才是。圖3-2Skip-gram模型的網(wǎng)絡結(jié)構(gòu)圖3.1.5小結(jié)論文在3.1節(jié)中介紹了4種特征特征處理方法,但是每種方法都各有利弊。其中熱度編碼和詞嵌入方法處理后得到特征維度過大,特征前后位置的關(guān)聯(lián)性沒有得到體現(xiàn),這與我們研究的最初目的相違背。所以在本文最終基于k-mer和偽核苷酸組分這兩種方法特征提齲3.2特征選擇方法在很多領域的研究和應用中,為了進行分析尋找規(guī)律,我們往往通過搜集大量數(shù)據(jù)特征建立指標系統(tǒng)來表征某一事物或者現(xiàn)象。雖然大樣本會為統(tǒng)計研究提供更豐富的信息量,但是這同時也增加了研究者的工作量,導致分析變得更加復雜。特征空間包括相關(guān)特征、無關(guān)特征、冗余特征,一個特定的學習算法下,無法確定某一特征的有效性。而特征選擇正是從當前特征空間中選取對學習算法最
-16-把特征值21、帶入到線性方程0E-Ax,求出標準化后的特征向量為:.2121,2121(4)把特征向量按其對應的特征值降序排列得到矩陣A,同時驗證矩陣C對角化。,21212121A.5/2002212121215654545621212121TACA(5)若要得到降維后的s維數(shù)據(jù),只需取矩陣A的前s行作為新的矩陣S,Y=SX即為降維s維后的數(shù)據(jù)。假設我們選取的數(shù)據(jù)維度是2,通過基變換可以把二維降到一維。如圖示3-3,原始二維數(shù)據(jù)通過基變換降維后,投影到一維坐標上。圖3-3利用主成分降維圖示3.2.2線性判別分析LDA線性判別分析(LDA),在模式識別中有著相當廣泛的應用。它和上節(jié)介紹的PCA就像是一對雙胞胎,二者進行降維的基本思想是相同的,都是通過把高維數(shù)據(jù)在低維度上做投影的同時,保留盡可能多的原始數(shù)據(jù)信息。PCA是一種不考慮分類標簽的降維方法,而LDA進行降維的時候需要樣本標簽,它是一種有監(jiān)督的降維方法,是一種基于分類模型進行特征屬性合并的操作。
【參考文獻】:
期刊論文
[1]裂殖酵母復制起始位點的序列特征分析和預測[J]. 邢永強,趙宏宇,劉國慶,趙秀娟,蔡祿. 生物物理學報. 2014(06)
[2]集成學習方法在企業(yè)財務危機預警中的應用[J]. 梁明江,莊宇. 軟科學. 2012(04)
[3]神經(jīng)網(wǎng)絡在預測中的一些應用研究[J]. 劉豹,胡代平. 系統(tǒng)工程學報. 1999(04)
碩士論文
[1]主成分分析法研究及其在特征提取中的應用[D]. 陳佩.陜西師范大學 2014
[2]集成學習算法研究[D]. 馬冉冉.山東科技大學 2010
本文編號:3279168
本文鏈接:http://www.sikaile.net/projectlw/swxlw/3279168.html
最近更新
教材專著