基于隱馬爾可夫模型的DNA序列分類研究
發(fā)布時間:2017-06-01 02:03
本文關(guān)鍵詞:基于隱馬爾可夫模型的DNA序列分類研究,由筆耕文化傳播整理發(fā)布。
【摘要】:伴隨著人類基因組計劃的開展,生物信息學的相關(guān)研究工作也在不斷地向前發(fā)展,近年來,生物學發(fā)展的一個突出特征是生物信息量呈指數(shù)增長,數(shù)據(jù)的爆炸式增長對研究者們提出了一個嚴峻的新問題:怎樣才能夠高效管理、精確解讀并充分利用這些海量信息?深入研究DNA序列對于解讀人類基因組所隱藏的結(jié)構(gòu)和功能十分重要,然而DNA序列與數(shù)值型數(shù)據(jù)存在著較大的不同,由于DNA序列完全由非數(shù)值符號構(gòu)成,用于數(shù)值型數(shù)據(jù)的距離度量方法無法直接對其進行度量,與此同時DNA序列堿基之間具有復(fù)雜的關(guān)系,通過傳統(tǒng)特征表示繼而使用分類方法進行分類將會出現(xiàn)必要信息損失的問題。受DNA序列自身特點影響,多數(shù)在數(shù)值型數(shù)據(jù)上發(fā)揮很好的分類方法卻在DNA序列分類時不能取得很好的分類結(jié)果,需要使用一些獨特的方式對其分類。本文從DNA序列的生物學特征及統(tǒng)計學模型入手,研究DNA序列的概率統(tǒng)計特性,圍繞兩個關(guān)鍵問題:特征表示和基于模型的序列分類,對DNA序列進行深入的分析和分類研究;在深入研究隱馬爾可夫模型的基礎(chǔ)上提出新的DNA序列特征表示方法用于序列分類;同時探討了二階隱馬爾可夫模型在DNA序列分類中的應(yīng)用,最后,針對當前海量生物學數(shù)據(jù),提出將集成學習思想用于基于模型的序列分類,具有重要的理論意義和實際應(yīng)用價值。本文的主要工作及貢獻如下:1.針對現(xiàn)有方法容易導致因DNA序列堿基殘缺而影響分類精度等問題,提出一種新的DNA序列特征表示方法;谶@種新的特征表示法,構(gòu)造了一種K-NN分類器對DNA序列進行分類。2.在分析DNA序列特有的生物學構(gòu)造的基礎(chǔ)上,提出一種用于DNA序列分類的二階隱馬爾可夫模型,基于新模型,提出一種DNA序列的貝葉斯分類新方法。3.針對當前的海量生物學數(shù)據(jù),批量學習的弊端凸顯,將集成學習思想用于基于模型的序列分類,提出增量二階隱馬爾可夫模型的DNA序列分類方法。將二階隱馬爾可夫模型與集成學習思想相結(jié)合,實現(xiàn)DNA序列分類模型的增量學習,支持分類模型在海量數(shù)據(jù)下的處理能力。
【關(guān)鍵詞】:DNA序列 分類 隱馬爾可夫模型 增量學習 集成學習
【學位授予單位】:福建師范大學
【學位級別】:碩士
【學位授予年份】:2015
【分類號】:C81
【目錄】:
- 中文摘要2-3
- Abstract3-5
- 中文文摘5-9
- 緒論9-13
- 第一節(jié) 研究背景與研究意義9-10
- 第二節(jié) 研究現(xiàn)狀10-12
- 第三節(jié) 研究內(nèi)容及組織12-13
- 第一章 DNA序列分類及其主要方法13-27
- 第一節(jié) DNA序列分類方法13-17
- 1.1 基于DNA序列特征表示的分類14-15
- 1.2 基于DNA序列間距離的分類15-16
- 1.3 基于DNA序列統(tǒng)計概率模型的分類16-17
- 第二節(jié) 馬爾可夫隨機過程和隱馬爾可夫模型理論17-27
- 2.1 馬爾可夫隨機過程17-18
- 2.2 隱馬爾可夫模型理論18-19
- 2.3 隱馬爾可夫模型的三個基本問題19-20
- 2.4 隱馬爾可夫模型的主要算法20-27
- 第二章 一階隱馬爾可夫模型的DNA序列分類27-35
- 第一節(jié) 模型與算法27-31
- 1.1 單DNA序列的一階隱馬爾可夫建模27-28
- 1.2 序列特征表示28-29
- 1.3 分類算法29-31
- 第二節(jié) 實驗與分析31-34
- 2.1 實驗設(shè)置31
- 2.2 實驗數(shù)據(jù)31-32
- 2.3 實驗結(jié)果與分析32-34
- 第三節(jié) 本章小結(jié)34-35
- 第三章 DNA序列的二階隱馬爾可夫模型分類35-43
- 第一節(jié) 模型與算法35-39
- 1.1 DNA序列的生物學構(gòu)造分析35-36
- 1.2 DNA序列的二階隱馬爾可夫建模36-37
- 1.3 多觀測序列的HMM2的訓練算法37-38
- 1.4 基于HMM2的貝葉斯分類方法38-39
- 第二節(jié) 實驗與分析39-42
- 2.1 實驗設(shè)置39-40
- 2.2 實驗數(shù)據(jù)40
- 2.3 實驗結(jié)果與分析40-42
- 第三節(jié) 本章小結(jié)42-43
- 第四章 增量二階隱馬爾可夫模型的DNA序列分類43-49
- 第一節(jié) 模型與算法43-46
- 1.1 增量學習思想簡介43-44
- 1.2 增量二階隱馬爾可夫模型的DNA序列分類44-46
- 1.2.1 模型追加訓練44
- 1.2.2 模型集成訓練44-46
- 第二節(jié) 實驗與分析46-48
- 2.1 實驗設(shè)置46-47
- 2.2 實驗數(shù)據(jù)47
- 2.3 實驗結(jié)果與分析47-48
- 第三節(jié) 本章小結(jié)48-49
- 第五章 總結(jié)與展望49-51
- 第一節(jié) 總結(jié)49-50
- 第二節(jié) 展望50-51
- 參考文獻51-55
- 攻讀學位期間承擔的科研任務(wù)與主要成果55-57
- 致謝57-59
- 個人簡歷59-62
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前4條
1 蔡春;苗立峰;鄧乃揚;;DNA序列特征提取方法研究[J];北京聯(lián)合大學學報(自然科學版);2008年04期
2 周玉元,周鐵軍;DNA序列分類的Fisher判別法[J];湖南農(nóng)業(yè)大學學報(自然科學版);2003年05期
3 朱揚勇;熊峗;;DNA序列數(shù)據(jù)挖掘技術(shù)[J];軟件學報;2007年11期
4 史笑興,王太君,何振亞;二階隱馬爾可夫模型的學習算法及其與一階隱馬爾可夫模型的關(guān)系[J];應(yīng)用科學學報;2001年01期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 趙強利;基于選擇性集成的在線機器學習關(guān)鍵技術(shù)研究[D];國防科學技術(shù)大學;2010年
中國碩士學位論文全文數(shù)據(jù)庫 前2條
1 吳廣財;HMM增量學習算法在中文命名實體識別中的應(yīng)用研究[D];華南理工大學;2011年
2 溫海彬;馬爾可夫鏈預(yù)測模型及一些應(yīng)用[D];南京郵電大學;2012年
本文關(guān)鍵詞:基于隱馬爾可夫模型的DNA序列分類研究,,由筆耕文化傳播整理發(fā)布。
本文編號:411277
本文鏈接:http://www.sikaile.net/shekelunwen/shgj/411277.html
最近更新
教材專著