基因表達(dá)數(shù)據(jù)的并行聚類(lèi)及其集成分類(lèi)研究
發(fā)布時(shí)間:2017-10-14 15:09
本文關(guān)鍵詞:基因表達(dá)數(shù)據(jù)的并行聚類(lèi)及其集成分類(lèi)研究
更多相關(guān)文章: 知識(shí)融合 集成學(xué)習(xí) 基因表達(dá)數(shù)據(jù) 并行計(jì)算
【摘要】:生物信息學(xué)的研究處在一個(gè)數(shù)據(jù)爆炸的時(shí)代,近年來(lái)在基因組學(xué)、代謝組學(xué)、轉(zhuǎn)錄組和蛋白質(zhì)組學(xué)等領(lǐng)域技術(shù)的進(jìn)步,使得生物學(xué)家可以有更多的數(shù)據(jù)從不同方面對(duì)生命體進(jìn)行分析;虮磉_(dá)的異常往往意味著非正常的生命活動(dòng),這種表達(dá)值的變化可以通過(guò)微陣列技術(shù)以基因表達(dá)數(shù)據(jù)的形成呈現(xiàn)出來(lái)。通過(guò)對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行分析,可以用來(lái)對(duì)人類(lèi)和動(dòng)物進(jìn)行疾病診斷,研究植物生長(zhǎng)過(guò)程中的異,F(xiàn)象。將不同類(lèi)型的生物數(shù)據(jù)融合在一起用于分析的方法已成為近年來(lái)生物信息學(xué)領(lǐng)域的一種趨勢(shì),這種稱為生物數(shù)據(jù)融合的方法可以幫助研究者發(fā)現(xiàn)數(shù)據(jù)之間存在的潛在關(guān)聯(lián),同時(shí)更好地理解某些生物現(xiàn)象的本質(zhì)。聚類(lèi)是對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行降維的有效方法,通過(guò)對(duì)數(shù)以萬(wàn)計(jì)的基因進(jìn)行分簇,每個(gè)聚簇的基因個(gè)數(shù)降到了幾百甚至幾十個(gè)。本文在聚類(lèi)過(guò)程中融合生物知識(shí),提高結(jié)果的生物學(xué)可解釋性。同時(shí)針對(duì)聚類(lèi)產(chǎn)生的基因子集之間具有較大差異性的特點(diǎn),使用集成學(xué)習(xí)的思想構(gòu)建分類(lèi)模型,處理基因表達(dá)數(shù)據(jù)的分類(lèi)問(wèn)題;虮倔w數(shù)據(jù)庫(kù)提供了豐富的基因功能注釋信息;诰垲(lèi)之后基因聚簇生物信息不足的問(wèn)題,可以使用基因本體知識(shí)計(jì)算出基因之間的生物功能相似度,并將其與基因表達(dá)數(shù)據(jù)相結(jié)合。采用近鄰傳播聚類(lèi)算法對(duì)融合后的數(shù)據(jù)進(jìn)行分簇,得到更加具有生物意義的基因子集,并分析生物知識(shí)融合對(duì)于結(jié)果的影響。基于聚類(lèi)結(jié)果,使用鄰域粗糙集的方法從每一簇中選出具有代表性的基因用于訓(xùn)練分類(lèi)器,并建立更加穩(wěn)定的集成分類(lèi)模型。通過(guò)在植物脅迫響應(yīng)基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了融合基因本體知識(shí)的有效性。簡(jiǎn)單的基因初選過(guò)程可能會(huì)損失一些潛在的有分類(lèi)價(jià)值的基因,本文使用并行計(jì)算技術(shù),實(shí)現(xiàn)近鄰傳播聚類(lèi)算法的并行化,直接對(duì)原始的基因進(jìn)行聚類(lèi)。針對(duì)聚類(lèi)之后可能會(huì)產(chǎn)生較多基因子集的問(wèn)題,采用隨機(jī)爬山搜索算法對(duì)訓(xùn)練得到的分類(lèi)器進(jìn)行篩選,選出一組合適的分類(lèi)器用于最終的集成分類(lèi)。由植物脅迫響應(yīng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可知該方法可以選擇出分類(lèi)能力更強(qiáng)的基因集合。
【關(guān)鍵詞】:知識(shí)融合 集成學(xué)習(xí) 基因表達(dá)數(shù)據(jù) 并行計(jì)算
【學(xué)位授予單位】:大連理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類(lèi)號(hào)】:Q811.4;TP311.13
【目錄】:
- 摘要4-5
- Abstract5-9
- 1 緒論9-14
- 1.1 研究背景與意義9-10
- 1.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
- 1.3 本文的研究?jī)?nèi)容及結(jié)構(gòu)11-14
- 2 基因選擇與樣本分類(lèi)相關(guān)方法14-22
- 2.1 基于生物知識(shí)融合的基因表達(dá)數(shù)據(jù)分析方法14-16
- 2.1.1 常用的生物知識(shí)簡(jiǎn)介14-15
- 2.1.2 基于生物知識(shí)融合的相關(guān)方法15-16
- 2.2 基因表達(dá)數(shù)據(jù)樣本的集成分類(lèi)方法16-18
- 2.3 海量生物數(shù)據(jù)的并行處理18-20
- 2.4 粒計(jì)算的大數(shù)據(jù)處理中的應(yīng)用20-21
- 2.5 本章小結(jié)21-22
- 3 融合生物知識(shí)的基因表達(dá)數(shù)據(jù)集成分類(lèi)22-37
- 3.1 生物知識(shí)融合方法22-23
- 3.2 近鄰傳播聚類(lèi)23-24
- 3.3 基于生物知識(shí)融合的基因表達(dá)數(shù)據(jù)分析方法24-26
- 3.3.1 基因初選24
- 3.3.2 基于生物相關(guān)聚簇的基因選擇24-26
- 3.4 實(shí)驗(yàn)結(jié)果與分析26-36
- 3.4.1 實(shí)驗(yàn)數(shù)據(jù)集26-27
- 3.4.2 實(shí)驗(yàn)設(shè)置27
- 3.4.3 實(shí)驗(yàn)結(jié)果分析27-33
- 3.4.4 對(duì)比實(shí)驗(yàn)33-34
- 3.4.5 生物學(xué)意義分析34-36
- 3.5 本章小結(jié)36-37
- 4 基于并行聚類(lèi)的基因表達(dá)數(shù)據(jù)集成分類(lèi)37-47
- 4.1 MapReduce并行編程框架37-38
- 4.2 基于并行計(jì)算的基因表達(dá)數(shù)據(jù)分析方法38-43
- 4.2.1 并行近鄰傳播聚類(lèi)算法38-40
- 4.2.2 隨機(jī)爬山搜索分類(lèi)器選擇方法40-43
- 4.3 實(shí)驗(yàn)結(jié)果與分析43-46
- 4.3.1 實(shí)驗(yàn)數(shù)據(jù)集43
- 4.3.2 實(shí)驗(yàn)設(shè)置43
- 4.3.3 實(shí)驗(yàn)結(jié)果及分析43-46
- 4.4 本章小結(jié)46-47
- 結(jié)論47-48
- 參考文獻(xiàn)48-53
- 攻讀碩士學(xué)位期間發(fā)表學(xué)術(shù)論文情況53-54
- 致謝54-55
【參考文獻(xiàn)】
中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條
1 徐計(jì);王國(guó)胤;于洪;;基于粒計(jì)算的大數(shù)據(jù)處理[J];計(jì)算機(jī)學(xué)報(bào);2015年08期
,本文編號(hào):1031716
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/1031716.html
最近更新
教材專著