基于平滑LDA的RNA-Seq數(shù)據(jù)分析研究
發(fā)布時(shí)間:2017-12-01 15:37
本文關(guān)鍵詞:基于平滑LDA的RNA-Seq數(shù)據(jù)分析研究
更多相關(guān)文章: RNA-Seq 基因異構(gòu)體表達(dá)水平 平滑LDA 結(jié)合區(qū) 多源映射 非均勻性 KL散度 差異異構(gòu)體比例
【摘要】:隨著下一代高通量DNA測(cè)序技術(shù)的快速發(fā)展,RNA-seq技術(shù)逐漸成為了轉(zhuǎn)錄組學(xué)研究的基本實(shí)驗(yàn)手段。相比傳統(tǒng)的基因芯片技術(shù),RNA-seq技術(shù)具有高信噪比,高靈敏度,所需樣本少等特點(diǎn)。但是利用RNA-seq技術(shù)進(jìn)行表達(dá)水平估計(jì)時(shí)仍然存在很多挑戰(zhàn),比如讀段的多源映射和非均勻分布等問題。本文針對(duì)上述問題,提出了一個(gè)轉(zhuǎn)錄組表達(dá)水平估計(jì)方法sLDASeq。該模型根據(jù)基因中轉(zhuǎn)錄本注釋信息對(duì)模型參數(shù)進(jìn)行約束,對(duì)跨結(jié)合區(qū)的讀段按長(zhǎng)度分配處理,解決了讀段跨結(jié)合區(qū)問題,并在模型中考慮了外顯子的稀疏問題。另外sLDASeq模型引入代表異構(gòu)體表達(dá)水平的隱含變量,對(duì)讀段在異構(gòu)體和外顯子上分布進(jìn)行建模,從而解決讀段在參考序列分布非均勻問題。通過模擬數(shù)據(jù)集和多個(gè)真實(shí)數(shù)據(jù)集的驗(yàn)證,相比與其它主流方法,s LDASeq方法能獲得較為準(zhǔn)確的基因和異構(gòu)體表達(dá)水平。在RNA-seq數(shù)據(jù)分析中,最基本的研究目的是尋找樣本中差異表達(dá)的基因和異構(gòu)體。但目前大多數(shù)方法都是識(shí)別單個(gè)異構(gòu)體的差異表達(dá),無(wú)法同時(shí)檢測(cè)同一個(gè)基因中所包含異構(gòu)體表達(dá)比例的差異。因此本文提出了一個(gè)差異異構(gòu)體比例檢測(cè)方法。該方法基于我們?cè)O(shè)計(jì)的sLDASeq模型,運(yùn)用該模型中隱含變量的概率分布,采用KL散度進(jìn)行差異異構(gòu)體比例的分析。通過模擬和真實(shí)數(shù)據(jù)集的驗(yàn)證,sLDASeq方法能準(zhǔn)確的估計(jì)基因中異構(gòu)體的比例。此外在模擬數(shù)據(jù)集上,sLDASeq方法通過KL散度能準(zhǔn)確檢測(cè)出差異異構(gòu)體比例。
【學(xué)位授予單位】:南京航空航天大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2016
【分類號(hào)】:Q811.4;TP311.13
,
本文編號(hào):1241623
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/1241623.html
最近更新
教材專著