基因大數(shù)據(jù)組裝優(yōu)化研究
發(fā)布時間:2021-06-01 02:21
下一代測序技術(NGS)的發(fā)展推動了基因組學在多個應用領域的研究。宏基因組學是研究大型微生物物種群體的一種強有效的方法,對于宏基因組樣本中的未知物種,沒有參考基因組的基因組裝分析是一個非常具有挑戰(zhàn)性的問題。同時,隨著基因測序技術的飛速發(fā)展,基因組測序數(shù)據(jù)與日俱增。為了應對這些問題,可以使用分布式基因組裝軟件處理多個宏基因組樣本。在本論文中,基于高度可擴展軟件SWAP-Assembler 2,對宏基因組組裝分析的各個流程進行了一定的優(yōu)化,提出了一種新的基于并查集數(shù)據(jù)結構的基因預測去冗余方法,均取得不錯的效果。在此基礎上,提出了一個名為WFswap的宏基因組分析流程,用于多樣本大型基因組的組裝分析。實驗結果表明,所提出的工作流程WFswap表現(xiàn)出更好的性能,能夠使得組裝的基因更長,預測到的基準基因數(shù)更多。最后,本論文針對SWAP-Assembler 2軟件進行功能提升優(yōu)化,進一步延伸contig,構建scaffold,成功提升了N50組裝標準。
【文章來源】:中國科學院大學(中國科學院深圳先進技術研究院)廣東省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
基因測序成本年度變化
第 2 章 基因組數(shù)據(jù)分析介紹 k-mer,并將所有 read 的所有 k-mer 進行累加,建立最初的 e Bruijn 圖。剔除由于測序錯誤產(chǎn)生的尖端和泡狀等結構;成。通過遍歷 De Bruijn 圖產(chǎn)生最終的 contig; De Bruijn 圖算法的基因組裝軟件有 SOAPdenovo2,VePdenovo2[34],SOAPdenovo[34]算法主要由 DeBruijn 圖的構建、contig 構等操作構成。其中 contig 構建過程中還包括一系列圖化簡操作
(2) FASTA 文件格式相比于 FASTQ 文件格式,F(xiàn)ASTA 格式是一種縮減的基因存儲方法。FASTA 格式總共由兩行組成。第一行以“>”開頭,后面記錄一下序列及數(shù)據(jù)庫信息,第二行則表示基因序列。>gene1TCCGAAAACGTTTGGCAGTTCATTAGCTGCATCGATCGATCAAATT3.3 宏基因組裝分析優(yōu)化結果3.3.1 質(zhì)量控制優(yōu)化結果分析首先在質(zhì)量控制步驟,我們采取格式轉換的方法,將原始的 FASTQ 序列轉換為更加簡潔的 FASTA 文件。
本文編號:3209471
【文章來源】:中國科學院大學(中國科學院深圳先進技術研究院)廣東省
【文章頁數(shù)】:59 頁
【學位級別】:碩士
【部分圖文】:
基因測序成本年度變化
第 2 章 基因組數(shù)據(jù)分析介紹 k-mer,并將所有 read 的所有 k-mer 進行累加,建立最初的 e Bruijn 圖。剔除由于測序錯誤產(chǎn)生的尖端和泡狀等結構;成。通過遍歷 De Bruijn 圖產(chǎn)生最終的 contig; De Bruijn 圖算法的基因組裝軟件有 SOAPdenovo2,VePdenovo2[34],SOAPdenovo[34]算法主要由 DeBruijn 圖的構建、contig 構等操作構成。其中 contig 構建過程中還包括一系列圖化簡操作
(2) FASTA 文件格式相比于 FASTQ 文件格式,F(xiàn)ASTA 格式是一種縮減的基因存儲方法。FASTA 格式總共由兩行組成。第一行以“>”開頭,后面記錄一下序列及數(shù)據(jù)庫信息,第二行則表示基因序列。>gene1TCCGAAAACGTTTGGCAGTTCATTAGCTGCATCGATCGATCAAATT3.3 宏基因組裝分析優(yōu)化結果3.3.1 質(zhì)量控制優(yōu)化結果分析首先在質(zhì)量控制步驟,我們采取格式轉換的方法,將原始的 FASTQ 序列轉換為更加簡潔的 FASTA 文件。
本文編號:3209471
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/3209471.html
最近更新
教材專著