多參考基因短序列比對(duì)工具M(jìn)UGI的優(yōu)化與移植
發(fā)布時(shí)間:2020-09-28 13:23
生物的進(jìn)化方向由遺傳信息所決定,而DNA是承載遺傳信息的唯一物質(zhì)。新一代的測(cè)序工具的飛速發(fā)展正使得獲取基因數(shù)據(jù)變得日漸廉價(jià)。這意味著,我們正進(jìn)入到基因大數(shù)據(jù)的時(shí)代。近期,一個(gè)新的課題正在興起,其名為多參考基因的短序列比對(duì)。到目前為止,已出現(xiàn)的優(yōu)秀比對(duì)軟件已經(jīng)昭示著這個(gè)課題正日趨成熟。一款優(yōu)秀的多參考基因比對(duì)軟件的關(guān)鍵在于簡(jiǎn)潔優(yōu)秀的索引設(shè)計(jì)和與索引相匹配的比對(duì)算法設(shè)計(jì);谏鲜鰞牲c(diǎn),我們選取了一款在當(dāng)前十分優(yōu)秀的比對(duì)軟件MUGI進(jìn)行研究。本文是從軟件優(yōu)化的方向來(lái)研究多參考基因的短序列比對(duì)技術(shù)。我們首先介紹了生物比對(duì)工具的研究背景和現(xiàn)狀,分析了MUGI優(yōu)化與移植的必要性。再對(duì)MUGI目前尚存在的優(yōu)化空間進(jìn)行分析,并提出相應(yīng)的解決方案。下面介紹本文的主要研究成果和工作。一、對(duì)于MUGI軟件中索引所匹配的比對(duì)算法比對(duì)速度較慢,算法設(shè)計(jì)不夠具有針對(duì)性的問題,我們分別設(shè)計(jì)了新的比MUGI原算法更加具有針對(duì)性的精確比對(duì)和非精確比對(duì)算法。新的精確比對(duì)算法在增加少量的索引大小的前提下大幅提升了比對(duì)速度,而新的非精確比對(duì)算法優(yōu)化了原MUGI非精確比對(duì)算法的流程,在不改變索引的情況下,提升了比對(duì)速度。二、針對(duì)MUGI比對(duì)算法是單線程所導(dǎo)致無(wú)法發(fā)揮多核結(jié)構(gòu)服務(wù)器性能的實(shí)際問題,我們對(duì)MUGI比對(duì)算法設(shè)計(jì)了線程池,以充分利用服務(wù)器的多核結(jié)構(gòu)。針對(duì)MUGI不能直接在龍芯平臺(tái)運(yùn)行的問題,本文首次對(duì)MUGI進(jìn)行全面的移植。同時(shí),結(jié)合龍芯的結(jié)構(gòu)特征,利用龍芯的向量部件與多媒體擴(kuò)展指令進(jìn)行優(yōu)化。做到移植優(yōu)化兩不誤,既擴(kuò)展了龍芯的運(yùn)用,同時(shí)還優(yōu)化了程序的性能。三、構(gòu)建修改參考框架,框架中可以任意搭配修改算法。同時(shí),本文根據(jù)變異點(diǎn)密度與索引大小的關(guān)系,設(shè)計(jì)了一種修改算法,最終達(dá)到了減小索引大小的效果。
【學(xué)位單位】:深圳大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
DNA 是一種長(zhǎng)鏈聚合物,它承載著生物的遺傳信息,其組成單位為腺嘌呤、鳥嘌呤、胸腺嘧啶和胞嘧啶四種脫氧核苷酸,分別用 A、G、T、C 四個(gè)字符進(jìn)行表示。不論是我們所提及的參考基因或者是在測(cè)序時(shí)被打算成短序列片段的read,都是由這四種脫氧核苷酸組成。這些序列都是只讀的,所以稱之為只讀片段。對(duì)于單參考基因來(lái)說(shuō),其參考基因和短序列片段 read 都是由 FASTA 或者FASTQ[39]這兩種格式的文件進(jìn)行存儲(chǔ)。但是對(duì)于多參考基因來(lái)說(shuō),建立索引時(shí)需要有整個(gè)參考基因文庫(kù)的信息。文庫(kù)中的參考基因分為兩個(gè)部分,包括原參考基因和其他參考基因,原參考基因用 FASTA 或者 FASTQ 格式文件存儲(chǔ),而其他參考基因則用 VCF 文件格式存儲(chǔ),VCF 文件[40]記錄了基因文庫(kù)中的其它參考基因?qū)τ谠瓍⒖蓟虻淖儺慄c(diǎn)信息。接下來(lái),我們就要介紹著三種不同的文件格式首先,介紹 FASTA 文件格式(https://zhanglab.ccmb.med.umich.edu/FASTA/),下圖是一個(gè)來(lái)源于 NCBI 的 FASTA 格式文件:
一個(gè)來(lái)源于 NCBI 的 FASTA 格式文件:圖 2-2 FASTA 文件格式圖ASTA 格式第一行首先以大于號(hào)“>”開頭,接著是序列的標(biāo)識(shí)符,在部分為“gi|197608668|ref|NM_001043364.2|”,最后是序列的描述信若干行直接存儲(chǔ)序列,序列中允許空格,換行,空行,直到下一個(gè)大于序列結(jié)束,通常每行不超過(guò) 80 個(gè)字符。
多參考基因短序列比對(duì)工具 MUGI 的優(yōu)化與移植上圖是一個(gè)來(lái)源于 NCBI 的 FASTQ 格式文件:FASTQ 文件中對(duì)于每條短序列通常用四行進(jìn)行描述。第一行以“@”起始,后接序列標(biāo)識(shí)及相關(guān)信息。第二行記錄序列,第三行以“+”起始,后面接序列標(biāo)示符、描述信息或什么也不接,第四行則記錄質(zhì)量信息。最后,我們介紹 VCF 文件格式,VCF 文件格式用于記錄描述遺傳變異,是GATK[41]所鐘愛的表示方法。
本文編號(hào):2828847
【學(xué)位單位】:深圳大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2018
【中圖分類】:Q811.4
【部分圖文】:
DNA 是一種長(zhǎng)鏈聚合物,它承載著生物的遺傳信息,其組成單位為腺嘌呤、鳥嘌呤、胸腺嘧啶和胞嘧啶四種脫氧核苷酸,分別用 A、G、T、C 四個(gè)字符進(jìn)行表示。不論是我們所提及的參考基因或者是在測(cè)序時(shí)被打算成短序列片段的read,都是由這四種脫氧核苷酸組成。這些序列都是只讀的,所以稱之為只讀片段。對(duì)于單參考基因來(lái)說(shuō),其參考基因和短序列片段 read 都是由 FASTA 或者FASTQ[39]這兩種格式的文件進(jìn)行存儲(chǔ)。但是對(duì)于多參考基因來(lái)說(shuō),建立索引時(shí)需要有整個(gè)參考基因文庫(kù)的信息。文庫(kù)中的參考基因分為兩個(gè)部分,包括原參考基因和其他參考基因,原參考基因用 FASTA 或者 FASTQ 格式文件存儲(chǔ),而其他參考基因則用 VCF 文件格式存儲(chǔ),VCF 文件[40]記錄了基因文庫(kù)中的其它參考基因?qū)τ谠瓍⒖蓟虻淖儺慄c(diǎn)信息。接下來(lái),我們就要介紹著三種不同的文件格式首先,介紹 FASTA 文件格式(https://zhanglab.ccmb.med.umich.edu/FASTA/),下圖是一個(gè)來(lái)源于 NCBI 的 FASTA 格式文件:
一個(gè)來(lái)源于 NCBI 的 FASTA 格式文件:圖 2-2 FASTA 文件格式圖ASTA 格式第一行首先以大于號(hào)“>”開頭,接著是序列的標(biāo)識(shí)符,在部分為“gi|197608668|ref|NM_001043364.2|”,最后是序列的描述信若干行直接存儲(chǔ)序列,序列中允許空格,換行,空行,直到下一個(gè)大于序列結(jié)束,通常每行不超過(guò) 80 個(gè)字符。
多參考基因短序列比對(duì)工具 MUGI 的優(yōu)化與移植上圖是一個(gè)來(lái)源于 NCBI 的 FASTQ 格式文件:FASTQ 文件中對(duì)于每條短序列通常用四行進(jìn)行描述。第一行以“@”起始,后接序列標(biāo)識(shí)及相關(guān)信息。第二行記錄序列,第三行以“+”起始,后面接序列標(biāo)示符、描述信息或什么也不接,第四行則記錄質(zhì)量信息。最后,我們介紹 VCF 文件格式,VCF 文件格式用于記錄描述遺傳變異,是GATK[41]所鐘愛的表示方法。
【參考文獻(xiàn)】
相關(guān)期刊論文 前1條
1 彭飛;顧乃杰;高翔;孫明明;;龍芯3B的SIMD編譯優(yōu)化及分析[J];小型微型計(jì)算機(jī)系統(tǒng);2012年12期
相關(guān)碩士學(xué)位論文 前2條
1 劉國(guó)強(qiáng);SOAP2在龍芯平臺(tái)上的移植和優(yōu)化[D];深圳大學(xué);2015年
2 劉波;基于龍芯SIMD技術(shù)的RealVideo解碼優(yōu)化[D];中國(guó)石油大學(xué);2008年
本文編號(hào):2828847
本文鏈接:http://www.sikaile.net/kejilunwen/jiyingongcheng/2828847.html
最近更新
教材專著