面向三代測序的序列比對算法研究與優(yōu)化
發(fā)布時(shí)間:2021-07-10 13:47
近年來,三代測序技術(shù)的發(fā)展為基因組學(xué)帶來了重大變革和影響。但由于三代測序序列具有平均長度長、錯誤率高的特性,現(xiàn)有的三代測序序列比對算法在數(shù)據(jù)分析的工作流中占據(jù)了大量的時(shí)間。因此,如何快速、準(zhǔn)確地將大規(guī)模的測序序列比對到參考基因組上是三代測序序列比對面臨的一大挑戰(zhàn)。目前主流算法大多采用種子擴(kuò)展(seed-and-extend)方法,包括過濾出候選位置和進(jìn)行比對驗(yàn)證兩個(gè)階段。過濾和驗(yàn)證是影響算法性能的關(guān)鍵環(huán)節(jié),為了加快序列比對的速度,本文對過濾方法的特征選取和驗(yàn)證階段的索引技術(shù)進(jìn)行了較為深入的研究,主要工作和貢獻(xiàn)如下:(1)過濾方法設(shè)計(jì)及優(yōu)化對已有過濾方法進(jìn)行分析,它們使用全部種子來過濾候選位置,如此要處理的種子數(shù)很多且針對性不強(qiáng),導(dǎo)致過濾時(shí)間過長。我們的實(shí)驗(yàn)表明過濾時(shí)低頻率的種子往往具有更高的區(qū)分度,同時(shí)低頻種子也可以有效地減少計(jì)算量;诖,本文提出了一種基于低頻種子的過濾方法,根據(jù)基因組的規(guī)模動態(tài)地選取低頻率的種子,使用低頻種子進(jìn)行投票定位候選區(qū)域。過濾得到的候選區(qū)域數(shù)目也是過濾方法的重要衡量標(biāo)準(zhǔn)。為了進(jìn)一步減少候選區(qū)域的數(shù)目,我們對過濾方法進(jìn)行了優(yōu)化,提出了相鄰窗口合并、候選窗口驗(yàn)...
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1種子擴(kuò)展方法流程圖??為了加速比對過程,大部分的序列比對算法都會采用輔助數(shù)據(jù)結(jié)構(gòu)[18],即??
2.1.3.?dāng)?shù)據(jù)文件格式介紹??測序技術(shù)的不斷發(fā)展,使得測序儀的吞吐量大幅提升,測序數(shù)據(jù)不斷的,大量的數(shù)據(jù)需要處理和存儲。這些數(shù)據(jù)既有直接通過測序獲得的原始數(shù)有通過軟件分析后得到的結(jié)果文件。在測序的研宄領(lǐng)域,有些大家公認(rèn)的文式,作為序列比對算法輸入/輸出的標(biāo)準(zhǔn)文件格式。??1.?FASTA文件格式??FASTA格式是一種用于表示核酸序列或多肽序列的文本格式,又稱Pearso式,主要發(fā)明人是威廉?皮爾森(William?Raymond?Pearson)和戴維德.李(David?J.Lipman)。隨著時(shí)間的推移,這種格式己經(jīng)成為生物信息學(xué)領(lǐng)域項(xiàng)標(biāo)準(zhǔn)。其中核酸(DNA/RNA)或氨基酸(Aminor?Acid?sequence)均以單母編碼來表示,通常序列前會添加序列名及相應(yīng)的注釋。??一般情況下,參考基因組都存儲在此類格式的文件中,單條染色體作為一
ACCCCAAAAAGCCGAGAGAAGCTGGCAATGTGGCTCATCTGTAATACCAGCACTTTGGAAGGCTGAGAGGGCGAACTTCTTTGAGCTC??+??圖2.3?FASTQ格式文件示例??FASTQ格式的序列一般每四行為一個(gè)單位,通常標(biāo)題在第一行錄入,必須??由’@’開始,后面跟著唯一的序列標(biāo)識符及可選的描述內(nèi)容。第二行是核苷酸序??列,由A、C、G、T、N構(gòu)成;第三行以’+’為起始符,后面可能會包含序列的??描述信息,或者沒有信息,僅充當(dāng)分隔符;第四行是測序序列的質(zhì)量值,意指每??個(gè)堿基字符在相對位置上的可信度。與第二行的字符一一對應(yīng),所以長度跟第二??行是一致的。質(zhì)量分?jǐn)?shù)部分采用ASCII編碼。圖2.3是FASTQ格式文件的一個(gè)示??例。??在FASTQ格式文件中,質(zhì)量值是非常重要的,它是一個(gè)堿基的錯誤率的對??數(shù)值。在測序過程中,可根據(jù)熒光信號的強(qiáng)弱得到一個(gè)參考的測序錯誤概率P值,??通過如下的Phred質(zhì)量分?jǐn)?shù)計(jì)算公式
【參考文獻(xiàn)】:
期刊論文
[1]第三代測序技術(shù)及其應(yīng)用[J]. 張得芳,馬秋月,尹佟明,夏濤. 中國生物工程雜志. 2013(05)
[2]DNA測序技術(shù)的發(fā)展歷史與最新進(jìn)展[J]. 解增言,林俊華,譚軍,舒坤賢. 生物技術(shù)通報(bào). 2010(08)
本文編號:3276026
【文章來源】:中國科學(xué)技術(shù)大學(xué)安徽省 211工程院校 985工程院校
【文章頁數(shù)】:77 頁
【學(xué)位級別】:碩士
【部分圖文】:
圖1.1種子擴(kuò)展方法流程圖??為了加速比對過程,大部分的序列比對算法都會采用輔助數(shù)據(jù)結(jié)構(gòu)[18],即??
2.1.3.?dāng)?shù)據(jù)文件格式介紹??測序技術(shù)的不斷發(fā)展,使得測序儀的吞吐量大幅提升,測序數(shù)據(jù)不斷的,大量的數(shù)據(jù)需要處理和存儲。這些數(shù)據(jù)既有直接通過測序獲得的原始數(shù)有通過軟件分析后得到的結(jié)果文件。在測序的研宄領(lǐng)域,有些大家公認(rèn)的文式,作為序列比對算法輸入/輸出的標(biāo)準(zhǔn)文件格式。??1.?FASTA文件格式??FASTA格式是一種用于表示核酸序列或多肽序列的文本格式,又稱Pearso式,主要發(fā)明人是威廉?皮爾森(William?Raymond?Pearson)和戴維德.李(David?J.Lipman)。隨著時(shí)間的推移,這種格式己經(jīng)成為生物信息學(xué)領(lǐng)域項(xiàng)標(biāo)準(zhǔn)。其中核酸(DNA/RNA)或氨基酸(Aminor?Acid?sequence)均以單母編碼來表示,通常序列前會添加序列名及相應(yīng)的注釋。??一般情況下,參考基因組都存儲在此類格式的文件中,單條染色體作為一
ACCCCAAAAAGCCGAGAGAAGCTGGCAATGTGGCTCATCTGTAATACCAGCACTTTGGAAGGCTGAGAGGGCGAACTTCTTTGAGCTC??+??圖2.3?FASTQ格式文件示例??FASTQ格式的序列一般每四行為一個(gè)單位,通常標(biāo)題在第一行錄入,必須??由’@’開始,后面跟著唯一的序列標(biāo)識符及可選的描述內(nèi)容。第二行是核苷酸序??列,由A、C、G、T、N構(gòu)成;第三行以’+’為起始符,后面可能會包含序列的??描述信息,或者沒有信息,僅充當(dāng)分隔符;第四行是測序序列的質(zhì)量值,意指每??個(gè)堿基字符在相對位置上的可信度。與第二行的字符一一對應(yīng),所以長度跟第二??行是一致的。質(zhì)量分?jǐn)?shù)部分采用ASCII編碼。圖2.3是FASTQ格式文件的一個(gè)示??例。??在FASTQ格式文件中,質(zhì)量值是非常重要的,它是一個(gè)堿基的錯誤率的對??數(shù)值。在測序過程中,可根據(jù)熒光信號的強(qiáng)弱得到一個(gè)參考的測序錯誤概率P值,??通過如下的Phred質(zhì)量分?jǐn)?shù)計(jì)算公式
【參考文獻(xiàn)】:
期刊論文
[1]第三代測序技術(shù)及其應(yīng)用[J]. 張得芳,馬秋月,尹佟明,夏濤. 中國生物工程雜志. 2013(05)
[2]DNA測序技術(shù)的發(fā)展歷史與最新進(jìn)展[J]. 解增言,林俊華,譚軍,舒坤賢. 生物技術(shù)通報(bào). 2010(08)
本文編號:3276026
本文鏈接:http://www.sikaile.net/projectlw/swxlw/3276026.html
最近更新
教材專著