基于Hadoop平臺(tái)的下一代測(cè)序數(shù)據(jù)處理算法研究
發(fā)布時(shí)間:2021-04-14 11:29
下一代測(cè)序技術(shù)的發(fā)展產(chǎn)生大量的測(cè)序短序列,序列比對(duì)是將測(cè)序短序列映射到參考基因組的過(guò)程,對(duì)生物同源性分析,SNP位點(diǎn)預(yù)測(cè)及疾病預(yù)測(cè)具有重要的研究意義。由于下一代測(cè)序數(shù)據(jù)包含大量的重復(fù)序列,處理重復(fù)序列會(huì)帶來(lái)不必要的資源消耗,因此序列去重是常見(jiàn)的測(cè)序數(shù)據(jù)預(yù)處理操作。現(xiàn)有很多去重和比對(duì)的方法,但是這些方法面對(duì)大規(guī)模測(cè)序數(shù)據(jù)處理存在耗時(shí)長(zhǎng)、效率低等問(wèn)題。近年來(lái)研究界提出了一些面向大數(shù)據(jù)的并行處理算法,雖然在數(shù)據(jù)處理效率上有很大的提升,但依然存在著很大的改進(jìn)空間,性能還需進(jìn)一步提高。針對(duì)此問(wèn)題,本文研究并實(shí)現(xiàn)基于Hadoop平臺(tái)的大規(guī)模測(cè)序序列去重和比對(duì)并行化算法,主要研究?jī)?nèi)容和結(jié)論如下:(1)序列去重算法的研究與改進(jìn)針對(duì)測(cè)序數(shù)據(jù)中存在大量的重復(fù)序列,本文研究基于前綴后綴思想的并行去重算法,并在此基礎(chǔ)上進(jìn)行改進(jìn)。算法的改進(jìn)包括以下兩個(gè)方面:(1)原始算法去重結(jié)果中仍包含基準(zhǔn)重復(fù)序列,針對(duì)此問(wèn)題,本研究在去重過(guò)程中刪除基準(zhǔn)重復(fù)序列,進(jìn)一步提高了去重率。(2)原始算法去重結(jié)果中包含大量低質(zhì)量序列,針對(duì)此問(wèn)題,本文提出在去重過(guò)程中結(jié)合質(zhì)量控制,過(guò)濾低質(zhì)量序列,提升測(cè)序數(shù)據(jù)質(zhì)量。(2)序列比對(duì)算法的并...
【文章來(lái)源】:西北農(nóng)林科技大學(xué)陜西省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人類(lèi)基因組測(cè)序成本Fig.1-1Thecostofsequencingthehumangenome
圖 1-2 每兆堿基測(cè)序成本Fig. 1-2 The cost of sequencing per megabit base001 年至 2007 年 10 月的數(shù)據(jù)代表使用第一成本,從 2008 年 1 月開(kāi)始的數(shù)據(jù)代表近年來(lái)序技術(shù)的發(fā)展為生物信息工作者帶來(lái)便利的技術(shù)的發(fā)展,人們可以在短時(shí)間內(nèi)獲得大 單次運(yùn)轉(zhuǎn)能產(chǎn)生 600GB 的新一代測(cè)序數(shù)據(jù)
Illumina 遺傳分析儀性價(jià)比高,是目前主流的高通量測(cè)序平臺(tái)。Illumina 測(cè)序平臺(tái)的測(cè)序過(guò)程如圖2-1①所示,具體包括以下步驟:第一步,將 DNA 序列打碎,形成短的片段;第二步,將 DNA 片段兩側(cè) 3’ 端和 5’ 端連上接頭;第三步,將 DNA 片段固定在磁珠上,形成微反應(yīng)器;第四步,每個(gè)片段獨(dú)立地進(jìn)行擴(kuò)增-微乳液 PCR 擴(kuò)增;第五步,進(jìn)行引物雜交和酶延伸反應(yīng),同一時(shí)刻進(jìn)行熒光標(biāo)記的成像檢測(cè)。圖 2-1 高通量測(cè)序平臺(tái)測(cè)序過(guò)程Fig. 2-1 High-throughput sequencing platform sequencing process①https://www.biomart.cn/specials/illumina/article/57234
【參考文獻(xiàn)】:
期刊論文
[1]高通量測(cè)序行業(yè)現(xiàn)狀與發(fā)展趨勢(shì)分析[J]. 施慧琳,蘇燕,許麗,王玥. 生物產(chǎn)業(yè)技術(shù). 2018(03)
[2]高通量DNA測(cè)序數(shù)據(jù)的生物信息學(xué)方法[J]. 詹曉娟,姚登舉,朱懷球. 大數(shù)據(jù). 2016(02)
[3]序列比對(duì)算法中的BW變換索引技術(shù)研究及其改進(jìn)[J]. 趙雅男,徐云,程昊宇. 計(jì)算機(jī)工程. 2016(01)
[4]基于新一代測(cè)序數(shù)據(jù)的比對(duì)算法的研究[J]. 權(quán)威,王亞?wèn)|. 智能計(jì)算機(jī)與應(yīng)用. 2012(05)
[5]BWT與經(jīng)典壓縮算法研究[J]. 倪桂強(qiáng),李彬,羅健欣,張雪. 計(jì)算機(jī)與數(shù)字工程. 2010(11)
碩士論文
[1]基于高通量轉(zhuǎn)錄組測(cè)序的序列比對(duì)算法研究[D]. 張勇.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[2]基于分布式計(jì)算的高通量測(cè)序比對(duì)方法的研究與實(shí)現(xiàn)[D]. 張?chǎng)?北京郵電大學(xué) 2015
[3]基于BWT的快速DNA比對(duì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 周渝東.哈爾濱工業(yè)大學(xué) 2014
本文編號(hào):3137236
【文章來(lái)源】:西北農(nóng)林科技大學(xué)陜西省 211工程院校 985工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:59 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
人類(lèi)基因組測(cè)序成本Fig.1-1Thecostofsequencingthehumangenome
圖 1-2 每兆堿基測(cè)序成本Fig. 1-2 The cost of sequencing per megabit base001 年至 2007 年 10 月的數(shù)據(jù)代表使用第一成本,從 2008 年 1 月開(kāi)始的數(shù)據(jù)代表近年來(lái)序技術(shù)的發(fā)展為生物信息工作者帶來(lái)便利的技術(shù)的發(fā)展,人們可以在短時(shí)間內(nèi)獲得大 單次運(yùn)轉(zhuǎn)能產(chǎn)生 600GB 的新一代測(cè)序數(shù)據(jù)
Illumina 遺傳分析儀性價(jià)比高,是目前主流的高通量測(cè)序平臺(tái)。Illumina 測(cè)序平臺(tái)的測(cè)序過(guò)程如圖2-1①所示,具體包括以下步驟:第一步,將 DNA 序列打碎,形成短的片段;第二步,將 DNA 片段兩側(cè) 3’ 端和 5’ 端連上接頭;第三步,將 DNA 片段固定在磁珠上,形成微反應(yīng)器;第四步,每個(gè)片段獨(dú)立地進(jìn)行擴(kuò)增-微乳液 PCR 擴(kuò)增;第五步,進(jìn)行引物雜交和酶延伸反應(yīng),同一時(shí)刻進(jìn)行熒光標(biāo)記的成像檢測(cè)。圖 2-1 高通量測(cè)序平臺(tái)測(cè)序過(guò)程Fig. 2-1 High-throughput sequencing platform sequencing process①https://www.biomart.cn/specials/illumina/article/57234
【參考文獻(xiàn)】:
期刊論文
[1]高通量測(cè)序行業(yè)現(xiàn)狀與發(fā)展趨勢(shì)分析[J]. 施慧琳,蘇燕,許麗,王玥. 生物產(chǎn)業(yè)技術(shù). 2018(03)
[2]高通量DNA測(cè)序數(shù)據(jù)的生物信息學(xué)方法[J]. 詹曉娟,姚登舉,朱懷球. 大數(shù)據(jù). 2016(02)
[3]序列比對(duì)算法中的BW變換索引技術(shù)研究及其改進(jìn)[J]. 趙雅男,徐云,程昊宇. 計(jì)算機(jī)工程. 2016(01)
[4]基于新一代測(cè)序數(shù)據(jù)的比對(duì)算法的研究[J]. 權(quán)威,王亞?wèn)|. 智能計(jì)算機(jī)與應(yīng)用. 2012(05)
[5]BWT與經(jīng)典壓縮算法研究[J]. 倪桂強(qiáng),李彬,羅健欣,張雪. 計(jì)算機(jī)與數(shù)字工程. 2010(11)
碩士論文
[1]基于高通量轉(zhuǎn)錄組測(cè)序的序列比對(duì)算法研究[D]. 張勇.中國(guó)科學(xué)技術(shù)大學(xué) 2016
[2]基于分布式計(jì)算的高通量測(cè)序比對(duì)方法的研究與實(shí)現(xiàn)[D]. 張?chǎng)?北京郵電大學(xué) 2015
[3]基于BWT的快速DNA比對(duì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 周渝東.哈爾濱工業(yè)大學(xué) 2014
本文編號(hào):3137236
本文鏈接:http://www.sikaile.net/kejilunwen/jisuanjikexuelunwen/3137236.html
最近更新
教材專(zhuān)著