基于學(xué)習(xí)的第三代測序一致性序列生成
發(fā)布時間:2021-08-11 07:39
繼人類基因組計(jì)劃開展以來,基因測序已經(jīng)廣泛影響了生命科學(xué)的研究方式,各模式物種基因組在全球?qū)嶒?yàn)室不斷被測定分析。近年來隨著基因組測序數(shù)據(jù)通量的提升和成本的下降,這已成為生物醫(yī)學(xué)領(lǐng)域的常規(guī)手段。目前以太平洋生物科技公司以及牛津納米孔技術(shù)公司長讀長測序?yàn)榇淼牡谌鷾y序技術(shù)可以產(chǎn)生足夠長度的測序片段,極大推動了基因組組裝、變異檢測等分析領(lǐng)域的發(fā)展。然而第三代測序序列具有極高的錯誤率(~15%),影響了分析結(jié)果的精度,局限了其在醫(yī)學(xué)研究和臨床診斷中的應(yīng)用。因此科學(xué)家致力于開發(fā)出更高效的分析方法,以打破這種限制。基因組組裝是從大量隨機(jī)測序獲得的短片段重建出幾M甚至上百M(fèi)基因組長序列的過程,最終目標(biāo)是生成完整、準(zhǔn)確的一致性序列。第三代測序技術(shù)的應(yīng)用極大提高了基因組一致性序列的完整性,但測序的高錯誤率卻限制了其準(zhǔn)確性。尤其是在組裝重復(fù)序列以及單倍型時,獲得高質(zhì)量且準(zhǔn)確的一致性序列仍存在挑戰(zhàn)。生成一致性序列的關(guān)鍵在于獲得準(zhǔn)確的多序列比對結(jié)果,考慮到第三代測序序列長讀長、高錯誤率及高通量的特點(diǎn),需要資源密集型的序列糾錯以及一致性序列生成的步驟來獲得高質(zhì)量的組裝結(jié)果。本研究提出了包含深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方...
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
基因測序技術(shù)的發(fā)展需要被提及的是,在測序技術(shù)被開創(chuàng)的這一段時期,除了Sanger提出的方法之外,還出現(xiàn)了一部分基于不同原理的測序技術(shù),例如焦磷酸測序法和
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-測序數(shù)據(jù)(即基因第三代ONT數(shù)據(jù)),選取的模式物種包括大腸桿菌、酵母菌以及果蠅。其參考基因組長度分別為4641652個堿基、12071326個堿基、137547960個堿基。由于這三個模式物種的全基因組長度、復(fù)雜程度及雜合情況均有較大差異,可以較好地評估本文提出方法的完整性和全面性。下圖即為酵母菌ONT數(shù)據(jù)的片段示例。圖2-1第三代ONT數(shù)據(jù)片段示意2.2.2數(shù)據(jù)預(yù)處理由于目前并沒有出現(xiàn)過使用深度學(xué)習(xí)方法進(jìn)行一致性序列生成的研究,因此,針對基因組數(shù)據(jù),需要進(jìn)行預(yù)處理。經(jīng)過不斷試驗(yàn),本科題采用如下處理方式:首先考慮到測序過程不同通量數(shù)據(jù)并非是完全對齊,而是呈階梯狀排布,相鄰兩條之間都有一定堿基數(shù)的錯位,因此需要對比對后的結(jié)果進(jìn)行裁剪,以免某些位點(diǎn)上大部分序列均為空位,具體做法是取正向第十五條序列的尾部位置向前50個位點(diǎn)作為塊截止位點(diǎn),反向第十五條序列頭部位置向后50個位點(diǎn)作為塊起始位點(diǎn)。之后,再將裁剪后的比對結(jié)果分割為深度為序列乘數(shù)、寬度為12個位點(diǎn)的小塊,每一個小塊用于預(yù)測塊中心4個位點(diǎn)的堿基種類。
。狀態(tài)在具體計(jì)算過程中使用1-hot編碼表示,其中每個矩陣單元使用5比特進(jìn)行編碼,即可以表示四種堿基以及gap。與每個狀態(tài)相關(guān)聯(lián)的是sum-of-pairs分?jǐn)?shù),它是該狀態(tài)下比對的得分。關(guān)于環(huán)境中動作(action)的描述如下,對于任意狀態(tài),智能體(agent)有進(jìn)行多種動作的可能性,這也將改變多序列比對的結(jié)構(gòu)。具體而言,智能體可以決定將任意一個矩陣中為堿基的元素向左或者向右推動,動作的結(jié)果是使選定的堿基水平移動一個單元,以及在移動方向上與之相鄰的任何堿基。推動gap以及造成任意堿基在矩陣B之外的動作都是不合法的。如圖2-2所示為狀態(tài)表示矩陣向左推動第二行第五列的T之后的結(jié)果。比對調(diào)整過程中,動作是離散的,每一個動作由一個三元組表示,包含了其坐標(biāo)信息以及移動方向信息。動作空間的維度即合法動作的數(shù)量由狀態(tài)矩陣的大小決定,對于一個包含n條位點(diǎn)數(shù)為b的狀態(tài)矩陣,其最大合法動作數(shù)為2nb-2n。圖2-2一個三序列比對的表示及向左推動堿基T之后的狀態(tài)變化由于在這個強(qiáng)化學(xué)習(xí)方法中只需要對小規(guī)模的比對進(jìn)行調(diào)整,因此狀態(tài)空間以及動作空間都不會很大,且在每一步動作后狀態(tài)可以確定,即可以認(rèn)為環(huán)境是已知(Model-based)的。但是,雖然這個場景的馬爾科夫決策過程是已知的,也能夠建立狀態(tài)轉(zhuǎn)移表。但是如果按照這樣的做法求解該強(qiáng)化學(xué)習(xí)問題,與動態(tài)規(guī)劃算法的時間代價相近,不符合實(shí)際需求。因此,在策略學(xué)習(xí)的過程中并不利用具體的環(huán)境模型,而是采用模型未知的算法(Model-
本文編號:3335763
【文章來源】:哈爾濱工業(yè)大學(xué)黑龍江省 211工程院校 985工程院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【部分圖文】:
基因測序技術(shù)的發(fā)展需要被提及的是,在測序技術(shù)被開創(chuàng)的這一段時期,除了Sanger提出的方法之外,還出現(xiàn)了一部分基于不同原理的測序技術(shù),例如焦磷酸測序法和
哈爾濱工業(yè)大學(xué)工學(xué)碩士學(xué)位論文-11-測序數(shù)據(jù)(即基因第三代ONT數(shù)據(jù)),選取的模式物種包括大腸桿菌、酵母菌以及果蠅。其參考基因組長度分別為4641652個堿基、12071326個堿基、137547960個堿基。由于這三個模式物種的全基因組長度、復(fù)雜程度及雜合情況均有較大差異,可以較好地評估本文提出方法的完整性和全面性。下圖即為酵母菌ONT數(shù)據(jù)的片段示例。圖2-1第三代ONT數(shù)據(jù)片段示意2.2.2數(shù)據(jù)預(yù)處理由于目前并沒有出現(xiàn)過使用深度學(xué)習(xí)方法進(jìn)行一致性序列生成的研究,因此,針對基因組數(shù)據(jù),需要進(jìn)行預(yù)處理。經(jīng)過不斷試驗(yàn),本科題采用如下處理方式:首先考慮到測序過程不同通量數(shù)據(jù)并非是完全對齊,而是呈階梯狀排布,相鄰兩條之間都有一定堿基數(shù)的錯位,因此需要對比對后的結(jié)果進(jìn)行裁剪,以免某些位點(diǎn)上大部分序列均為空位,具體做法是取正向第十五條序列的尾部位置向前50個位點(diǎn)作為塊截止位點(diǎn),反向第十五條序列頭部位置向后50個位點(diǎn)作為塊起始位點(diǎn)。之后,再將裁剪后的比對結(jié)果分割為深度為序列乘數(shù)、寬度為12個位點(diǎn)的小塊,每一個小塊用于預(yù)測塊中心4個位點(diǎn)的堿基種類。
。狀態(tài)在具體計(jì)算過程中使用1-hot編碼表示,其中每個矩陣單元使用5比特進(jìn)行編碼,即可以表示四種堿基以及gap。與每個狀態(tài)相關(guān)聯(lián)的是sum-of-pairs分?jǐn)?shù),它是該狀態(tài)下比對的得分。關(guān)于環(huán)境中動作(action)的描述如下,對于任意狀態(tài),智能體(agent)有進(jìn)行多種動作的可能性,這也將改變多序列比對的結(jié)構(gòu)。具體而言,智能體可以決定將任意一個矩陣中為堿基的元素向左或者向右推動,動作的結(jié)果是使選定的堿基水平移動一個單元,以及在移動方向上與之相鄰的任何堿基。推動gap以及造成任意堿基在矩陣B之外的動作都是不合法的。如圖2-2所示為狀態(tài)表示矩陣向左推動第二行第五列的T之后的結(jié)果。比對調(diào)整過程中,動作是離散的,每一個動作由一個三元組表示,包含了其坐標(biāo)信息以及移動方向信息。動作空間的維度即合法動作的數(shù)量由狀態(tài)矩陣的大小決定,對于一個包含n條位點(diǎn)數(shù)為b的狀態(tài)矩陣,其最大合法動作數(shù)為2nb-2n。圖2-2一個三序列比對的表示及向左推動堿基T之后的狀態(tài)變化由于在這個強(qiáng)化學(xué)習(xí)方法中只需要對小規(guī)模的比對進(jìn)行調(diào)整,因此狀態(tài)空間以及動作空間都不會很大,且在每一步動作后狀態(tài)可以確定,即可以認(rèn)為環(huán)境是已知(Model-based)的。但是,雖然這個場景的馬爾科夫決策過程是已知的,也能夠建立狀態(tài)轉(zhuǎn)移表。但是如果按照這樣的做法求解該強(qiáng)化學(xué)習(xí)問題,與動態(tài)規(guī)劃算法的時間代價相近,不符合實(shí)際需求。因此,在策略學(xué)習(xí)的過程中并不利用具體的環(huán)境模型,而是采用模型未知的算法(Model-
本文編號:3335763
本文鏈接:http://www.sikaile.net/projectlw/swxlw/3335763.html
最近更新
教材專著