增強型稀疏后綴數(shù)組索引的高錯誤率reads比對
發(fā)布時間:2021-08-20 15:54
生物序列比對有助于定位序列之間的相似區(qū)域.測序技術(shù)的快速發(fā)展需要序列比對算法能夠靈活地處理更長且錯誤率更高的reads序列.通過增強型稀疏后綴數(shù)組對參考序列建立索引,自適應(yīng)地調(diào)整種子的最小長度,尋找參考序列與reads序列之間的最大精確匹配和超大精確匹配,以此進(jìn)行種子擴(kuò)展,提出一種改進(jìn)的long-read比對算法.與已有代表性的算法相比,模擬和真實數(shù)據(jù)實驗結(jié)果表明,本文算法在獲得基本相同精確度的前提下,召回率明顯提升,敏感度總體上更高,且能夠識別更多的reads序列.
【文章來源】:小型微型計算機系統(tǒng). 2019,40(08)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
不同錯誤率的模擬數(shù)據(jù)上算法的精確度Fig.1Accuracyofalgorithmsforsimulatedreadswith
和10%(錯誤率取Wgsim的默認(rèn)值)時,圖3和圖4分別給出了Kart與sufKart算法的精確度和召回率.圖2不同錯誤率的模擬數(shù)據(jù)上算法的召回率Fig.2Recallrateofalgorithmsforsimulatedreadswithdifferenterrorrates由圖3和圖4可知:當(dāng)突變率高達(dá)8%以上時,不論是精確度還是召回率,sufKart算法幾乎均高于Kart算法.圖3不同突變率的模擬數(shù)據(jù)上算法的精確度Fig.3Accuracyofalgorithmsforsimulatedreadswithdifferentmutationrates在實際應(yīng)用中,各類測序平臺產(chǎn)生的reads不僅僅只包含簡單的插入刪除錯誤而且還包括比較復(fù)雜的結(jié)構(gòu)變異.因此,本文生成不同錯誤率和突變率的模擬reads數(shù)據(jù)集進(jìn)行實驗.圖4不同突變率的模擬數(shù)據(jù)上算法的召回率Fig.4Recallrateofalgorithmsforsimulatedreadswithdifferentmutationrates表1給出了長度1000bp,錯誤率分別為2%、5%、10%和15%,突變率為2%、5%、8%和10%時,Kart和sufKart算法對模擬數(shù)據(jù)reads進(jìn)行實驗獲得的精確度和召回率,其中“E02-R02”表示錯誤率為2%,突變率為2%的reads數(shù)據(jù)集,其他類推.從表1可以看出:當(dāng)每組模擬數(shù)據(jù)reads的(錯誤率,突變率)分別為(2%,5%)、(2%,8%)、(5%,2%)和(5%,5%)時,sufKart算法的精確度高于Kart算法,且召回率幾乎表1不同錯誤率和突變率的模擬數(shù)據(jù)上算法的精確度和召回率Table1Accuracyandrecallrateofalgorithmswithdifferenterrorratesandmutationratesonsimulationdata數(shù)據(jù)集KartsufKart精確度(%)召回率(%)精確度(%)召回率(%)E02-
和10%(錯誤率取Wgsim的默認(rèn)值)時,圖3和圖4分別給出了Kart與sufKart算法的精確度和召回率.圖2不同錯誤率的模擬數(shù)據(jù)上算法的召回率Fig.2Recallrateofalgorithmsforsimulatedreadswithdifferenterrorrates由圖3和圖4可知:當(dāng)突變率高達(dá)8%以上時,不論是精確度還是召回率,sufKart算法幾乎均高于Kart算法.圖3不同突變率的模擬數(shù)據(jù)上算法的精確度Fig.3Accuracyofalgorithmsforsimulatedreadswithdifferentmutationrates在實際應(yīng)用中,各類測序平臺產(chǎn)生的reads不僅僅只包含簡單的插入刪除錯誤而且還包括比較復(fù)雜的結(jié)構(gòu)變異.因此,本文生成不同錯誤率和突變率的模擬reads數(shù)據(jù)集進(jìn)行實驗.圖4不同突變率的模擬數(shù)據(jù)上算法的召回率Fig.4Recallrateofalgorithmsforsimulatedreadswithdifferentmutationrates表1給出了長度1000bp,錯誤率分別為2%、5%、10%和15%,突變率為2%、5%、8%和10%時,Kart和sufKart算法對模擬數(shù)據(jù)reads進(jìn)行實驗獲得的精確度和召回率,其中“E02-R02”表示錯誤率為2%,突變率為2%的reads數(shù)據(jù)集,其他類推.從表1可以看出:當(dāng)每組模擬數(shù)據(jù)reads的(錯誤率,突變率)分別為(2%,5%)、(2%,8%)、(5%,2%)和(5%,5%)時,sufKart算法的精確度高于Kart算法,且召回率幾乎表1不同錯誤率和突變率的模擬數(shù)據(jù)上算法的精確度和召回率Table1Accuracyandrecallrateofalgorithmswithdifferenterrorratesandmutationratesonsimulationdata數(shù)據(jù)集KartsufKart精確度(%)召回率(%)精確度(%)召回率(%)E02-
【參考文獻(xiàn)】:
期刊論文
[1]CPU和GPU協(xié)同并行加速多生物序列比對[J]. 楊春燕,鐘誠. 小型微型計算機系統(tǒng). 2016(12)
本文編號:3353788
【文章來源】:小型微型計算機系統(tǒng). 2019,40(08)北大核心CSCD
【文章頁數(shù)】:5 頁
【部分圖文】:
不同錯誤率的模擬數(shù)據(jù)上算法的精確度Fig.1Accuracyofalgorithmsforsimulatedreadswith
和10%(錯誤率取Wgsim的默認(rèn)值)時,圖3和圖4分別給出了Kart與sufKart算法的精確度和召回率.圖2不同錯誤率的模擬數(shù)據(jù)上算法的召回率Fig.2Recallrateofalgorithmsforsimulatedreadswithdifferenterrorrates由圖3和圖4可知:當(dāng)突變率高達(dá)8%以上時,不論是精確度還是召回率,sufKart算法幾乎均高于Kart算法.圖3不同突變率的模擬數(shù)據(jù)上算法的精確度Fig.3Accuracyofalgorithmsforsimulatedreadswithdifferentmutationrates在實際應(yīng)用中,各類測序平臺產(chǎn)生的reads不僅僅只包含簡單的插入刪除錯誤而且還包括比較復(fù)雜的結(jié)構(gòu)變異.因此,本文生成不同錯誤率和突變率的模擬reads數(shù)據(jù)集進(jìn)行實驗.圖4不同突變率的模擬數(shù)據(jù)上算法的召回率Fig.4Recallrateofalgorithmsforsimulatedreadswithdifferentmutationrates表1給出了長度1000bp,錯誤率分別為2%、5%、10%和15%,突變率為2%、5%、8%和10%時,Kart和sufKart算法對模擬數(shù)據(jù)reads進(jìn)行實驗獲得的精確度和召回率,其中“E02-R02”表示錯誤率為2%,突變率為2%的reads數(shù)據(jù)集,其他類推.從表1可以看出:當(dāng)每組模擬數(shù)據(jù)reads的(錯誤率,突變率)分別為(2%,5%)、(2%,8%)、(5%,2%)和(5%,5%)時,sufKart算法的精確度高于Kart算法,且召回率幾乎表1不同錯誤率和突變率的模擬數(shù)據(jù)上算法的精確度和召回率Table1Accuracyandrecallrateofalgorithmswithdifferenterrorratesandmutationratesonsimulationdata數(shù)據(jù)集KartsufKart精確度(%)召回率(%)精確度(%)召回率(%)E02-
和10%(錯誤率取Wgsim的默認(rèn)值)時,圖3和圖4分別給出了Kart與sufKart算法的精確度和召回率.圖2不同錯誤率的模擬數(shù)據(jù)上算法的召回率Fig.2Recallrateofalgorithmsforsimulatedreadswithdifferenterrorrates由圖3和圖4可知:當(dāng)突變率高達(dá)8%以上時,不論是精確度還是召回率,sufKart算法幾乎均高于Kart算法.圖3不同突變率的模擬數(shù)據(jù)上算法的精確度Fig.3Accuracyofalgorithmsforsimulatedreadswithdifferentmutationrates在實際應(yīng)用中,各類測序平臺產(chǎn)生的reads不僅僅只包含簡單的插入刪除錯誤而且還包括比較復(fù)雜的結(jié)構(gòu)變異.因此,本文生成不同錯誤率和突變率的模擬reads數(shù)據(jù)集進(jìn)行實驗.圖4不同突變率的模擬數(shù)據(jù)上算法的召回率Fig.4Recallrateofalgorithmsforsimulatedreadswithdifferentmutationrates表1給出了長度1000bp,錯誤率分別為2%、5%、10%和15%,突變率為2%、5%、8%和10%時,Kart和sufKart算法對模擬數(shù)據(jù)reads進(jìn)行實驗獲得的精確度和召回率,其中“E02-R02”表示錯誤率為2%,突變率為2%的reads數(shù)據(jù)集,其他類推.從表1可以看出:當(dāng)每組模擬數(shù)據(jù)reads的(錯誤率,突變率)分別為(2%,5%)、(2%,8%)、(5%,2%)和(5%,5%)時,sufKart算法的精確度高于Kart算法,且召回率幾乎表1不同錯誤率和突變率的模擬數(shù)據(jù)上算法的精確度和召回率Table1Accuracyandrecallrateofalgorithmswithdifferenterrorratesandmutationratesonsimulationdata數(shù)據(jù)集KartsufKart精確度(%)召回率(%)精確度(%)召回率(%)E02-
【參考文獻(xiàn)】:
期刊論文
[1]CPU和GPU協(xié)同并行加速多生物序列比對[J]. 楊春燕,鐘誠. 小型微型計算機系統(tǒng). 2016(12)
本文編號:3353788
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3353788.html
最近更新
教材專著