基于機(jī)器學(xué)習(xí)的大豆抵抗大豆疫霉侵染數(shù)據(jù)分析
發(fā)布時(shí)間:2021-11-13 20:10
大豆是一種在世界范圍內(nèi)廣泛種植的含有豐富蛋白質(zhì)的重要糧食作物,提高大豆產(chǎn)量是一個(gè)關(guān)系民生的大問題。每年由大豆疫霉(Phytophthora sojae)侵染導(dǎo)致的大豆根腐病在世界范圍內(nèi)造成十余億美元的經(jīng)濟(jì)損失,但當(dāng)前仍沒有發(fā)現(xiàn)可以完全防治該病癥的方法,對其防治工作主要是以研究抗性品種為重點(diǎn),結(jié)合化學(xué)藥劑的綜合防治措施。然而抗性品種通常推廣數(shù)年后將不再具有抗性,且隨著抗性品種的增加,選育工作也變得更加復(fù)雜。近年來,越來越多的研究表明,植物與致病菌間存在Small RNA(sRNA)層面的跨界互作機(jī)制,這為大豆根腐病的防治工作提供了新的研究思路。目前關(guān)于大豆與大豆疫霉在sRNA層面上的作用機(jī)制尚不明朗。因此,從sRNA水平分析大豆被大豆疫霉侵染后的抵抗作用,進(jìn)而在sRNA水平開展防治工作,對大豆根腐病的防治、大豆的增產(chǎn)增收具有重要意義。本文首先詳述了研究背景、意義、國內(nèi)外進(jìn)展情況以及相關(guān)統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)算法。其次根據(jù)豐度、增長率統(tǒng)計(jì)被大豆疫霉侵染后差異表達(dá)顯著的大豆sRNA序列,認(rèn)為其為抗病關(guān)鍵sRNA序列,并作為后續(xù)模型構(gòu)建的數(shù)據(jù)基礎(chǔ)。然后基于機(jī)器學(xué)習(xí)方法分析并挖掘出關(guān)鍵sRNA在序列...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
原始序列預(yù)處理流程圖
第3章sRNA數(shù)據(jù)收集與差異表達(dá)統(tǒng)計(jì)分析17圖3.2FastQC序列評估結(jié)果上圖為FastQC對序列評估的結(jié)果,左側(cè)為空白組大豆sRNA數(shù)據(jù),右側(cè)為被大豆疫霉侵染的實(shí)驗(yàn)組sRNA數(shù)據(jù),其中圖3.2(a)和圖3.2(b)分別為對照組和實(shí)驗(yàn)組sRNA序列長度分布情況,由于sRNA中起調(diào)控作用的多為長度分布在18-25nt的microRNA,本文選取18-25nt長度的序列進(jìn)行后續(xù)分析。圖3.2(c)和圖3.2(d)為質(zhì)量評估結(jié)果,縱坐標(biāo)表示序列數(shù)量,橫坐標(biāo)為序列平均堿基質(zhì)量,一般認(rèn)為質(zhì)量大于30時(shí)效果較好,可以發(fā)現(xiàn)絕大部分序列質(zhì)量位于36-40之間,數(shù)據(jù)質(zhì)量良好。上述步驟中,兩組的sRNA數(shù)量在經(jīng)過去接頭、去低質(zhì)量和長度控制后的數(shù)量統(tǒng)計(jì)如下表所示,其中InfectBefore.fastq為對照組micrRNA序列,InfectAfter.fastq為實(shí)驗(yàn)組sRNA序列。表3.2實(shí)驗(yàn)組與對照組大豆sRNA處理過程中數(shù)量統(tǒng)計(jì)類別去接頭(條數(shù))長度/質(zhì)量控制(條數(shù))種類InfectBefore.fastq88284813226820902702InfectAfter.fastq2240577160739281251487從上表中可以看出,侵染組由于混合了大豆和大豆疫霉的sRNA,所以數(shù)量高于對照組,為保證后續(xù)工作的精確性,本文對于長度和質(zhì)量控制比較嚴(yán)格。
澩锪恐梟?冶?達(dá)量較高的序列是對大豆抵抗機(jī)制起作用的陽性樣本,而侵染前后幾乎不變的為陰性樣本,最后對選擇的數(shù)據(jù)集進(jìn)行T檢驗(yàn)。其中增長率的計(jì)算方法如下所示:=...........(3.1)本文陽性樣本通過增長率和表達(dá)量情況共同篩選,其中一部分為侵染組和對照組共有的樣本中增長率大于10且表達(dá)量大于200的732條序列;另一部分為侵染組中出現(xiàn)、對照組沒有會(huì)出現(xiàn),但是可以匹配到大豆基因組且不能匹配到大豆疫霉基因組的表達(dá)量大于100的36條序列,共計(jì)768條序列作為正樣本。其中提取出的侵染前后均出現(xiàn)的部分正樣本數(shù)據(jù)如圖3.4中左側(cè)圖所示,其中紅色坐標(biāo)柱表示侵染后的表達(dá)量,藍(lán)色的坐標(biāo)柱表示侵染前的表達(dá)量,從圖中可以看出差異情況非常顯著。圖3.4差異表達(dá)顯著序列在兩組數(shù)據(jù)中對比和差值分布為進(jìn)一步探究選定的732條序列在侵染前后的差異性,本文對其使用配對T檢驗(yàn)方法對其進(jìn)行檢驗(yàn)。兩組數(shù)據(jù)表達(dá)量差值分布圖如上圖右圖所示,從圖中可以看出,兩組數(shù)據(jù)的差值分布情況基本滿足正態(tài)分布,此處可以使用配對T檢驗(yàn)分析。經(jīng)過T檢驗(yàn)得到的t值為8.756,P值為6.9390e-18遠(yuǎn)小于0.05,說明侵染前后兩組數(shù)據(jù)差異是非常顯著的。3.5本章小結(jié)本章節(jié)首先分別對未被大豆疫霉侵染的對照組大豆sRNA和被大豆疫霉侵染的大豆sRNA原始數(shù)據(jù)進(jìn)行了去接頭序列、去低質(zhì)量序列、質(zhì)量控制和長度控制等預(yù)處理操作得到有效序列。在得到兩組有效序列后,為了使兩組數(shù)據(jù)具有可比性,使用四分位數(shù)標(biāo)準(zhǔn)化法對其進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)計(jì)所有僅屬于大豆的序列在兩組序列中的表達(dá)情況。基于表達(dá)量和增長率篩選出差異表達(dá)sRNA數(shù)據(jù)集,并對其進(jìn)行差異倍數(shù)驗(yàn)證。
本文編號:3493642
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:58 頁
【學(xué)位級別】:碩士
【部分圖文】:
原始序列預(yù)處理流程圖
第3章sRNA數(shù)據(jù)收集與差異表達(dá)統(tǒng)計(jì)分析17圖3.2FastQC序列評估結(jié)果上圖為FastQC對序列評估的結(jié)果,左側(cè)為空白組大豆sRNA數(shù)據(jù),右側(cè)為被大豆疫霉侵染的實(shí)驗(yàn)組sRNA數(shù)據(jù),其中圖3.2(a)和圖3.2(b)分別為對照組和實(shí)驗(yàn)組sRNA序列長度分布情況,由于sRNA中起調(diào)控作用的多為長度分布在18-25nt的microRNA,本文選取18-25nt長度的序列進(jìn)行后續(xù)分析。圖3.2(c)和圖3.2(d)為質(zhì)量評估結(jié)果,縱坐標(biāo)表示序列數(shù)量,橫坐標(biāo)為序列平均堿基質(zhì)量,一般認(rèn)為質(zhì)量大于30時(shí)效果較好,可以發(fā)現(xiàn)絕大部分序列質(zhì)量位于36-40之間,數(shù)據(jù)質(zhì)量良好。上述步驟中,兩組的sRNA數(shù)量在經(jīng)過去接頭、去低質(zhì)量和長度控制后的數(shù)量統(tǒng)計(jì)如下表所示,其中InfectBefore.fastq為對照組micrRNA序列,InfectAfter.fastq為實(shí)驗(yàn)組sRNA序列。表3.2實(shí)驗(yàn)組與對照組大豆sRNA處理過程中數(shù)量統(tǒng)計(jì)類別去接頭(條數(shù))長度/質(zhì)量控制(條數(shù))種類InfectBefore.fastq88284813226820902702InfectAfter.fastq2240577160739281251487從上表中可以看出,侵染組由于混合了大豆和大豆疫霉的sRNA,所以數(shù)量高于對照組,為保證后續(xù)工作的精確性,本文對于長度和質(zhì)量控制比較嚴(yán)格。
澩锪恐梟?冶?達(dá)量較高的序列是對大豆抵抗機(jī)制起作用的陽性樣本,而侵染前后幾乎不變的為陰性樣本,最后對選擇的數(shù)據(jù)集進(jìn)行T檢驗(yàn)。其中增長率的計(jì)算方法如下所示:=...........(3.1)本文陽性樣本通過增長率和表達(dá)量情況共同篩選,其中一部分為侵染組和對照組共有的樣本中增長率大于10且表達(dá)量大于200的732條序列;另一部分為侵染組中出現(xiàn)、對照組沒有會(huì)出現(xiàn),但是可以匹配到大豆基因組且不能匹配到大豆疫霉基因組的表達(dá)量大于100的36條序列,共計(jì)768條序列作為正樣本。其中提取出的侵染前后均出現(xiàn)的部分正樣本數(shù)據(jù)如圖3.4中左側(cè)圖所示,其中紅色坐標(biāo)柱表示侵染后的表達(dá)量,藍(lán)色的坐標(biāo)柱表示侵染前的表達(dá)量,從圖中可以看出差異情況非常顯著。圖3.4差異表達(dá)顯著序列在兩組數(shù)據(jù)中對比和差值分布為進(jìn)一步探究選定的732條序列在侵染前后的差異性,本文對其使用配對T檢驗(yàn)方法對其進(jìn)行檢驗(yàn)。兩組數(shù)據(jù)表達(dá)量差值分布圖如上圖右圖所示,從圖中可以看出,兩組數(shù)據(jù)的差值分布情況基本滿足正態(tài)分布,此處可以使用配對T檢驗(yàn)分析。經(jīng)過T檢驗(yàn)得到的t值為8.756,P值為6.9390e-18遠(yuǎn)小于0.05,說明侵染前后兩組數(shù)據(jù)差異是非常顯著的。3.5本章小結(jié)本章節(jié)首先分別對未被大豆疫霉侵染的對照組大豆sRNA和被大豆疫霉侵染的大豆sRNA原始數(shù)據(jù)進(jìn)行了去接頭序列、去低質(zhì)量序列、質(zhì)量控制和長度控制等預(yù)處理操作得到有效序列。在得到兩組有效序列后,為了使兩組數(shù)據(jù)具有可比性,使用四分位數(shù)標(biāo)準(zhǔn)化法對其進(jìn)行標(biāo)準(zhǔn)化處理,統(tǒng)計(jì)所有僅屬于大豆的序列在兩組序列中的表達(dá)情況。基于表達(dá)量和增長率篩選出差異表達(dá)sRNA數(shù)據(jù)集,并對其進(jìn)行差異倍數(shù)驗(yàn)證。
本文編號:3493642
本文鏈接:http://www.sikaile.net/shoufeilunwen/zaizhiyanjiusheng/3493642.html
最近更新
教材專著