蛋白質組一站式數(shù)據(jù)分析及可視化平臺的研發(fā)及應用
發(fā)布時間:2021-01-13 05:52
蛋白質組學是后基因組時代的熱點研究領域。隨著儀器精度的提升及鑒定算法的完善,蛋白質組學的研究重點已經(jīng)逐漸從定性研究轉移到了定量研究。確定生物體不同狀態(tài)下的差異表達蛋白質是定量蛋白質組研究的重要方向之一,對理解蛋白質功能以及整個生命活動起到了重要作用。目前已陸續(xù)發(fā)表了多種差異表達蛋白質計算工具,但它們普遍存在安裝更新復雜、上游工具兼容性不佳、功能有限、使用門檻高、分析結果展示效果差等問題。這給蛋白質組技術的推廣及應用造成了一定的困難,此時亟待推出一個功能全面、簡單易用的組學數(shù)據(jù)分析工具。針對上面提出的問題,本工作主要關注于蛋白質組一站式分析及可視化平臺MyOmics的研發(fā)及應用。本文的主要內(nèi)容包括如下三方面:(1)我們首先調研了差異表達蛋白質篩選分析流程中缺失值處理、數(shù)據(jù)標準化、統(tǒng)計學分析及功能富集等各個階段的常用分析方法及適用條件,引入機器學習方法實現(xiàn)高維數(shù)據(jù)的直觀展示。之后我們使用Python及R語言,以多級索引數(shù)據(jù)框為核心數(shù)據(jù)結構,完成了主要方法的編程實現(xiàn)與功能對接,并針對組內(nèi)全樣本定量缺失、統(tǒng)計學檢驗方法擇優(yōu)選擇等具體問題進行算法優(yōu)化。(2)依托于Galaxy計算生物學平臺系統(tǒng),...
【文章來源】:軍事科學院北京市
【文章頁數(shù)】:104 頁
【學位級別】:碩士
【部分圖文】:
基于質譜的蛋白質組實驗及分析流程示意圖
圖 1-2 蛋白質生物標志物發(fā)現(xiàn)的經(jīng)典“三角”策略1.3 蛋白質組統(tǒng)計學分析中需解決的問題蛋白質組定量結果有著區(qū)別于常規(guī)生物學實驗數(shù)據(jù)的特征,這導致在通過統(tǒng)計推斷確定差異表達蛋白質時面臨特殊的問題:1. 定量結果中缺失值較多:不同于蛋白質芯片等相對傳統(tǒng)的實驗方法,質譜的定量結果中容易出現(xiàn)缺失值,即相同的肽段或蛋白質可能僅在少部分樣本中獲得定量結果,一些 Label-free 的實驗中部分蛋白質的缺失值比例可超過 90 %。解決此問題的方法主要是對缺失值進行插補(Missing Values Imputation),將缺失值及無效值替換為可進行比較的形式。2. 定量結果可靠性參差不齊:由于標記方法、儀器型號及分析工具的不同,相同的實驗材料產(chǎn)生的定量結果可能會千差萬別。為了解決此問題,可以通過實驗過程中添加內(nèi)參的方法保證定量結果的可靠性;此外在統(tǒng)計推斷時可使用標準化(Normalization)及多重假設檢驗校正(Multiple Testing Correction)等方法控制假陽性率。
軍事科學院碩士學位論文蛋白質組學定量數(shù)據(jù),往往存在一定比例的缺失值。由于部分統(tǒng)計學方法對于缺失值缺乏容忍度[37],需要一個完整的數(shù)值矩陣作為輸入,在進行統(tǒng)計學分析之前需要對定量結果中的缺失值進行處理。缺失值可由技術因素或生物學因素引起: 樣本中的肽段可能存在,但其響應信號基于儀器的檢測下限,無法實現(xiàn)肽段的鑒定與定量(圖 2-1); 某些肽段僅存在于部分生物樣本中,并非在全部樣本中都存在表達;
【參考文獻】:
期刊論文
[1]基于質譜技術篩選差異表達蛋白的統(tǒng)計學策略研究進展[J]. 王錦霞,常乘,馬潔,吳松鋒,莊舉娟,朱云平. 中國科學:生命科學. 2015(04)
碩士論文
[1]基于Galaxy的高通量生物數(shù)據(jù)分析平臺[D]. 盧冰心.華東師范大學 2013
本文編號:2974341
【文章來源】:軍事科學院北京市
【文章頁數(shù)】:104 頁
【學位級別】:碩士
【部分圖文】:
基于質譜的蛋白質組實驗及分析流程示意圖
圖 1-2 蛋白質生物標志物發(fā)現(xiàn)的經(jīng)典“三角”策略1.3 蛋白質組統(tǒng)計學分析中需解決的問題蛋白質組定量結果有著區(qū)別于常規(guī)生物學實驗數(shù)據(jù)的特征,這導致在通過統(tǒng)計推斷確定差異表達蛋白質時面臨特殊的問題:1. 定量結果中缺失值較多:不同于蛋白質芯片等相對傳統(tǒng)的實驗方法,質譜的定量結果中容易出現(xiàn)缺失值,即相同的肽段或蛋白質可能僅在少部分樣本中獲得定量結果,一些 Label-free 的實驗中部分蛋白質的缺失值比例可超過 90 %。解決此問題的方法主要是對缺失值進行插補(Missing Values Imputation),將缺失值及無效值替換為可進行比較的形式。2. 定量結果可靠性參差不齊:由于標記方法、儀器型號及分析工具的不同,相同的實驗材料產(chǎn)生的定量結果可能會千差萬別。為了解決此問題,可以通過實驗過程中添加內(nèi)參的方法保證定量結果的可靠性;此外在統(tǒng)計推斷時可使用標準化(Normalization)及多重假設檢驗校正(Multiple Testing Correction)等方法控制假陽性率。
軍事科學院碩士學位論文蛋白質組學定量數(shù)據(jù),往往存在一定比例的缺失值。由于部分統(tǒng)計學方法對于缺失值缺乏容忍度[37],需要一個完整的數(shù)值矩陣作為輸入,在進行統(tǒng)計學分析之前需要對定量結果中的缺失值進行處理。缺失值可由技術因素或生物學因素引起: 樣本中的肽段可能存在,但其響應信號基于儀器的檢測下限,無法實現(xiàn)肽段的鑒定與定量(圖 2-1); 某些肽段僅存在于部分生物樣本中,并非在全部樣本中都存在表達;
【參考文獻】:
期刊論文
[1]基于質譜技術篩選差異表達蛋白的統(tǒng)計學策略研究進展[J]. 王錦霞,常乘,馬潔,吳松鋒,莊舉娟,朱云平. 中國科學:生命科學. 2015(04)
碩士論文
[1]基于Galaxy的高通量生物數(shù)據(jù)分析平臺[D]. 盧冰心.華東師范大學 2013
本文編號:2974341
本文鏈接:http://www.sikaile.net/projectlw/swxlw/2974341.html
最近更新
教材專著