張量分解方法的研究及在生物測序數(shù)據(jù)上的應(yīng)用
發(fā)布時間:2021-09-09 14:14
癌癥(惡性腫瘤)是威脅人類生命健康的最大殺手。隨著新一代測序技術(shù)、納米技術(shù)和生物芯片技術(shù)的快速發(fā)展,人類獲取了大量的基因組信息并對此進行充分的挖掘,為癌癥的預(yù)防和治療提供理論依據(jù)。生物測序數(shù)據(jù)存在數(shù)以萬計的基因,然而細胞病變僅與少量基因的差異表達(差異表達基因)有關(guān),此類差異基因在海量數(shù)據(jù)中只占小部分,這為提取與癌癥病變有關(guān)基因的工作帶來挑戰(zhàn)。矩陣的魯棒主成分分析方法旨在將原始矩陣表示成矩陣的線性組合,并通過稀疏和低秩約束將噪聲考慮到算法中來,再對部分分解矩陣進行研究,從而解決由高維度引起的數(shù)據(jù)問題。然而,這一模型沒有充分挖掘癌癥多組學數(shù)據(jù)的空間結(jié)構(gòu)以及多視角信息,影響選擇差異表達基因的精確度。而基于三階張量分解方法的研究能保留數(shù)據(jù)的立體結(jié)構(gòu)不被破壞,從而能充分挖掘數(shù)據(jù)的隱含信息,這在當前引起了廣泛關(guān)注。針對目前矩陣分解方法無法保留數(shù)據(jù)空間幾何結(jié)構(gòu)的問題,本人在魯棒主成分分析方法的基礎(chǔ)上,利用癌癥基因圖譜中的生物測序數(shù)據(jù),提出對算法稀疏性、魯棒性的改進。主要分為以下三個部分:(1)針對空間幾何結(jié)構(gòu)感知力低的問題,提出了張量魯棒主成分分析方法。該方法在矩陣魯棒主成分分析模型的基礎(chǔ)上引入張...
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
展開和折疊運算符的示例
t-SVD分解
D3S問題。使用TRPCA方法將多視圖數(shù)據(jù)建模的目的是挖掘?qū)е掳┌Y發(fā)生的共表達特征基因。如上所述,將重要基因視為稀疏信號是合理的,因此將差異表達特征視為稀疏擾動信號,將非差異表達基因視為低秩張量,因此可以從稀疏擾動信號中識別出各種癌癥的差異表達基因。TRPCA的多視圖模型如圖3.3所示,三個維度分別代表基因特征、樣本和疾病類型。輸入張量的每個正面切片矩陣代表所有基因在同一種癌癥中全部樣本的表達水平,因此不同的正面切片代表不同的癌癥類型。圖中純色表示等于或接近零的數(shù)據(jù)點,而有色噪聲點表示干擾信號。圖3.3TRPCA模型TRPCA模型分解原始張量之后,通過選擇適當?shù)膮?shù),可以在稀疏張量中獲得稀疏干擾信號。本文將重要基因視為稀疏信號,所以差異表達的基因被視為稀疏擾動信號,例如,稀疏張量中的大多數(shù)條目為零值或接近零值,非零的條目可以視為差異表達基因。接下來分析稀疏張量的每個正面切片,首先計算每個正面切片數(shù)據(jù)的絕對值,然后對各列求和后獲得以下向量:12(,...)mppp=,(3-15)1njijipp==。(3-16)對每個切片求和并獲得新的向量,然后新向量按降序排列:12,(,...)mPppp=。(3-17)在降序向量中選擇出前500個最大值對應(yīng)的基因,不失一般性,基因的排名越靠前,就越有可能成為差異表達基因。GeneOntology[27]是分析基因組數(shù)據(jù)的重要工具,可以用來查詢基因本體信息和富集基因本體術(shù)語。當基因名稱輸入到GeneOntology工具時,此工具將生成與該基因相關(guān)的富集詞匯表,該表包含與此基因有關(guān)的富集生物學解釋。利用P值和輸入基因的數(shù)量衡量實驗的有效性,即使用P值(P-value)和命中計數(shù)(Hit)比較這些方法的性能。實驗中較小的P值對應(yīng)基因的富集程度越高,相對應(yīng)的方法能夠挖掘出?
【參考文獻】:
期刊論文
[1]2015年中國惡性腫瘤流行情況分析[J]. 鄭榮壽,孫可欣,張思維,曾紅梅,鄒小農(nóng),陳茹,顧秀瑛,魏文強,赫捷. 中華腫瘤雜志. 2019 (01)
[2]基于L1-范數(shù)的魯棒稀疏的張量PCA人臉圖像分析[J]. 唐肝翌,盧桂馥. 南京大學學報(自然科學). 2018(01)
[3]肝外膽管癌組織MMP-2表達及其臨床意義[J]. 李昌,楊巖,藍諾,姚明軍,王磊,韓冰,王仰亮,陳海霞. 中華腫瘤防治雜志. 2017(10)
[4]中國癌癥發(fā)病、死亡現(xiàn)狀與趨勢分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國衛(wèi)生統(tǒng)計. 2016(02)
[5]一種基于張量PCA的人耳識別的改進方法[J]. 李一波,曹景亮,張海軍. 計算機工程與應(yīng)用. 2011(25)
[6]The ratio of MMP-2 to TIMP-2 in hilar cholangiocarcinoma:a semi-quantitative study[J]. Mei Xiao, Nin-Xing Zhou,Zhi-Qiang Huang,Ya-Li Lu, Ling-Hong Chen, Dian-Jun Wang and Wei-Lin Chang Beijing, China Department of Hepatobiliary Surgery, General Air- force of Hospital, Beijing 100036, China and General Hospital of People’ s Liberation Army, Beijing 100853 , China. Hepatobiliary & Pancreatic Diseases International. 2004(04)
[7]生物信息學:生物實驗數(shù)據(jù)和計算技術(shù)結(jié)合的新領(lǐng)域[J]. 歐陽曙光,賀福初. 科學通報. 1999(14)
博士論文
[1]面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學 2014
碩士論文
[1]基于基因表達數(shù)據(jù)的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學 2016
本文編號:3392243
【文章來源】:曲阜師范大學山東省
【文章頁數(shù)】:62 頁
【學位級別】:碩士
【部分圖文】:
展開和折疊運算符的示例
t-SVD分解
D3S問題。使用TRPCA方法將多視圖數(shù)據(jù)建模的目的是挖掘?qū)е掳┌Y發(fā)生的共表達特征基因。如上所述,將重要基因視為稀疏信號是合理的,因此將差異表達特征視為稀疏擾動信號,將非差異表達基因視為低秩張量,因此可以從稀疏擾動信號中識別出各種癌癥的差異表達基因。TRPCA的多視圖模型如圖3.3所示,三個維度分別代表基因特征、樣本和疾病類型。輸入張量的每個正面切片矩陣代表所有基因在同一種癌癥中全部樣本的表達水平,因此不同的正面切片代表不同的癌癥類型。圖中純色表示等于或接近零的數(shù)據(jù)點,而有色噪聲點表示干擾信號。圖3.3TRPCA模型TRPCA模型分解原始張量之后,通過選擇適當?shù)膮?shù),可以在稀疏張量中獲得稀疏干擾信號。本文將重要基因視為稀疏信號,所以差異表達的基因被視為稀疏擾動信號,例如,稀疏張量中的大多數(shù)條目為零值或接近零值,非零的條目可以視為差異表達基因。接下來分析稀疏張量的每個正面切片,首先計算每個正面切片數(shù)據(jù)的絕對值,然后對各列求和后獲得以下向量:12(,...)mppp=,(3-15)1njijipp==。(3-16)對每個切片求和并獲得新的向量,然后新向量按降序排列:12,(,...)mPppp=。(3-17)在降序向量中選擇出前500個最大值對應(yīng)的基因,不失一般性,基因的排名越靠前,就越有可能成為差異表達基因。GeneOntology[27]是分析基因組數(shù)據(jù)的重要工具,可以用來查詢基因本體信息和富集基因本體術(shù)語。當基因名稱輸入到GeneOntology工具時,此工具將生成與該基因相關(guān)的富集詞匯表,該表包含與此基因有關(guān)的富集生物學解釋。利用P值和輸入基因的數(shù)量衡量實驗的有效性,即使用P值(P-value)和命中計數(shù)(Hit)比較這些方法的性能。實驗中較小的P值對應(yīng)基因的富集程度越高,相對應(yīng)的方法能夠挖掘出?
【參考文獻】:
期刊論文
[1]2015年中國惡性腫瘤流行情況分析[J]. 鄭榮壽,孫可欣,張思維,曾紅梅,鄒小農(nóng),陳茹,顧秀瑛,魏文強,赫捷. 中華腫瘤雜志. 2019 (01)
[2]基于L1-范數(shù)的魯棒稀疏的張量PCA人臉圖像分析[J]. 唐肝翌,盧桂馥. 南京大學學報(自然科學). 2018(01)
[3]肝外膽管癌組織MMP-2表達及其臨床意義[J]. 李昌,楊巖,藍諾,姚明軍,王磊,韓冰,王仰亮,陳海霞. 中華腫瘤防治雜志. 2017(10)
[4]中國癌癥發(fā)病、死亡現(xiàn)狀與趨勢分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國衛(wèi)生統(tǒng)計. 2016(02)
[5]一種基于張量PCA的人耳識別的改進方法[J]. 李一波,曹景亮,張海軍. 計算機工程與應(yīng)用. 2011(25)
[6]The ratio of MMP-2 to TIMP-2 in hilar cholangiocarcinoma:a semi-quantitative study[J]. Mei Xiao, Nin-Xing Zhou,Zhi-Qiang Huang,Ya-Li Lu, Ling-Hong Chen, Dian-Jun Wang and Wei-Lin Chang Beijing, China Department of Hepatobiliary Surgery, General Air- force of Hospital, Beijing 100036, China and General Hospital of People’ s Liberation Army, Beijing 100853 , China. Hepatobiliary & Pancreatic Diseases International. 2004(04)
[7]生物信息學:生物實驗數(shù)據(jù)和計算技術(shù)結(jié)合的新領(lǐng)域[J]. 歐陽曙光,賀福初. 科學通報. 1999(14)
博士論文
[1]面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學 2014
碩士論文
[1]基于基因表達數(shù)據(jù)的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學 2016
本文編號:3392243
本文鏈接:http://www.sikaile.net/kejilunwen/yysx/3392243.html
最近更新
教材專著