基于聯(lián)合嵌入學(xué)習(xí)與回歸方法的研究及在癌癥組學(xué)數(shù)據(jù)中的應(yīng)用
發(fā)布時(shí)間:2021-04-08 06:54
癌癥組學(xué)數(shù)據(jù)通常是不易挖掘的高維小樣本數(shù)據(jù),而癌癥的一些關(guān)鍵信息隱藏在這些高維數(shù)據(jù)中。為了挖掘這些數(shù)據(jù)中的關(guān)鍵信息,對(duì)其進(jìn)行有效降維是必要的,這也成為諸多研究的熱點(diǎn)。在生物信息學(xué)中,特征選擇是一種被廣泛運(yùn)用的降維方法,如聯(lián)合嵌入學(xué)習(xí)和稀疏回歸方法(Joint Embedding Learning and Sparse Regression,JELSR),但傳統(tǒng)的特征選擇方法在分析癌癥數(shù)據(jù)時(shí)存在弊端:基因組數(shù)據(jù)中存在的大量噪聲值和冗余值會(huì)降低算法的稀疏性;計(jì)算誤差值的平方項(xiàng)會(huì)增大算法對(duì)噪聲值和異常值的敏感度并降低算法的性能;傳統(tǒng)方法使用的數(shù)據(jù)集通常是單個(gè)視圖而忽略了其他視圖對(duì)數(shù)據(jù)的影響,同時(shí)該方法的常規(guī)項(xiàng)采用稀疏回歸約束,忽略了數(shù)據(jù)的固有結(jié)構(gòu)。因此,針對(duì)傳統(tǒng)方法中存在的問題,本文基于JELSR模型,分別從以上三個(gè)方面對(duì)傳統(tǒng)方法的稀疏性、魯棒性等性能方面進(jìn)行了改進(jìn),同時(shí)可以進(jìn)一步選擇更有效的致病基因,主要包括以下研究:(1)提出一種基于聯(lián)合約束的JELSR模型(LJELSR)。該模型引入了1L范數(shù)與原有的L2,1范數(shù)形成聯(lián)合約束,從而增強(qiáng)矩陣行列...
【文章來源】:曲阜師范大學(xué)山東省
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同范數(shù)的簡(jiǎn)單示意圖
第 2 章 基于聯(lián)合約束的聯(lián)合嵌入學(xué)習(xí)與稀疏回歸方法研究與應(yīng)用聚類結(jié)果與分析類是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法。聚類根據(jù)未知標(biāo)簽樣本數(shù)據(jù)集內(nèi)的數(shù)據(jù)特征將分為多個(gè)不同的類,使同一類的數(shù)據(jù)樣本盡可能相似、不同類的數(shù)據(jù)樣本之間的可能不同。在生物信息學(xué)中,聚類主要分為基因聚類和樣本聚類。本實(shí)驗(yàn)使s 方法[57]分別在ALL_AML、COLON和ESCA數(shù)據(jù)集上進(jìn)行樣本聚類,并將LJEL對(duì)照方法獲得的 ACC 值進(jìn)行對(duì)比分析,結(jié)果如圖 2.2 所示。從圖 2.2 中可以得出1)在實(shí)驗(yàn)中,算法處理數(shù)據(jù)的稀疏力度不足及實(shí)驗(yàn)過程丟失數(shù)據(jù)的內(nèi)部幾何信對(duì)照方法的 ACC 值相對(duì)于 LJELSR 的 ACC 值較小的原因;2)在不同數(shù)據(jù)集上,LJELSR 方法獲得的 ACC 值幾乎均高于其他方法的 ACC 值目標(biāo)函數(shù)中引入聯(lián)合約束(1L 范數(shù),2,1L 范數(shù))確實(shí)加強(qiáng)了數(shù)據(jù)矩陣之間的關(guān)聯(lián)性類效果相對(duì)滿意。
1 1k k k k k k k 1k 直至 收斂3.3 實(shí)驗(yàn)結(jié)果與分析為了驗(yàn)證 RJELSR 算法的性能,本章在整合數(shù)據(jù)上將 RJELSR 算法與 JELSR、MCFSLapScor 算法進(jìn)行特征選擇和樣本聚類對(duì)比實(shí)驗(yàn)。首先,本節(jié)對(duì)所使用的數(shù)據(jù)集進(jìn)行簡(jiǎn)單說明。其次,確定參數(shù)選擇。最后,對(duì)特征選擇和樣本聚類的實(shí)驗(yàn)結(jié)果進(jìn)行分析。3.3.1 數(shù)據(jù)描述在本章中,實(shí)驗(yàn)所使用的數(shù)據(jù)集是整合數(shù)據(jù)集。由于一個(gè)基因可能與多種癌癥相關(guān),所以,實(shí)驗(yàn)首先對(duì)胰腺癌數(shù)據(jù)集(PAAD)、ESCA 和膽管癌數(shù)據(jù)集(CHOL)的基因表達(dá)數(shù)據(jù)預(yù)處理得到整合數(shù)據(jù)集(Integrated Data,INDA),然后在 INDA 上進(jìn)行特征選擇和聚類分析,使新算法選擇的特征基因具有更高的生物學(xué)價(jià)值。在對(duì)這三個(gè)癌癥數(shù)據(jù)集預(yù)處理時(shí),為了防止樣本的不穩(wěn)定性,實(shí)驗(yàn)中刪除了占總樣本量很小的正常樣本并保留了三個(gè)數(shù)據(jù)集的患病樣本。INDA 的簡(jiǎn)單示意圖如圖 3.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]中國(guó)癌癥發(fā)病、死亡現(xiàn)狀與趨勢(shì)分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2016(02)
[2]基于K-均值聚類的無監(jiān)督的特征選擇方法[J]. 張莉,孫鋼,郭軍. 計(jì)算機(jī)應(yīng)用研究. 2005(03)
[3]生物信息學(xué):生物實(shí)驗(yàn)數(shù)據(jù)和計(jì)算技術(shù)結(jié)合的新領(lǐng)域[J]. 歐陽(yáng)曙光,賀福初. 科學(xué)通報(bào). 1999(14)
博士論文
[1]面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學(xué) 2014
碩士論文
[1]基于基因表達(dá)數(shù)據(jù)的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學(xué) 2016
[2]機(jī)器學(xué)習(xí)中的特征選擇算法研究[D]. 姜百寧.中國(guó)海洋大學(xué) 2009
本文編號(hào):3125075
【文章來源】:曲阜師范大學(xué)山東省
【文章頁(yè)數(shù)】:49 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
不同范數(shù)的簡(jiǎn)單示意圖
第 2 章 基于聯(lián)合約束的聯(lián)合嵌入學(xué)習(xí)與稀疏回歸方法研究與應(yīng)用聚類結(jié)果與分析類是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法。聚類根據(jù)未知標(biāo)簽樣本數(shù)據(jù)集內(nèi)的數(shù)據(jù)特征將分為多個(gè)不同的類,使同一類的數(shù)據(jù)樣本盡可能相似、不同類的數(shù)據(jù)樣本之間的可能不同。在生物信息學(xué)中,聚類主要分為基因聚類和樣本聚類。本實(shí)驗(yàn)使s 方法[57]分別在ALL_AML、COLON和ESCA數(shù)據(jù)集上進(jìn)行樣本聚類,并將LJEL對(duì)照方法獲得的 ACC 值進(jìn)行對(duì)比分析,結(jié)果如圖 2.2 所示。從圖 2.2 中可以得出1)在實(shí)驗(yàn)中,算法處理數(shù)據(jù)的稀疏力度不足及實(shí)驗(yàn)過程丟失數(shù)據(jù)的內(nèi)部幾何信對(duì)照方法的 ACC 值相對(duì)于 LJELSR 的 ACC 值較小的原因;2)在不同數(shù)據(jù)集上,LJELSR 方法獲得的 ACC 值幾乎均高于其他方法的 ACC 值目標(biāo)函數(shù)中引入聯(lián)合約束(1L 范數(shù),2,1L 范數(shù))確實(shí)加強(qiáng)了數(shù)據(jù)矩陣之間的關(guān)聯(lián)性類效果相對(duì)滿意。
1 1k k k k k k k 1k 直至 收斂3.3 實(shí)驗(yàn)結(jié)果與分析為了驗(yàn)證 RJELSR 算法的性能,本章在整合數(shù)據(jù)上將 RJELSR 算法與 JELSR、MCFSLapScor 算法進(jìn)行特征選擇和樣本聚類對(duì)比實(shí)驗(yàn)。首先,本節(jié)對(duì)所使用的數(shù)據(jù)集進(jìn)行簡(jiǎn)單說明。其次,確定參數(shù)選擇。最后,對(duì)特征選擇和樣本聚類的實(shí)驗(yàn)結(jié)果進(jìn)行分析。3.3.1 數(shù)據(jù)描述在本章中,實(shí)驗(yàn)所使用的數(shù)據(jù)集是整合數(shù)據(jù)集。由于一個(gè)基因可能與多種癌癥相關(guān),所以,實(shí)驗(yàn)首先對(duì)胰腺癌數(shù)據(jù)集(PAAD)、ESCA 和膽管癌數(shù)據(jù)集(CHOL)的基因表達(dá)數(shù)據(jù)預(yù)處理得到整合數(shù)據(jù)集(Integrated Data,INDA),然后在 INDA 上進(jìn)行特征選擇和聚類分析,使新算法選擇的特征基因具有更高的生物學(xué)價(jià)值。在對(duì)這三個(gè)癌癥數(shù)據(jù)集預(yù)處理時(shí),為了防止樣本的不穩(wěn)定性,實(shí)驗(yàn)中刪除了占總樣本量很小的正常樣本并保留了三個(gè)數(shù)據(jù)集的患病樣本。INDA 的簡(jiǎn)單示意圖如圖 3.1 所示。
【參考文獻(xiàn)】:
期刊論文
[1]中國(guó)癌癥發(fā)病、死亡現(xiàn)狀與趨勢(shì)分析[J]. 曾倩,崔芳芳,宇傳華,張干深. 中國(guó)衛(wèi)生統(tǒng)計(jì). 2016(02)
[2]基于K-均值聚類的無監(jiān)督的特征選擇方法[J]. 張莉,孫鋼,郭軍. 計(jì)算機(jī)應(yīng)用研究. 2005(03)
[3]生物信息學(xué):生物實(shí)驗(yàn)數(shù)據(jù)和計(jì)算技術(shù)結(jié)合的新領(lǐng)域[J]. 歐陽(yáng)曙光,賀福初. 科學(xué)通報(bào). 1999(14)
博士論文
[1]面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究[D]. 張靖.合肥工業(yè)大學(xué) 2014
碩士論文
[1]基于基因表達(dá)數(shù)據(jù)的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學(xué) 2016
[2]機(jī)器學(xué)習(xí)中的特征選擇算法研究[D]. 姜百寧.中國(guó)海洋大學(xué) 2009
本文編號(hào):3125075
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3125075.html
最近更新
教材專著