基于邏輯回歸的多數(shù)據(jù)融合鑒別致病基因
發(fā)布時(shí)間:2021-08-08 18:00
癌癥亦稱(chēng)為惡性腫瘤,癌癥的發(fā)生對(duì)人類(lèi)健康產(chǎn)生了巨大的威脅。隨著人類(lèi)基因組計(jì)劃的完成,尋找與癌癥相關(guān)的致病基因成為理解癌癥病發(fā)機(jī)理、癌癥預(yù)防和診治手段的基礎(chǔ),具有重大的社會(huì)和科學(xué)意義。因此,在生物醫(yī)學(xué)領(lǐng)域中,人類(lèi)致病基因的預(yù)測(cè)已成為研究熱點(diǎn)。已有研究顯示,生物網(wǎng)絡(luò)中趨于鄰近的基因易導(dǎo)致同種或相似疾病的發(fā)生。有效地利用多種生物網(wǎng)絡(luò)間所隱含的生物信息,能夠提高人類(lèi)致病基因預(yù)測(cè)的準(zhǔn)確性。與此同時(shí),在鑒別與某種癌癥相關(guān)致病基因問(wèn)題中,由于已知基因較未知基因數(shù)目相差懸殊,使得致病基因的鑒別問(wèn)題成為一個(gè)典型的不平衡分類(lèi)問(wèn)題,傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)于致病基因的鑒別效果并不理想。在此背景下,本論文以多種生物網(wǎng)絡(luò)數(shù)據(jù)為基礎(chǔ),針對(duì)人類(lèi)致病基因的鑒別問(wèn)題進(jìn)行了研究,取得了如下創(chuàng)新性成果:1.為了將多種生物網(wǎng)絡(luò)信息進(jìn)行有效地融合,本研究提出了一種基于邏輯回歸的多源數(shù)據(jù)融合方法。給每個(gè)基因分配先驗(yàn)標(biāo)簽的過(guò)程中使用了蛋白質(zhì)復(fù)合物數(shù)據(jù)信息,并通過(guò)對(duì)二值邏輯回歸算法中特征向量的重新構(gòu)造實(shí)現(xiàn)了多種數(shù)據(jù)源的有效融合,同時(shí)充分融入了基因與基因之間的連接信息。該方法提高了致病基因鑒別問(wèn)題的預(yù)測(cè)精度,相關(guān)實(shí)驗(yàn)結(jié)果分析對(duì)比也進(jìn)一步表明...
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
S型生長(zhǎng)曲線
?諏饜脅⊙У攘煊蛑幸丫?晌?鈑行У姆治鍪侄巍M?2.2 邏輯回歸過(guò)程圖2.2 不平衡分類(lèi)問(wèn)題模式分類(lèi)問(wèn)題中,訓(xùn)練樣本的數(shù)量在類(lèi)之間分布不平衡的問(wèn)題,被稱(chēng)為不平衡分類(lèi)問(wèn)題。簡(jiǎn)而言之,就是某些類(lèi)的樣本數(shù)量遠(yuǎn)遠(yuǎn)多于其它類(lèi),即類(lèi)與類(lèi)之間樣本數(shù)量嚴(yán)重失衡。在許多實(shí)際模式分類(lèi)問(wèn)題中,數(shù)據(jù)量少的那類(lèi)即稀有的類(lèi)常常更為研究者所關(guān)注,但是傳統(tǒng)的分類(lèi)方法很難將其正確地進(jìn)行分類(lèi)。對(duì)于這種不平衡分類(lèi)問(wèn)題的解決,傳統(tǒng)的機(jī)器學(xué)習(xí)方法所展現(xiàn)的分類(lèi)性能大幅度降低,通過(guò)對(duì)樣本的學(xué)習(xí)得到的分類(lèi)器有很大的偏向性,數(shù)據(jù)量少的類(lèi)中的樣本易被錯(cuò)分到數(shù)據(jù)量大的類(lèi)別中。不平衡分類(lèi)問(wèn)題有如下幾個(gè)特點(diǎn):(1) 噪聲在對(duì)分類(lèi)器的性能進(jìn)行評(píng)價(jià)時(shí),由于噪聲數(shù)據(jù)的存在,分類(lèi)結(jié)果在一定程度上會(huì)受到它的影響[28]。在不平衡分類(lèi)問(wèn)題中,數(shù)據(jù)量少的類(lèi)對(duì)噪聲數(shù)據(jù)敏感,噪聲數(shù)據(jù)的存在會(huì)對(duì)其產(chǎn)生更大的影響。如果在數(shù)據(jù)量少的類(lèi)的決策閾中存在少量噪聲數(shù)據(jù),那么會(huì)嚴(yán)重影響決策面的學(xué)習(xí)。這也說(shuō)明了數(shù)據(jù)量少的類(lèi)的抗噪能力弱,而且傳統(tǒng)的分類(lèi)器很難將噪聲數(shù)據(jù)和數(shù)據(jù)量少的類(lèi)的樣本進(jìn)行區(qū)分[29]。如果為了除去噪聲的影響而采取一些防止過(guò)學(xué)習(xí)的相關(guān)技術(shù),那么在去除噪聲的同時(shí)也會(huì)將一些數(shù)據(jù)量少的類(lèi)中的樣本一并去除。但是,如果不除去噪聲,分類(lèi)的性能難以提高。(2) 數(shù)據(jù)稀缺數(shù)據(jù)稀缺在很大一部分是由于樣本分布的不平衡性所導(dǎo)致的。其中,稀缺主要分為相對(duì)稀缺以及絕對(duì)稀缺。相對(duì)稀缺指的是“數(shù)據(jù)量少的類(lèi)”中樣本相對(duì)于“數(shù)據(jù)量多的類(lèi)”中樣本所占比例過(guò)小,而“數(shù)據(jù)量少的類(lèi)”中樣本的數(shù)量并不?
第二章 相關(guān)理論rea Under ROC Curve)是一個(gè)值,該值為 ROC 曲線下方對(duì)模型的性能進(jìn)行評(píng)價(jià)。假如一個(gè)模型的分類(lèi)性能優(yōu)于另 ROC 曲線下放的面積則更大,其對(duì)應(yīng)的 AUC 值更大。它有更好的分類(lèi)性能,模型越可靠且完美。當(dāng)隨機(jī)預(yù)測(cè)ROC 和 AUC 具有一個(gè)優(yōu)點(diǎn),即它們適合類(lèi)分布改變不不足之處是只適合用于二值分類(lèi)問(wèn)題中。應(yīng)用中,通常性能進(jìn)行評(píng)估。
【參考文獻(xiàn)】:
期刊論文
[1]Gambogic Acid Induces Cell Apoptosis and Inhibits MAPK Pathway in PTEN-/-/p53-/- Prostate Cancer Cells In Vitro and Ex Vivo[J]. PAN Hong,LU Li-yuan,WANG Xue-qian,LI Bin-xue,Kathleen Kelly,LIN Hong-sheng. Chinese Journal of Integrative Medicine. 2018(02)
[2]Wnt/β-catenin的表達(dá)與腫瘤關(guān)系研究進(jìn)展[J]. 李國(guó)棟,姚碧輝,金文海,梁魯. 世界最新醫(yī)學(xué)信息文摘. 2018(07)
[3]Assimilating Doppler radar observations with an ensemble Kalman filter for convection-permitting prediction of convective development in a heavy rainfall event during the pre-summer rainy season of South China[J]. BAO XingHua,LUO YaLi,SUN JiaXiang,MENG ZhiYong,YUE Jian. Science China(Earth Sciences). 2017(10)
[4]Landslide susceptibility mapping using an integrated model of information value method and logistic regression in the Bailongjiang watershed, Gansu Province, China[J]. DU Guo-liang,ZHANG Yong-shuang,IQBAL Javed,YANG Zhi-hua,YAO Xin. Journal of Mountain Science. 2017(02)
[5]前列腺癌發(fā)生發(fā)展相關(guān)信號(hào)轉(zhuǎn)導(dǎo)通路的研究進(jìn)展[J]. 申利賢,周斌,李海艷,閔可,蔣敏媚,郭玉. 腫瘤藥學(xué). 2016(02)
[6]Study on Diagnosis Criteria of Fire-Heat Syndrome Based on Receiver Operating Characteristic Curve and Principal Component Analysis[J]. 劉四軍,黃兆勝,吳慶光,黃張杰,吳麗蓉,閆文麗,王奇,王宗偉,張倫博,楊政. Chinese Journal of Integrative Medicine. 2016(04)
[7]Toll樣受體在肺癌中的研究進(jìn)展[J]. 康寶麗,陸英,徐增光. 同濟(jì)大學(xué)學(xué)報(bào)(醫(yī)學(xué)版). 2015(03)
[8]乳腺原發(fā)癌和相應(yīng)淋巴結(jié)轉(zhuǎn)移癌干細(xì)胞Wnt、Notch信號(hào)通路相關(guān)分子的比較[J]. 曾令瑞,韓玉貞,馬英路,李文星. 臨床與實(shí)驗(yàn)病理學(xué)雜志. 2014(09)
[9]Notch信號(hào)通路在乳腺癌干細(xì)胞中的研究進(jìn)展[J]. 郭瑢,張瑾. 中國(guó)腫瘤臨床. 2014(14)
[10]Notch信號(hào)通路與乳腺癌的研究進(jìn)展[J]. 李芳華,張新民. 海南醫(yī)學(xué)院學(xué)報(bào). 2011(02)
碩士論文
[1]基于AUC的分類(lèi)器性能評(píng)估問(wèn)題研究[D]. 蔣帥.吉林大學(xué) 2016
[2]基于AP聚類(lèi)的蒸餾算法篩選乳腺癌致病基因[D]. 劉志敏.西安電子科技大學(xué) 2014
本文編號(hào):3330419
【文章來(lái)源】:西安電子科技大學(xué)陜西省 211工程院校 教育部直屬院校
【文章頁(yè)數(shù)】:69 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
S型生長(zhǎng)曲線
?諏饜脅⊙У攘煊蛑幸丫?晌?鈑行У姆治鍪侄巍M?2.2 邏輯回歸過(guò)程圖2.2 不平衡分類(lèi)問(wèn)題模式分類(lèi)問(wèn)題中,訓(xùn)練樣本的數(shù)量在類(lèi)之間分布不平衡的問(wèn)題,被稱(chēng)為不平衡分類(lèi)問(wèn)題。簡(jiǎn)而言之,就是某些類(lèi)的樣本數(shù)量遠(yuǎn)遠(yuǎn)多于其它類(lèi),即類(lèi)與類(lèi)之間樣本數(shù)量嚴(yán)重失衡。在許多實(shí)際模式分類(lèi)問(wèn)題中,數(shù)據(jù)量少的那類(lèi)即稀有的類(lèi)常常更為研究者所關(guān)注,但是傳統(tǒng)的分類(lèi)方法很難將其正確地進(jìn)行分類(lèi)。對(duì)于這種不平衡分類(lèi)問(wèn)題的解決,傳統(tǒng)的機(jī)器學(xué)習(xí)方法所展現(xiàn)的分類(lèi)性能大幅度降低,通過(guò)對(duì)樣本的學(xué)習(xí)得到的分類(lèi)器有很大的偏向性,數(shù)據(jù)量少的類(lèi)中的樣本易被錯(cuò)分到數(shù)據(jù)量大的類(lèi)別中。不平衡分類(lèi)問(wèn)題有如下幾個(gè)特點(diǎn):(1) 噪聲在對(duì)分類(lèi)器的性能進(jìn)行評(píng)價(jià)時(shí),由于噪聲數(shù)據(jù)的存在,分類(lèi)結(jié)果在一定程度上會(huì)受到它的影響[28]。在不平衡分類(lèi)問(wèn)題中,數(shù)據(jù)量少的類(lèi)對(duì)噪聲數(shù)據(jù)敏感,噪聲數(shù)據(jù)的存在會(huì)對(duì)其產(chǎn)生更大的影響。如果在數(shù)據(jù)量少的類(lèi)的決策閾中存在少量噪聲數(shù)據(jù),那么會(huì)嚴(yán)重影響決策面的學(xué)習(xí)。這也說(shuō)明了數(shù)據(jù)量少的類(lèi)的抗噪能力弱,而且傳統(tǒng)的分類(lèi)器很難將噪聲數(shù)據(jù)和數(shù)據(jù)量少的類(lèi)的樣本進(jìn)行區(qū)分[29]。如果為了除去噪聲的影響而采取一些防止過(guò)學(xué)習(xí)的相關(guān)技術(shù),那么在去除噪聲的同時(shí)也會(huì)將一些數(shù)據(jù)量少的類(lèi)中的樣本一并去除。但是,如果不除去噪聲,分類(lèi)的性能難以提高。(2) 數(shù)據(jù)稀缺數(shù)據(jù)稀缺在很大一部分是由于樣本分布的不平衡性所導(dǎo)致的。其中,稀缺主要分為相對(duì)稀缺以及絕對(duì)稀缺。相對(duì)稀缺指的是“數(shù)據(jù)量少的類(lèi)”中樣本相對(duì)于“數(shù)據(jù)量多的類(lèi)”中樣本所占比例過(guò)小,而“數(shù)據(jù)量少的類(lèi)”中樣本的數(shù)量并不?
第二章 相關(guān)理論rea Under ROC Curve)是一個(gè)值,該值為 ROC 曲線下方對(duì)模型的性能進(jìn)行評(píng)價(jià)。假如一個(gè)模型的分類(lèi)性能優(yōu)于另 ROC 曲線下放的面積則更大,其對(duì)應(yīng)的 AUC 值更大。它有更好的分類(lèi)性能,模型越可靠且完美。當(dāng)隨機(jī)預(yù)測(cè)ROC 和 AUC 具有一個(gè)優(yōu)點(diǎn),即它們適合類(lèi)分布改變不不足之處是只適合用于二值分類(lèi)問(wèn)題中。應(yīng)用中,通常性能進(jìn)行評(píng)估。
【參考文獻(xiàn)】:
期刊論文
[1]Gambogic Acid Induces Cell Apoptosis and Inhibits MAPK Pathway in PTEN-/-/p53-/- Prostate Cancer Cells In Vitro and Ex Vivo[J]. PAN Hong,LU Li-yuan,WANG Xue-qian,LI Bin-xue,Kathleen Kelly,LIN Hong-sheng. Chinese Journal of Integrative Medicine. 2018(02)
[2]Wnt/β-catenin的表達(dá)與腫瘤關(guān)系研究進(jìn)展[J]. 李國(guó)棟,姚碧輝,金文海,梁魯. 世界最新醫(yī)學(xué)信息文摘. 2018(07)
[3]Assimilating Doppler radar observations with an ensemble Kalman filter for convection-permitting prediction of convective development in a heavy rainfall event during the pre-summer rainy season of South China[J]. BAO XingHua,LUO YaLi,SUN JiaXiang,MENG ZhiYong,YUE Jian. Science China(Earth Sciences). 2017(10)
[4]Landslide susceptibility mapping using an integrated model of information value method and logistic regression in the Bailongjiang watershed, Gansu Province, China[J]. DU Guo-liang,ZHANG Yong-shuang,IQBAL Javed,YANG Zhi-hua,YAO Xin. Journal of Mountain Science. 2017(02)
[5]前列腺癌發(fā)生發(fā)展相關(guān)信號(hào)轉(zhuǎn)導(dǎo)通路的研究進(jìn)展[J]. 申利賢,周斌,李海艷,閔可,蔣敏媚,郭玉. 腫瘤藥學(xué). 2016(02)
[6]Study on Diagnosis Criteria of Fire-Heat Syndrome Based on Receiver Operating Characteristic Curve and Principal Component Analysis[J]. 劉四軍,黃兆勝,吳慶光,黃張杰,吳麗蓉,閆文麗,王奇,王宗偉,張倫博,楊政. Chinese Journal of Integrative Medicine. 2016(04)
[7]Toll樣受體在肺癌中的研究進(jìn)展[J]. 康寶麗,陸英,徐增光. 同濟(jì)大學(xué)學(xué)報(bào)(醫(yī)學(xué)版). 2015(03)
[8]乳腺原發(fā)癌和相應(yīng)淋巴結(jié)轉(zhuǎn)移癌干細(xì)胞Wnt、Notch信號(hào)通路相關(guān)分子的比較[J]. 曾令瑞,韓玉貞,馬英路,李文星. 臨床與實(shí)驗(yàn)病理學(xué)雜志. 2014(09)
[9]Notch信號(hào)通路在乳腺癌干細(xì)胞中的研究進(jìn)展[J]. 郭瑢,張瑾. 中國(guó)腫瘤臨床. 2014(14)
[10]Notch信號(hào)通路與乳腺癌的研究進(jìn)展[J]. 李芳華,張新民. 海南醫(yī)學(xué)院學(xué)報(bào). 2011(02)
碩士論文
[1]基于AUC的分類(lèi)器性能評(píng)估問(wèn)題研究[D]. 蔣帥.吉林大學(xué) 2016
[2]基于AP聚類(lèi)的蒸餾算法篩選乳腺癌致病基因[D]. 劉志敏.西安電子科技大學(xué) 2014
本文編號(hào):3330419
本文鏈接:http://www.sikaile.net/shekelunwen/ljx/3330419.html
最近更新
教材專(zhuān)著