天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于多數(shù)據(jù)集的胰腺癌分類特征基因研究

發(fā)布時(shí)間:2021-07-27 15:15
  二十一世紀(jì)以來(lái),隨著經(jīng)濟(jì)的發(fā)展,癌癥患者以及其他疾病患者數(shù)量急劇增長(zhǎng),不斷對(duì)我國(guó)的醫(yī)療水平提出了挑戰(zhàn)。如同面對(duì)2019新型冠狀病毒的襲擊一般,我們需要不斷地探索、不斷地突破,才能使病例被診斷、被治療。類似于這種無(wú)法通過(guò)觀測(cè)表觀癥狀診斷,或者病情還在初期的癌癥或者疾病,可通過(guò)檢測(cè)基因測(cè)序或基因表達(dá)數(shù)據(jù)提供診斷和治療的依據(jù)。如今,基因芯片技術(shù)發(fā)展迅猛,公開(kāi)的基因表達(dá)數(shù)據(jù)越來(lái)越多,如何通過(guò)這些基因表達(dá)數(shù)據(jù)探索出癌癥或疾病診斷方向顯得越來(lái)越重要。然而,目前癌癥基因表達(dá)數(shù)據(jù)研究致力于在少量的樣本數(shù)據(jù)的基礎(chǔ)上來(lái)提出更佳的相關(guān)研究方法,忽略了樣本的普遍性與獨(dú)特性,研究結(jié)果說(shuō)服力度不夠。因此本文將研究四個(gè)胰腺癌基因表達(dá)數(shù)據(jù)集,并使用一個(gè)新的外部樣本集檢驗(yàn)實(shí)驗(yàn)結(jié)果。同時(shí)考慮到基因之間的相似性,采用了區(qū)別于目前許多硬聚類研究的軟聚類方法---模糊聚類進(jìn)行基因分類,尋找更加全面的胰腺癌分類特征基因。本文從GEO公開(kāi)數(shù)據(jù)庫(kù)下載了四個(gè)胰腺癌基因表達(dá)數(shù)據(jù)集。采用R語(yǔ)言的Limma包的經(jīng)驗(yàn)貝葉斯方法分別對(duì)四個(gè)數(shù)據(jù)集進(jìn)行差異表達(dá)分析,然后對(duì)四個(gè)差異分析結(jié)果取交集,將其作為后續(xù)研究的基礎(chǔ);采用中位數(shù)整合法,整合四個(gè)基因... 

【文章來(lái)源】:西南大學(xué)重慶市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:51 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

基于多數(shù)據(jù)集的胰腺癌分類特征基因研究


中位數(shù)整合法過(guò)程展示

函數(shù)曲線,函數(shù)曲線,交叉驗(yàn)證,測(cè)試集


西南大學(xué)應(yīng)用統(tǒng)計(jì)碩士學(xué)位論文24圖3-2sigmoid函數(shù)曲線當(dāng)z趨于時(shí),g(z)趨于1;當(dāng)z趨于-時(shí),g(z)趨于0。將線性模型預(yù)測(cè)函數(shù)結(jié)果代入Sigmoid函數(shù)得到邏輯回歸預(yù)測(cè)函數(shù),如下:xTTehXgX11)()((3.5)由此,根據(jù)設(shè)定閾值來(lái)確定分類結(jié)果。例如,閾值設(shè)定為0.5,則Xh5.0)(時(shí),分為一類;Xh5.0)(時(shí),分為另一類。(2)分類模型評(píng)估建立好模型之后,通過(guò)劃分訓(xùn)練集與測(cè)試集進(jìn)行模型驗(yàn)證評(píng)估。本文將采用留一交叉驗(yàn)證法進(jìn)行驗(yàn)證。留一法是常見(jiàn)的k折交叉驗(yàn)證法的特例。k折交叉驗(yàn)證,首先將全部樣本集X分成k個(gè)不相交的子集,假設(shè)樣本集X中樣本個(gè)數(shù)為m,那么每一個(gè)子集有km/個(gè)樣本,相應(yīng)的子集為}x,,x,{xk21;然后每次從劃分好的子集中,抽出1個(gè)作為測(cè)試集,剩下k1個(gè)作為訓(xùn)練集;再運(yùn)用分類算法訓(xùn)練訓(xùn)練集得到分類模型,將測(cè)試集放入分類模型,得到測(cè)試集分類預(yù)測(cè)結(jié)果;最后計(jì)算k次分類預(yù)測(cè)結(jié)果的平均值,即為該模型的真實(shí)分類預(yù)測(cè)性能。當(dāng)k值取m時(shí),即為留一交叉驗(yàn)證。顧名思義就是每次只抽出1個(gè)樣本作測(cè)試集,其它剩余樣本作訓(xùn)練集,如果有n個(gè)樣本,則需要訓(xùn)練n次,測(cè)試n次。留一交叉驗(yàn)證計(jì)算較為繁瑣,適用小樣本,但該方法樣本利用率較高。同時(shí)本文采用混淆矩陣的衍生指標(biāo)準(zhǔn)確率、特異度以及ROC曲線、AUC值進(jìn)行評(píng)估分類模型識(shí)別效果。

線圖,線圖,數(shù)據(jù)集,探針


西南大學(xué)應(yīng)用統(tǒng)計(jì)碩士學(xué)位論文253.3實(shí)驗(yàn)結(jié)果3.3.1數(shù)據(jù)預(yù)處理下載的基因表達(dá)譜數(shù)據(jù)均是探針表達(dá)值,需要將探針?lè)g為對(duì)應(yīng)的基因。針對(duì)不同探針對(duì)應(yīng)相同基因的情況,取多個(gè)探針平均表達(dá)值作為該基因的表達(dá)值。首先將五個(gè)基因表達(dá)數(shù)據(jù)集均按此方法進(jìn)行探針?lè)g?紤]到GSE16515數(shù)據(jù)集用作后期分類模型驗(yàn)證,因此接下來(lái)就只針對(duì)GSE28735數(shù)據(jù)集、GSE41368數(shù)據(jù)集、GSE15471數(shù)據(jù)集、GSE71989數(shù)據(jù)集四個(gè)數(shù)據(jù)集進(jìn)行處理與研究。由于GSE41368數(shù)據(jù)集的觀測(cè)值數(shù)值較大,先將其進(jìn)行l(wèi)og2對(duì)數(shù)轉(zhuǎn)換,再對(duì)四個(gè)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,并繪制箱線圖。GSE28735數(shù)據(jù)集、GSE41368數(shù)據(jù)集、GSE15471數(shù)據(jù)集、GSE71989數(shù)據(jù)集標(biāo)準(zhǔn)化的箱線圖分別如圖3-3A、圖3-3B、圖3-3C、圖3-3D所示。此時(shí)四個(gè)數(shù)據(jù)集樣本表達(dá)量集中在-1到1之間,中位數(shù)集中在0附近。圖3-3四個(gè)數(shù)據(jù)集標(biāo)準(zhǔn)化后箱線圖

【參考文獻(xiàn)】:
期刊論文
[1]胰腺癌診斷和預(yù)后關(guān)鍵生物標(biāo)志物的篩選鑒定和綜合分析[J]. 柳興源,李菁媛,楊靜.  腫瘤防治研究. 2020(01)
[2]胰腺癌診治的研究進(jìn)展[J]. 丁玨寧君,計(jì)鳳鳴,王斌,白松.  醫(yī)學(xué)理論與實(shí)踐. 2019(23)
[3]胰腺癌早期診斷的最新關(guān)注點(diǎn)[J]. 孔祥耀,潘耀振.  世界最新醫(yī)學(xué)信息文摘. 2019(98)
[4]胰腺癌綜合治療的進(jìn)展與突破[J]. 毛鐵波,崔玖潔,王理偉.  循證醫(yī)學(xué). 2019(05)
[5]一種加權(quán)K-均值基因聚類算法[J]. 姚登舉,詹曉娟,張曉晶.  哈爾濱理工大學(xué)學(xué)報(bào). 2017(02)
[6]決策樹(shù)算法的研究綜述[J]. 田欣.  現(xiàn)代營(yíng)銷(下旬刊). 2017(01)
[7]基因表達(dá)譜的腫瘤特征基因提取研究分析[J]. 尹蕾,王博.  西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版). 2014(02)
[8]模糊聚類分析及其應(yīng)用研究[J]. 李新社,姚俊平.  網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2014(01)
[9]結(jié)合主成分與獨(dú)立成分分析識(shí)別胃癌相關(guān)差異表達(dá)基因的方法研究[J]. 陳戰(zhàn)雷,李博宇,李益,饒妮妮.  生物醫(yī)學(xué)工程學(xué)雜志. 2013(05)
[10]基于BB-SIR方法的結(jié)腸癌特征基因提取[J]. 李杰,鄧麗君,唐勝男.  世界科技研究與發(fā)展. 2011 (04)

博士論文
[1]胰腺導(dǎo)管腺癌中核蛋白AHNAK功能分析驗(yàn)證及胰腺星形細(xì)胞甲基化水平的檢測(cè)[D]. 張志文.北京協(xié)和醫(yī)學(xué)院 2019
[2]基于流行病學(xué)、臨床癥狀、腫瘤標(biāo)志和影像學(xué)特征的肺癌診斷模型的建立[D]. 倪然.鄭州大學(xué) 2016
[3]癌相關(guān)高通量組學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)化[D]. 王棟.電子科技大學(xué) 2011
[4]基因芯片數(shù)據(jù)統(tǒng)合分析方法的若干拓展[D]. 徐兆華.浙江大學(xué) 2010

碩士論文
[1]基于基因表達(dá)數(shù)據(jù)的癌癥特征基因選擇方法研究[D]. 李曉丹.北京工業(yè)大學(xué) 2016
[2]基因表達(dá)譜數(shù)據(jù)聚類分析的研究[D]. 周洋.西北農(nóng)林科技大學(xué) 2014
[3]miRNA-200c在乳腺癌中的表達(dá)及其調(diào)控基因網(wǎng)絡(luò)的篩選[D]. 王晟.南昌大學(xué)醫(yī)學(xué)院 2013
[4]多平臺(tái)基因芯片數(shù)據(jù)整合方法改進(jìn)[D]. 張園.湖南大學(xué) 2013
[5]胃癌中miRNA-429的表達(dá)及其生物信息學(xué)的初步研究[D]. 張?jiān)萝?河北醫(yī)科大學(xué) 2013
[6]基于統(tǒng)計(jì)分析法的腫瘤特征基因提取和分類研究[D]. 趙亞寧.西安建筑科技大學(xué) 2012
[7]基因表達(dá)數(shù)據(jù)的分析與處理[D]. 吳敏.西安理工大學(xué) 2009



本文編號(hào):3306032

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/tongjijuecelunwen/3306032.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶01f84***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com