針對腫瘤分期診斷問題的整合特征選擇算法研究
發(fā)布時間:2021-06-22 21:20
當(dāng)今社會,腫瘤是死亡率最高的疾病之一。目前尚未有能夠完全根治的辦法,在臨床醫(yī)學(xué)上也只能從預(yù)后檢查治愈的程度,而且不能夠保證不再復(fù)發(fā)。隨著生物信息技術(shù)的發(fā)展以及醫(yī)療水平的提高,依托于計算機存儲技術(shù)和芯片技術(shù)的發(fā)展,越來越多的生物醫(yī)療數(shù)據(jù)得以保存。通過計算機技術(shù)、機器學(xué)習(xí)、數(shù)據(jù)挖掘等挖掘有用的醫(yī)療數(shù)據(jù)信息,對于精準(zhǔn)的預(yù)測腫瘤的惡化程度,進一步的治療腫瘤是目前研究的熱點。人類的生命機制有著復(fù)雜的調(diào)控機制,每一個生命活動都有著成千上萬的基因,每個不同的生命過程都產(chǎn)生著不同的中間產(chǎn)物。常見的針對這些過程的數(shù)據(jù)包括甲基化組學(xué)數(shù)據(jù)、轉(zhuǎn)錄組學(xué)數(shù)據(jù)、蛋白質(zhì)組學(xué)數(shù)據(jù)等。本文使用前兩種組學(xué)的數(shù)據(jù)。在生物體內(nèi),甲基化在經(jīng)歷過酶的催化之后進行重金屬的修飾、基因表達過程的控制、蛋白質(zhì)功能的控制以及核糖核酸的加工等一系列的功能。轉(zhuǎn)錄組則是DNA轉(zhuǎn)錄的產(chǎn)物,用于研究特定的細胞以及器官的各類核糖核酸的產(chǎn)量以及類型,F(xiàn)有研究表明,甲基化組學(xué)數(shù)據(jù)以及轉(zhuǎn)錄組學(xué)數(shù)據(jù)和腫瘤的產(chǎn)生、發(fā)育有著密切的關(guān)系。對于腫瘤的分期來說,研究這些數(shù)據(jù)有著十分重要的作用。然而,腫瘤的組學(xué)數(shù)據(jù)通常具有樣本數(shù)少基因數(shù)目多的特點——“大p小n”的分布特點...
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
特征選擇算法的基本框架
吉林大學(xué)碩士學(xué)位論文4第2章相關(guān)的背景知識2.1數(shù)據(jù)預(yù)處理在數(shù)據(jù)科學(xué)中,數(shù)據(jù)預(yù)處理是一個關(guān)鍵步驟。許多算法的前提假設(shè)就是數(shù)據(jù)特征都是零均值或者是在同一階數(shù)的方差。如果某個特征的方差比其他數(shù)據(jù)集大了幾個數(shù)量級別,那么這個特征就會在機器學(xué)習(xí)當(dāng)中占據(jù)主導(dǎo)地位,這就會導(dǎo)致學(xué)習(xí)到的模型差強人意。2.1.1缺失值處理缺失值的產(chǎn)生通常是由于粗糙數(shù)據(jù)中由于缺失信息導(dǎo)致數(shù)據(jù)的一些屬性不完全,導(dǎo)致部分屬性值為空。缺失值的處理通常有兩種方法:刪除法和填充法。如果一個樣本或者變量的屬性包含的缺失值超過了一定的比例,比如超過樣本的一半或者某個百分比,我們就可以認(rèn)為這個屬性包含的信息量是有限的。強行的填充過量的人工添加信息會使得建模效果受到較大的影響。這種情況下,我們通常刪除缺失值。填充法包含隨機填充、均值填充、最相似填充、回歸填充[10]、K近鄰填充[11]等方法。隨機填充通常是選擇一個隨機數(shù)來進行填充,這種方法沒有考慮到數(shù)據(jù)的特性,會產(chǎn)生異常值等,一般不建議使用。均值填充默認(rèn)數(shù)據(jù)分布是相同的。缺失值應(yīng)滿足整體的數(shù)據(jù)分布,可以采用平均數(shù)、中位數(shù)等添補。。最相似填充是在數(shù)據(jù)集中找到一個與它最相似的樣本,然后用這個樣本的值對缺失的值進行填充;貧w填充是把缺失值作為目標(biāo)變量,其它值作為訓(xùn)練,預(yù)測生成的值作為缺失值。K近鄰填充則是利用K近鄰算法,選擇缺失值最近的K個近鄰點,然后根據(jù)離缺失值最近的K個近鄰點進行加權(quán)來估計缺失值。2.1.2數(shù)據(jù)的標(biāo)準(zhǔn)化通常來說,標(biāo)準(zhǔn)化是讓不同數(shù)據(jù)指標(biāo)處于同一的數(shù)量級別,有一定的可比性,從而提高機器學(xué)習(xí)模型的準(zhǔn)確性。對于線性模型來說,數(shù)據(jù)標(biāo)準(zhǔn)化后,尋找最優(yōu)解的過程會變得較為平緩,更容易找到最優(yōu)解。圖2.1歸一化
第2章相關(guān)的背景知識5圖2.2未歸一化如圖2.1是做了歸一化,而圖2.2未做歸一化。圖中紅色的線為等高線,藍色的線是梯度下降來進行求最優(yōu)解的過程,中心的圓或橢圓為最優(yōu)解。圖2.2未歸一化處理的求解過程呈現(xiàn)Z字形,而圖2.1為歸一化處理后求解的過程呈現(xiàn)出的1字形,對比可以明顯的看出,歸一化后等高線更圓,求解的梯度更快的到達圓心,收斂速度更快,更容易到達圓心。因此,歸一化能夠使得尋找最優(yōu)解的過程更加平緩,速度更快。下面介紹兩種使用最普遍的歸一化方法:Z分?jǐn)?shù)歸一化和最小最大歸一化。Z-Score歸一化也叫做0-1標(biāo)準(zhǔn)化,這是因為它使用平均數(shù)和標(biāo)準(zhǔn)差來縮放數(shù)據(jù),縮放之后的數(shù)據(jù)滿足正態(tài)分布。也就是說縮放之后的數(shù)據(jù)滿足均值為0,標(biāo)準(zhǔn)差為1。縮放之后的數(shù)據(jù)處于同一數(shù)量級的范圍內(nèi),使得各個數(shù)據(jù)之間具有可以比較的特性。它的計算公式如公式2.1所示:=…………..…………………(2.1)在上述的公式當(dāng)中,x為數(shù)據(jù)特征的觀測值,為數(shù)據(jù)特征的均值,為標(biāo)準(zhǔn)差,為縮放后的數(shù)據(jù)。這個方法通常要求原始的數(shù)據(jù)分布可以近似為高斯分布。如果不是這樣的話,采用縮放調(diào)整之后的數(shù)據(jù)訓(xùn)練的模型的性能會很差。通常在分類和聚類的一些算法當(dāng)中,需要使用特征之間的距離來衡量相似程度的時候,或者說是需要使用PCA算法對數(shù)據(jù)降維的時候,該方法呈現(xiàn)的效果相對較好。Min-Max歸一化(Min-MaxNormalization)通常也稱作最大最小值標(biāo)準(zhǔn)化,也可以稱作離差標(biāo)準(zhǔn)化,這種方法的縮放效果是使得數(shù)據(jù)的值映射到[0,1]之間,它計算方法如公式2.2所示:=min()max()min()……..…………………(2.2)對于去除量綱和數(shù)據(jù)的取值范圍影響,該方法是最簡單的且保留了數(shù)據(jù)的原始存在關(guān)系的方法。但是這種處理模式下,在數(shù)據(jù)比較集中且存在離群點的?
【參考文獻】:
期刊論文
[1]磁共振成像對直腸癌分期和側(cè)切緣受累的預(yù)測價值[J]. 姜金波,戴勇,張曉明,李傳福,靳祖濤,畢冬松,孫靖中. 中華醫(yī)學(xué)雜志. 2006(14)
博士論文
[1]異構(gòu)健康大數(shù)據(jù)診療模型的特征優(yōu)化算法研究與開發(fā)[D]. 馮欣.吉林大學(xué) 2019
本文編號:3243550
【文章來源】:吉林大學(xué)吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數(shù)】:64 頁
【學(xué)位級別】:碩士
【部分圖文】:
特征選擇算法的基本框架
吉林大學(xué)碩士學(xué)位論文4第2章相關(guān)的背景知識2.1數(shù)據(jù)預(yù)處理在數(shù)據(jù)科學(xué)中,數(shù)據(jù)預(yù)處理是一個關(guān)鍵步驟。許多算法的前提假設(shè)就是數(shù)據(jù)特征都是零均值或者是在同一階數(shù)的方差。如果某個特征的方差比其他數(shù)據(jù)集大了幾個數(shù)量級別,那么這個特征就會在機器學(xué)習(xí)當(dāng)中占據(jù)主導(dǎo)地位,這就會導(dǎo)致學(xué)習(xí)到的模型差強人意。2.1.1缺失值處理缺失值的產(chǎn)生通常是由于粗糙數(shù)據(jù)中由于缺失信息導(dǎo)致數(shù)據(jù)的一些屬性不完全,導(dǎo)致部分屬性值為空。缺失值的處理通常有兩種方法:刪除法和填充法。如果一個樣本或者變量的屬性包含的缺失值超過了一定的比例,比如超過樣本的一半或者某個百分比,我們就可以認(rèn)為這個屬性包含的信息量是有限的。強行的填充過量的人工添加信息會使得建模效果受到較大的影響。這種情況下,我們通常刪除缺失值。填充法包含隨機填充、均值填充、最相似填充、回歸填充[10]、K近鄰填充[11]等方法。隨機填充通常是選擇一個隨機數(shù)來進行填充,這種方法沒有考慮到數(shù)據(jù)的特性,會產(chǎn)生異常值等,一般不建議使用。均值填充默認(rèn)數(shù)據(jù)分布是相同的。缺失值應(yīng)滿足整體的數(shù)據(jù)分布,可以采用平均數(shù)、中位數(shù)等添補。。最相似填充是在數(shù)據(jù)集中找到一個與它最相似的樣本,然后用這個樣本的值對缺失的值進行填充;貧w填充是把缺失值作為目標(biāo)變量,其它值作為訓(xùn)練,預(yù)測生成的值作為缺失值。K近鄰填充則是利用K近鄰算法,選擇缺失值最近的K個近鄰點,然后根據(jù)離缺失值最近的K個近鄰點進行加權(quán)來估計缺失值。2.1.2數(shù)據(jù)的標(biāo)準(zhǔn)化通常來說,標(biāo)準(zhǔn)化是讓不同數(shù)據(jù)指標(biāo)處于同一的數(shù)量級別,有一定的可比性,從而提高機器學(xué)習(xí)模型的準(zhǔn)確性。對于線性模型來說,數(shù)據(jù)標(biāo)準(zhǔn)化后,尋找最優(yōu)解的過程會變得較為平緩,更容易找到最優(yōu)解。圖2.1歸一化
第2章相關(guān)的背景知識5圖2.2未歸一化如圖2.1是做了歸一化,而圖2.2未做歸一化。圖中紅色的線為等高線,藍色的線是梯度下降來進行求最優(yōu)解的過程,中心的圓或橢圓為最優(yōu)解。圖2.2未歸一化處理的求解過程呈現(xiàn)Z字形,而圖2.1為歸一化處理后求解的過程呈現(xiàn)出的1字形,對比可以明顯的看出,歸一化后等高線更圓,求解的梯度更快的到達圓心,收斂速度更快,更容易到達圓心。因此,歸一化能夠使得尋找最優(yōu)解的過程更加平緩,速度更快。下面介紹兩種使用最普遍的歸一化方法:Z分?jǐn)?shù)歸一化和最小最大歸一化。Z-Score歸一化也叫做0-1標(biāo)準(zhǔn)化,這是因為它使用平均數(shù)和標(biāo)準(zhǔn)差來縮放數(shù)據(jù),縮放之后的數(shù)據(jù)滿足正態(tài)分布。也就是說縮放之后的數(shù)據(jù)滿足均值為0,標(biāo)準(zhǔn)差為1。縮放之后的數(shù)據(jù)處于同一數(shù)量級的范圍內(nèi),使得各個數(shù)據(jù)之間具有可以比較的特性。它的計算公式如公式2.1所示:=…………..…………………(2.1)在上述的公式當(dāng)中,x為數(shù)據(jù)特征的觀測值,為數(shù)據(jù)特征的均值,為標(biāo)準(zhǔn)差,為縮放后的數(shù)據(jù)。這個方法通常要求原始的數(shù)據(jù)分布可以近似為高斯分布。如果不是這樣的話,采用縮放調(diào)整之后的數(shù)據(jù)訓(xùn)練的模型的性能會很差。通常在分類和聚類的一些算法當(dāng)中,需要使用特征之間的距離來衡量相似程度的時候,或者說是需要使用PCA算法對數(shù)據(jù)降維的時候,該方法呈現(xiàn)的效果相對較好。Min-Max歸一化(Min-MaxNormalization)通常也稱作最大最小值標(biāo)準(zhǔn)化,也可以稱作離差標(biāo)準(zhǔn)化,這種方法的縮放效果是使得數(shù)據(jù)的值映射到[0,1]之間,它計算方法如公式2.2所示:=min()max()min()……..…………………(2.2)對于去除量綱和數(shù)據(jù)的取值范圍影響,該方法是最簡單的且保留了數(shù)據(jù)的原始存在關(guān)系的方法。但是這種處理模式下,在數(shù)據(jù)比較集中且存在離群點的?
【參考文獻】:
期刊論文
[1]磁共振成像對直腸癌分期和側(cè)切緣受累的預(yù)測價值[J]. 姜金波,戴勇,張曉明,李傳福,靳祖濤,畢冬松,孫靖中. 中華醫(yī)學(xué)雜志. 2006(14)
博士論文
[1]異構(gòu)健康大數(shù)據(jù)診療模型的特征優(yōu)化算法研究與開發(fā)[D]. 馮欣.吉林大學(xué) 2019
本文編號:3243550
本文鏈接:http://www.sikaile.net/yixuelunwen/zlx/3243550.html
最近更新
教材專著