異構健康大數據診療模型的特征優(yōu)化算法研究與開發(fā)
發(fā)布時間:2022-01-25 15:03
健康大數據時代的來臨,極大的推動了醫(yī)療診斷模型的建立,實現了更快更好更準確的精準醫(yī)療,但同時給機器學習和數據挖掘研究人員帶來了運算時間和學習效率的新挑戰(zhàn)。醫(yī)學領域生物標志物檢測問題等同于機器學習領域中的特征選擇問題。健康大數據挖掘是大數據挖掘技術的重要研究方向,是計算機領域和醫(yī)學領域的研究熱點。生物醫(yī)學數據固有“大p小n”、特征高度相關以及醫(yī)學研究員對于數據挖掘結果的可理解性要求的特點,使得傳統(tǒng)的數據挖掘算法難以直接應用于生物健康大數據挖掘任務。所謂“大p小n”就是“高維度小樣本”指現有數據集的特征很多而樣本非常少,針對這種情況,通常采用特征選擇來減少大量與表型無關的生物醫(yī)學特征,從而減少模型運行的時間,降低模型的時間和空間復雜度,實現穩(wěn)定的與特定數據集無關的分類或回歸模型,提高模型的泛化能力。本文針對上述問題開展了多層次整合建模算法及異構健康大數據的特征融合研究。由于生物組學、影像組學和電子病歷數據描述了生物系統(tǒng)的不同時間和空間尺度的狀態(tài),具有顯著的異構和多模態(tài)特點,是醫(yī)學建模的主要生物醫(yī)學信息來源。因此,針對三種類別健康大數據開展了特征提取、特征選擇、數據融合算法研究,建立了分類和...
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:160 頁
【學位級別】:博士
【部分圖文】:
異構健康數據融合建模的三個層次第三層次針對臨床電子病歷數據,研究了4種亞型的乳腺癌新輔助化療問
當代高通量組學技術可以從一個樣本產生海量數據特征,導致了特征數遠于樣本數的“大 p 小 n”挑戰(zhàn)[59,60]。生物組學 OMIC 數據集中存在大量與表型相關的“噪音特征”,可以采用特征選擇算法(或稱為標志物檢測算法)來特征構建表型優(yōu)化模型[61]。從生物學角度來說,并不是所有基因都與疾病類相關;從數據分析角度來說,某些數據特征甚至會降低模型性能。本章介紹了醫(yī)學大數據中的生物組學、影像組學和電子病歷組學的健康大。針對生物醫(yī)學數據存在“大 p 小 n”特點,容易導致過擬合、運算時間過問題,介紹了數據挖掘、特征選擇分類、特征選擇過程、機器學習算法和常性能評價指標。2.2 醫(yī)學大數據概述
征值之間不同距離進行分類的一種算法?臻g最臨近的 K 個樣本中,大多數樣本通常 K 取值為 20 以內的整數。K 近鄰算類的樣本,也就是說,KNN 的定類決策類別[87]。 KNN 算法樣例,圖中綠色圓形是要進形是已經歸類的樣本。當前任務是決策綠,與綠色樣本鄰近的三個樣本中有兩個賦予紅色三角的類;當 K=5 時,與綠色和三個藍色樣本,則綠色圓被賦予藍色方大程度上取決于 K 值的選擇。KNN 算法離或曼哈頓距離。KNN 算法這種通過計相似指標,避免了對象之間的匹配問題。
【參考文獻】:
期刊論文
[1]基于回歸分析的全體與類樣本分類器的比較研究[J]. 張楠,楊健. 計算機應用與軟件. 2011(11)
本文編號:3608749
【文章來源】:吉林大學吉林省 211工程院校 985工程院校 教育部直屬院校
【文章頁數】:160 頁
【學位級別】:博士
【部分圖文】:
異構健康數據融合建模的三個層次第三層次針對臨床電子病歷數據,研究了4種亞型的乳腺癌新輔助化療問
當代高通量組學技術可以從一個樣本產生海量數據特征,導致了特征數遠于樣本數的“大 p 小 n”挑戰(zhàn)[59,60]。生物組學 OMIC 數據集中存在大量與表型相關的“噪音特征”,可以采用特征選擇算法(或稱為標志物檢測算法)來特征構建表型優(yōu)化模型[61]。從生物學角度來說,并不是所有基因都與疾病類相關;從數據分析角度來說,某些數據特征甚至會降低模型性能。本章介紹了醫(yī)學大數據中的生物組學、影像組學和電子病歷組學的健康大。針對生物醫(yī)學數據存在“大 p 小 n”特點,容易導致過擬合、運算時間過問題,介紹了數據挖掘、特征選擇分類、特征選擇過程、機器學習算法和常性能評價指標。2.2 醫(yī)學大數據概述
征值之間不同距離進行分類的一種算法?臻g最臨近的 K 個樣本中,大多數樣本通常 K 取值為 20 以內的整數。K 近鄰算類的樣本,也就是說,KNN 的定類決策類別[87]。 KNN 算法樣例,圖中綠色圓形是要進形是已經歸類的樣本。當前任務是決策綠,與綠色樣本鄰近的三個樣本中有兩個賦予紅色三角的類;當 K=5 時,與綠色和三個藍色樣本,則綠色圓被賦予藍色方大程度上取決于 K 值的選擇。KNN 算法離或曼哈頓距離。KNN 算法這種通過計相似指標,避免了對象之間的匹配問題。
【參考文獻】:
期刊論文
[1]基于回歸分析的全體與類樣本分類器的比較研究[J]. 張楠,楊健. 計算機應用與軟件. 2011(11)
本文編號:3608749
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3608749.html