基于不平衡數(shù)據(jù)的血栓風險預測算法研究
發(fā)布時間:2023-08-05 20:20
骨科術后靜脈血栓栓塞癥是患者手術期死亡的主要原因之一,病人發(fā)病期一般無臨床表現(xiàn),血栓通過阻塞臟器動脈造成死亡。在美國近25%的VTE患者入院,10%的住院患者死亡與肺栓塞有關。我國自2007至2016,VTE的發(fā)生率也從3.2/10萬人上升至17.5/10萬人,對骨科術后血栓風險預測分析在臨床研究中起著重要的作用。但臨床中患病人數(shù)比例極低,存在嚴重的數(shù)據(jù)不平衡現(xiàn)象。在機器學習的實際應用中,還有許多數(shù)據(jù)集是不平衡的,并且很多時候少數(shù)類數(shù)據(jù)更重要,將其錯分要付出更大的代價,如金融欺詐檢測、故障檢測、垃圾郵件判別等。因此,以全部數(shù)據(jù)預測準確率為學習目標的傳統(tǒng)分類算法并不適用于不平衡數(shù)據(jù)的分類,對提高不平衡數(shù)據(jù)的分類效果有著重要的研究意義。當前對于不平衡數(shù)據(jù)分類問題主要從兩個方面解決,一個是數(shù)據(jù)重采樣,另一方面是對分類算法的改進;谝陨媳尘,本文通過對真實數(shù)據(jù)集的預處理、改進重采樣算法、將代價敏感函數(shù)與集成學習算法結合三個方面,解決骨科術后不平衡數(shù)據(jù)的分類問題。本文主要工作如下:(1)本論文所研究的數(shù)據(jù)來源于中國人民解放軍總醫(yī)院(301醫(yī)院)骨科,數(shù)據(jù)具有真實性,在醫(yī)院對病人數(shù)據(jù)錄入中,無法...
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 采樣算法研究現(xiàn)狀
1.2.2 不平衡數(shù)據(jù)分類算法的研究現(xiàn)狀
1.3 本文研究內(nèi)容與工作安排
1.4 本章小結
第2章 理論基礎
2.1 采樣算法
2.1.1 欠采樣算法
2.1.2 過采樣算法
2.2 分類算法
2.2.1 邏輯回歸算法
2.2.2 決策樹算法
2.2.2.1 C4.5決策樹
2.2.2.2 CART決策樹
2.3 集成學習
2.3.1 集成學習概述
2.3.2 bagging
2.3.3 boosting
2.4 不平衡數(shù)據(jù)分類器性能評價指標
2.5 本章小結
第3章 骨科術后血栓數(shù)據(jù)集
3.1 數(shù)據(jù)集描述
3.2 數(shù)據(jù)集預處理
3.3 本章小結
第4章 基于孤立森林的自適應合成采樣算法(i F-ADASYN)
4.1 孤立森林算法
4.2 異常點對ADASYN采樣算法的影響
4.3 IF-ADASYN算法
4.3.1 IF-ADASYN算法離群點權重的確定
4.3.2 IF-ADASYN算法的具體步驟
4.4 實驗設計及結果分析
4.4.1 實驗環(huán)境
4.4.2 實驗設置與數(shù)據(jù)集
4.4.3 實驗設計及結果分析
4.5 本章小結
第5章 基于代價敏感的梯度提升樹算法(CO-GBDT)
5.1 代價敏感學習
5.1.1 代價敏感學習簡介
5.1.2 代價敏感學習的分類
5.2 GBDT算法概述
5.3 基于代價敏感學習的梯度提升樹算法概述
5.3.1 Bayes最優(yōu)分類
5.3.2 基于代價敏感學習的損失函數(shù)
5.3.3 基于代價敏感學習的梯度提升樹算法(CO-GBDT)
5.4 實驗設計及結果分析
5.4.1 實驗環(huán)境與實驗數(shù)據(jù)集
5.4.2 實驗設置
5.4.3 實驗結果及分析
5.5 本章小結
第6章 總結與展望
6.1 全文總結
6.2 未來展望
參考文獻
攻讀學位期間取得的研究成果
致謝
本文編號:3839269
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
第1章 緒論
1.1 課題研究背景與意義
1.2 研究現(xiàn)狀
1.2.1 采樣算法研究現(xiàn)狀
1.2.2 不平衡數(shù)據(jù)分類算法的研究現(xiàn)狀
1.3 本文研究內(nèi)容與工作安排
1.4 本章小結
第2章 理論基礎
2.1 采樣算法
2.1.1 欠采樣算法
2.1.2 過采樣算法
2.2 分類算法
2.2.1 邏輯回歸算法
2.2.2 決策樹算法
2.2.2.1 C4.5決策樹
2.2.2.2 CART決策樹
2.3 集成學習
2.3.1 集成學習概述
2.3.2 bagging
2.3.3 boosting
2.4 不平衡數(shù)據(jù)分類器性能評價指標
2.5 本章小結
第3章 骨科術后血栓數(shù)據(jù)集
3.1 數(shù)據(jù)集描述
3.2 數(shù)據(jù)集預處理
3.3 本章小結
第4章 基于孤立森林的自適應合成采樣算法(i F-ADASYN)
4.1 孤立森林算法
4.2 異常點對ADASYN采樣算法的影響
4.3 IF-ADASYN算法
4.3.1 IF-ADASYN算法離群點權重的確定
4.3.2 IF-ADASYN算法的具體步驟
4.4 實驗設計及結果分析
4.4.1 實驗環(huán)境
4.4.2 實驗設置與數(shù)據(jù)集
4.4.3 實驗設計及結果分析
4.5 本章小結
第5章 基于代價敏感的梯度提升樹算法(CO-GBDT)
5.1 代價敏感學習
5.1.1 代價敏感學習簡介
5.1.2 代價敏感學習的分類
5.2 GBDT算法概述
5.3 基于代價敏感學習的梯度提升樹算法概述
5.3.1 Bayes最優(yōu)分類
5.3.2 基于代價敏感學習的損失函數(shù)
5.3.3 基于代價敏感學習的梯度提升樹算法(CO-GBDT)
5.4 實驗設計及結果分析
5.4.1 實驗環(huán)境與實驗數(shù)據(jù)集
5.4.2 實驗設置
5.4.3 實驗結果及分析
5.5 本章小結
第6章 總結與展望
6.1 全文總結
6.2 未來展望
參考文獻
攻讀學位期間取得的研究成果
致謝
本文編號:3839269
本文鏈接:http://www.sikaile.net/kejilunwen/shengwushengchang/3839269.html
最近更新
教材專著