天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于梯度提升決策樹的患者30天再入院預測模型研究

發(fā)布時間:2020-08-13 16:46
【摘要】:30天再入院率是指患者出院后30天內再入院的比率,能夠反映出醫(yī)院第一次運行的結果,是當前國際上廣泛用來度量醫(yī)療服務質量的重要指標。然而,其在我國評估醫(yī)療服務質量的指標體系中的使用才剛剛開始。選用預測算法對患者是否再入院進行預測,能夠為醫(yī)院管理者提供決策支撐,從而可以使得再入院率得到有效降低。在提高醫(yī)療服務質量和降低治療費用的同時,幫助醫(yī)院更加有效合理的分配醫(yī)療資源。引起再入院的原因是多種多樣的,僅基于臨床專業(yè)知識來評估出院患者再次入院可能性比較困難。同時,對再入院進行預測評估目前的主流方法分為兩種,一是采用傳統(tǒng)的統(tǒng)計學方法,如線性回歸、邏輯回歸等;另一種是采用機器學習的方法,簡化預測模型特征參數,利用支持向量機、樸素貝葉斯、決策樹等方法進行再入院預測,可以有效解決傳統(tǒng)方法的預測精度不足的問題。醫(yī)療信息系統(tǒng)中存儲的再入院患者的數據樣本存在不平衡現象,再入院患者數量在所有患者數量占少數,為典型的類別不平衡問題。傳統(tǒng)的統(tǒng)計學方法和機器學習算法都是基于平衡數據進行分類預測,并不能較好的識別不平衡數據中的少類樣本,從而不能獲得較好的分類效果。為了提高對30天再入院的準確分類預測,本文構建一種基于梯度提升決策樹算法的再入院預測模型。對醫(yī)學不平衡數據的處理,提出了包括利用FCM算法進行不平衡數據的采樣方法、基于梯度提升模型對數據進行特征提取、采用梯度提升決策樹以及使用貝葉斯模型進行超參數的優(yōu)化的方法策略,在UCI公共不平衡數據集上測試本文的算法在中高度不平衡數據集上的分類處理效果優(yōu)于目前常見的采樣方法,如下采樣、SMOTE和綜合采樣策略;與目前常用的分類算法比較,本文的提出的BFCM-LGB算法比決策樹、邏輯回歸、樸素貝葉斯、SVM和隨機森林的分類結果都要好;在兩個公共再入院數據實驗結果顯示與常規(guī)算法比較,本文的算法在預測的精度和召回率上都顯著具有優(yōu)勢。與目前現有的全因再入院和糖尿病再入院分類算法相比較,本文所提出的方法得到的結果都具有較高的預測精度。
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R197.3
【圖文】:

再入院,指標體系


數類的樣本由于其數據量較少,導致算法的分類結果偏向多數類的樣本,從得該算法不能夠有效的對少數類樣本進行判斷。為此,本文主要研究怎樣通不平衡再入院數據進行處理的操作,從而使得算法可以對再入院患者的識別達到最優(yōu)。.2 國內外的研究現狀導致再入院的原因是多種多樣的,目前大量研究發(fā)現年齡、種族、是否經行醫(yī)療健康檢查、是否進行過手術、合并癥類型、上次住院時間、上一年是入院、藥物使用情況等多種因素對再入院都存在影響(圖 1)[7]。因此,只醫(yī)生的臨床專業(yè)知識或者醫(yī)院管理者的經驗對再次入院風險進行評估,這都較有難度的。同時對再入院進行預測評估目前的主流方法分為兩種,一是采統(tǒng)的統(tǒng)計學方法,如線性回歸、邏輯回歸等;另一種是選用機器學習的方化預測模型特征參數,利用 SVM、樸素貝葉斯、決策樹和深度神經網絡等進行再入院預測,可以有效解決傳統(tǒng)方法的預測精度不足的問題[8]。

流程圖,流程,再入院,超參數


昆明理工大學碩士學位論文④針對患者再入院預測研究中臨床數據特征屬性較多問題,本文采用梯度提升決策樹算法對特征重要性進行排序,然后選擇其中重要屬性參與模型構建,降低模型的復雜度。同時,在模型的參數選擇過程中,使用貝葉斯超參數優(yōu)化模型,可以有效提高模型的泛化能力。

曲線,曲線,決策樹算法,假陽性


圖 2.1 ROC 曲線ROC(receiver operating characteristic, 受試者工作曲線)曲線[36]常用找出真陽性和避免假陽性之間的權衡。其圖像如上圖所示,其中圖的橫坐測假陽性數據的占比,而縱坐標則表示為預測真陽性的數據占比。因此曲線上的點則為不同假陽性與真陽性的比例表示。同時可以使用 ROC 曲面積來度量分類器的性能,因此 AUC 的值分布在 0.5 到 1.0 之間。2.2 決策樹2.2.1 決策樹算法決策樹算法是目前普遍使用的分類算法,由于訓練過程中需要預先學標簽,因此該算法屬于有監(jiān)督學習。按照數據的屬性使用樹狀結構來構建模型。于是,決策樹模型常用來解決分類和回歸問題。常見的決策樹算CART、ID3 和 C4.5 等[37]。決策樹算法又是一系列的 If-Then 語句,既可以用于回歸問題,也可

【參考文獻】

相關期刊論文 前10條

1 趙榮珍;王雪冬;鄧林峰;;基于PCA-KLFDA的小樣本故障數據集降維方法[J];華中科技大學學報(自然科學版);2015年12期

2 趙永彬;陳碩;劉明;曹鵬;;基于置信度代價敏感的支持向量機不均衡數據學習[J];計算機工程;2015年10期

3 朱亞奇;鄧維斌;;一種基于不平衡數據的聚類抽樣方法[J];南京大學學報(自然科學);2015年02期

4 鄭燕;王楊;郝青峰;甘振韜;;用于不平衡數據分類的代價敏感超網絡算法[J];計算機應用;2014年05期

5 王超學;張濤;馬春森;;面向不平衡數據集的改進型SMOTE算法[J];計算機科學與探索;2014年06期

6 胡小生;張潤晶;鐘勇;;兩層聚類的類別不平衡數據挖掘算法[J];計算機科學;2013年11期

7 樓曉俊;孫雨軒;劉海濤;;聚類邊界過采樣不平衡數據分類方法[J];浙江大學學報(工學版);2013年06期

8 張永;李卓然;劉小丹;;基于主動學習SMOTE的非均衡數據分類[J];計算機應用與軟件;2012年03期

9 蔣盛益;苗邦;余雯;;基于一趟聚類的不平衡數據下抽樣算法[J];小型微型計算機系統(tǒng);2012年02期

10 蔣盛益;謝照青;余雯;;基于代價敏感的樸素貝葉斯不平衡數據分類研究[J];計算機研究與發(fā)展;2011年S1期

相關碩士學位論文 前3條

1 閆欣;綜合過采樣和欠采樣的不平衡數據集的學習研究[D];東北電力大學;2016年

2 朱春燕;心血管疾病患者再次入院風險評估系統(tǒng)的設計與實現[D];浙江大學;2016年

3 韓曉敏;基于LGC算法的代價敏感分類方法研究[D];大連理工大學;2015年



本文編號:2792255

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/yixuelunwen/yiyuanguanlilunwen/2792255.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶860cb***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com