基于梯度提升決策樹的患者30天再入院預測模型研究
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R197.3
【圖文】:
數類的樣本由于其數據量較少,導致算法的分類結果偏向多數類的樣本,從得該算法不能夠有效的對少數類樣本進行判斷。為此,本文主要研究怎樣通不平衡再入院數據進行處理的操作,從而使得算法可以對再入院患者的識別達到最優(yōu)。.2 國內外的研究現狀導致再入院的原因是多種多樣的,目前大量研究發(fā)現年齡、種族、是否經行醫(yī)療健康檢查、是否進行過手術、合并癥類型、上次住院時間、上一年是入院、藥物使用情況等多種因素對再入院都存在影響(圖 1)[7]。因此,只醫(yī)生的臨床專業(yè)知識或者醫(yī)院管理者的經驗對再次入院風險進行評估,這都較有難度的。同時對再入院進行預測評估目前的主流方法分為兩種,一是采統(tǒng)的統(tǒng)計學方法,如線性回歸、邏輯回歸等;另一種是選用機器學習的方化預測模型特征參數,利用 SVM、樸素貝葉斯、決策樹和深度神經網絡等進行再入院預測,可以有效解決傳統(tǒng)方法的預測精度不足的問題[8]。
昆明理工大學碩士學位論文④針對患者再入院預測研究中臨床數據特征屬性較多問題,本文采用梯度提升決策樹算法對特征重要性進行排序,然后選擇其中重要屬性參與模型構建,降低模型的復雜度。同時,在模型的參數選擇過程中,使用貝葉斯超參數優(yōu)化模型,可以有效提高模型的泛化能力。
圖 2.1 ROC 曲線ROC(receiver operating characteristic, 受試者工作曲線)曲線[36]常用找出真陽性和避免假陽性之間的權衡。其圖像如上圖所示,其中圖的橫坐測假陽性數據的占比,而縱坐標則表示為預測真陽性的數據占比。因此曲線上的點則為不同假陽性與真陽性的比例表示。同時可以使用 ROC 曲面積來度量分類器的性能,因此 AUC 的值分布在 0.5 到 1.0 之間。2.2 決策樹2.2.1 決策樹算法決策樹算法是目前普遍使用的分類算法,由于訓練過程中需要預先學標簽,因此該算法屬于有監(jiān)督學習。按照數據的屬性使用樹狀結構來構建模型。于是,決策樹模型常用來解決分類和回歸問題。常見的決策樹算CART、ID3 和 C4.5 等[37]。決策樹算法又是一系列的 If-Then 語句,既可以用于回歸問題,也可
【參考文獻】
相關期刊論文 前10條
1 趙榮珍;王雪冬;鄧林峰;;基于PCA-KLFDA的小樣本故障數據集降維方法[J];華中科技大學學報(自然科學版);2015年12期
2 趙永彬;陳碩;劉明;曹鵬;;基于置信度代價敏感的支持向量機不均衡數據學習[J];計算機工程;2015年10期
3 朱亞奇;鄧維斌;;一種基于不平衡數據的聚類抽樣方法[J];南京大學學報(自然科學);2015年02期
4 鄭燕;王楊;郝青峰;甘振韜;;用于不平衡數據分類的代價敏感超網絡算法[J];計算機應用;2014年05期
5 王超學;張濤;馬春森;;面向不平衡數據集的改進型SMOTE算法[J];計算機科學與探索;2014年06期
6 胡小生;張潤晶;鐘勇;;兩層聚類的類別不平衡數據挖掘算法[J];計算機科學;2013年11期
7 樓曉俊;孫雨軒;劉海濤;;聚類邊界過采樣不平衡數據分類方法[J];浙江大學學報(工學版);2013年06期
8 張永;李卓然;劉小丹;;基于主動學習SMOTE的非均衡數據分類[J];計算機應用與軟件;2012年03期
9 蔣盛益;苗邦;余雯;;基于一趟聚類的不平衡數據下抽樣算法[J];小型微型計算機系統(tǒng);2012年02期
10 蔣盛益;謝照青;余雯;;基于代價敏感的樸素貝葉斯不平衡數據分類研究[J];計算機研究與發(fā)展;2011年S1期
相關碩士學位論文 前3條
1 閆欣;綜合過采樣和欠采樣的不平衡數據集的學習研究[D];東北電力大學;2016年
2 朱春燕;心血管疾病患者再次入院風險評估系統(tǒng)的設計與實現[D];浙江大學;2016年
3 韓曉敏;基于LGC算法的代價敏感分類方法研究[D];大連理工大學;2015年
本文編號:2792255
本文鏈接:http://www.sikaile.net/yixuelunwen/yiyuanguanlilunwen/2792255.html