天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 醫(yī)學論文 > 兒科論文 >

基于集成學習與不平衡多標簽數據集的兒科常見病預測模型構建

發(fā)布時間:2020-05-26 05:54
【摘要】:對于疾病的預測常常需要收集一定量的臨床病歷作為數據集,將病歷中的癥狀描述作為實例特征,初步診斷作為疾病標簽,并采用數據挖掘與機器學習算法來構造疾病的預測模型。然而,醫(yī)學中的樣本數據經常會存在不平衡的現象,由此產生模型預測效果不佳的問題。鑒于醫(yī)學數據集具有不平衡和多標簽的特點,本文將利用集成學習算法構建一個兒科常見病的預測模型。文中對于兒科常見病的預測模型的構建,采取過采樣與AdaBoost相結合并利用最大互信息生成樹的算法。具體表述為:首先采用BR策略對兒科常見病的實驗數據集拆分成每個標簽所對應的二分類數據集;其次針對每個二分類數據集,AdaBoost在其訓練與迭代過程中不斷對少數類的可靠樣本在指定閾值內進行一定量的復制,因此構成了所有單個疾病標簽的預測模型,最后利用所有單個疾病標簽預測模型的結果,并依據標簽之間的最大互信息生成樹進行預測。預測時需要遍歷生成樹,根據該結點的預測概率,父親結點的預測概率以及其與該結點之間互信息的乘積,選取其中的最大值并更新為該結點的預測概率,設定適當閾值,把滿足條件的標簽添加到標簽的結果集中。實驗方面,兩類單個疾病標簽的二分類數據集與三個不平衡的二分類公共數據集運用不同的抽樣技術與單個疾病標簽的預測模型進行了對比,結果表明該模型的精確率、召回率和F1值均有不同程度的提升;而在文中的兒科常見病實驗數據集上,將兒科常見病的預測模型與主流的多標簽算法ML-KNN等進行了對比,實驗證明在三類評價指標上,該模型優(yōu)于其他算法的效果,因此該算法在不平衡多標簽的數據集上所構造的兒科常見病的預測模型是相當有效的。
【圖文】:

分類圖,圖片展示,示例,分類圖


單標簽與多標簽圖片展示(a)二類分類圖片示例(b)多標簽圖片示例

示意圖,示意圖,樣本點,屬性


圖 2.2 SMOTE 算法的幾何示意圖綜上所述,SMOTE 方法是采取 鄰近算法來查找原始少數類中合適的樣本點成樣本點提供了近鄰樣本點。 鄰近的自身屬性是一種以度量距離為規(guī)則,并中兩兩之間的間距。若為數值屬性,一般采用歐式距離;若為非數值屬性,,則數值度量規(guī)則去判定。
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R72;TP181

【參考文獻】

相關期刊論文 前2條

1 郭喬進;李立斌;李寧;;一種用于不平衡數據分類的改進AdaBoost算法[J];計算機工程與應用;2008年21期

2 劉胥影;吳建鑫;周志華;;一種基于級聯模型的類別不平衡數據分類方法[J];南京大學學報(自然科學版);2006年02期



本文編號:2681382

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/yixuelunwen/eklw/2681382.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶9146c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com