Apriori算法在慢病預測中的應用研究
發(fā)布時間:2020-03-30 12:32
【摘要】:目前慢性病已成為危害人們健康生活的一個因素,尤其是慢性腎病,每年都有數(shù)以萬計的人群因患上該病而痛苦,為了改善這樣的局面,緩解慢性腎病帶來的危害,對于慢性病的預測研究已經(jīng)成為一個熱點。本文通過對慢性腎病的體檢數(shù)據(jù)運用改進的Apriori算法進行處理,挖掘出有實際參考價值的法則從而達到對慢性腎病進行預測的目標,并且減少了獲取知識的時間,具有一定的實際意義。論文所做的工作如下:1.對研究課題的概念理論和幾類比較流行的算法,國內(nèi)外相應的數(shù)據(jù)處理技術的發(fā)展、現(xiàn)狀以及其在智慧醫(yī)療領域的應用進行了相關研究,對數(shù)據(jù)挖掘的醫(yī)學應用有了清晰地認識;2.研究了數(shù)據(jù)挖掘中常見的疾病預測模型樸素貝葉斯分類器、決策樹和BP神經(jīng)網(wǎng)絡算法,分析了它們各自的優(yōu)勢和不足,針對利用體檢特征項來預測慢性腎病的研究目標,提出了使用關聯(lián)規(guī)則Apriori算法進行具體的數(shù)據(jù)挖掘和分析;3.為了解決傳統(tǒng)Apriori算法在計算上的瓶頸,多次掃描數(shù)據(jù)庫和生成候選項集過多的問題,對基于垂直數(shù)據(jù)格式的Apriori算法分別提出了基于指針數(shù)組和差集理論優(yōu)化的DSE算法和基于Hash表優(yōu)化的HE算法,DSE算法通過引入差集減少TID集的大小,節(jié)省內(nèi)存同時減少交集求解時間,HE算法利用Hash表在計算大容量數(shù)據(jù)交集時快速高效的性質,減少求交集時的循環(huán)和遍歷的時間,相比與傳統(tǒng)的算法,這兩種優(yōu)化算法都在運行時間上有了明顯的減少,提高了算法的運行效率;4.對慢性腎病的體檢數(shù)據(jù)進行預處理操作,通過離散化和標識映射等步驟將原始數(shù)據(jù)表轉化為可以進行實際挖掘的數(shù)據(jù)表進行關聯(lián)規(guī)則的挖掘,并用多項Logistic回歸分析算法對結果進行驗證,證實了算法的可靠性。通過關聯(lián)規(guī)則挖掘得到的有價值的知識規(guī)則可以很好地對慢性腎病進行一定程度上的概率預測,作為醫(yī)生進行疾病診斷的參考依據(jù),并對自動化醫(yī)療有著重要的意義。
【圖文】:
第 2 章 相關理論技術誤數(shù)據(jù)或是偏離正常區(qū)間的離群點等。這樣的數(shù)據(jù)會對最終的數(shù)據(jù)挖掘結果產(chǎn)很大的影響,因此需要通過數(shù)據(jù)預處理工作將低質量的數(shù)據(jù)轉化為一致、完整、確的高質量數(shù)據(jù)。數(shù)據(jù)預處理的一般方法[37]有數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換、據(jù)規(guī)約和數(shù)據(jù)離散化等,具體任務如圖 2-1 所示。
圖 2-2 數(shù)據(jù)挖掘流程Figure 2-2 Data Mining Process數(shù)據(jù)挖掘方法 聚類分析聚類分析是通過使用樣本數(shù)據(jù)所具有的一組屬性對數(shù)據(jù)進行劃分的[38],依的相似程度來計算數(shù)據(jù)之間的相似性和差異性。聚類分析系統(tǒng)的輸入包括析的數(shù)據(jù)集,以及可以用來作為衡量兩個簇集之間相似(相異)程度的標準分析的結果輸出是將數(shù)據(jù)集進行劃分后的組群。聚類分析往往會對每一個進行相應的說明或是概括性的描述,這種結果描述對于進一步分析數(shù)據(jù)集尤為重要。目前比較常見的聚類分析算法有 K-means、基于劃分的聚類算法模型的聚類方法等等,聚類分析往往應用在商業(yè)對客戶群體的分類;股市民購買趨勢的預測、市場銷售的細分;許多圖書銷售網(wǎng)站也會對客戶的購進行聚類分析,,從而根據(jù)用戶喜歡的圖書類型推薦新上市的或是流行的書
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R319;TP311.13
【圖文】:
第 2 章 相關理論技術誤數(shù)據(jù)或是偏離正常區(qū)間的離群點等。這樣的數(shù)據(jù)會對最終的數(shù)據(jù)挖掘結果產(chǎn)很大的影響,因此需要通過數(shù)據(jù)預處理工作將低質量的數(shù)據(jù)轉化為一致、完整、確的高質量數(shù)據(jù)。數(shù)據(jù)預處理的一般方法[37]有數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換、據(jù)規(guī)約和數(shù)據(jù)離散化等,具體任務如圖 2-1 所示。
圖 2-2 數(shù)據(jù)挖掘流程Figure 2-2 Data Mining Process數(shù)據(jù)挖掘方法 聚類分析聚類分析是通過使用樣本數(shù)據(jù)所具有的一組屬性對數(shù)據(jù)進行劃分的[38],依的相似程度來計算數(shù)據(jù)之間的相似性和差異性。聚類分析系統(tǒng)的輸入包括析的數(shù)據(jù)集,以及可以用來作為衡量兩個簇集之間相似(相異)程度的標準分析的結果輸出是將數(shù)據(jù)集進行劃分后的組群。聚類分析往往會對每一個進行相應的說明或是概括性的描述,這種結果描述對于進一步分析數(shù)據(jù)集尤為重要。目前比較常見的聚類分析算法有 K-means、基于劃分的聚類算法模型的聚類方法等等,聚類分析往往應用在商業(yè)對客戶群體的分類;股市民購買趨勢的預測、市場銷售的細分;許多圖書銷售網(wǎng)站也會對客戶的購進行聚類分析,,從而根據(jù)用戶喜歡的圖書類型推薦新上市的或是流行的書
【學位授予單位】:北京工業(yè)大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:R319;TP311.13
【相似文獻】
相關期刊論文 前10條
1 張宏哲;;FFT算法的一種改進[J];長安大學學報(自然科學版);1988年01期
2 苑寶生,俞鐵城;連呼漢語識別研究[J];聲學學報;1989年06期
3 孫楊模;;操作系統(tǒng)常見的幾種算法舉例分析[J];湖北三峽職業(yè)技術學院學報;2010年02期
4 郜振華;吳昊;;一種改進的混合蝙蝠算法[J];南華大學學報(自然科學版);2019年01期
5 吳天行;郭鍵;;基于“反學習”理論的人工蜂群算法在訂單分批問題中的應用[J];物流技術;2017年12期
6 全燕;陳龍;;算法傳播的風險批判:公共性背離與主體扭曲[J];華中師范大學學報(人文社會科學版);2019年01期
7 肖海軍;成金華;何凡;;雙核因素蝙蝠算法[J];中南民族大學學報(自然科學版);2018年01期
8 張進;;一種快速雙對分邏輯運算算法[J];情報學報;1992年03期
9 陳廣江;用MUSIC算法處理非均勻間隔采樣數(shù)據(jù)[J];系統(tǒng)工程與電子技術;1998年09期
10 于浩;王芳;;ROHC算法在LWIP上的仿真與實現(xiàn)[J];計算機仿真;2017年12期
相關會議論文 前8條
1 李孟霖;余祥;巫岱s
本文編號:2607548
本文鏈接:http://www.sikaile.net/yixuelunwen/swyx/2607548.html
最近更新
教材專著