樸素貝葉斯分類(lèi)算法由于其簡(jiǎn)單且高效的優(yōu)點(diǎn)成為數(shù)據(jù)挖掘十大經(jīng)典算法之一,但是該算法在進(jìn)行分類(lèi)時(shí)假定屬性間是彼此獨(dú)立的。不過(guò),在現(xiàn)實(shí)應(yīng)用當(dāng)中這類(lèi)假設(shè)通常無(wú)法成立。在本文中,通過(guò)對(duì)數(shù)據(jù)預(yù)處理和減弱樸素貝葉斯算法的條件獨(dú)立性假設(shè)來(lái)提高算法的分類(lèi)準(zhǔn)確率。主要研究工作如下:離散化技術(shù)是經(jīng)常被用到數(shù)據(jù)預(yù)處理當(dāng)中的技術(shù)。已知的數(shù)據(jù)離散化方法通常在處理不平衡數(shù)據(jù)集時(shí)表現(xiàn)不是非常理想。本文提出了一種新的離散化算法ICAIM算法,通過(guò)結(jié)合三個(gè)不同離散化標(biāo)準(zhǔn)的優(yōu)點(diǎn)來(lái)改善CAIM算法的性能。ICAIM算法提高了離散區(qū)間的質(zhì)量,使離散化后的數(shù)據(jù)集的分類(lèi)性能更好,尤其是不平衡數(shù)據(jù)集。同時(shí),ICAIM算法的運(yùn)行時(shí)間較CAIM算法有明顯提高。隱樸素貝葉斯分類(lèi)算法忽視了數(shù)據(jù)集中冗余或者無(wú)關(guān)屬性對(duì)分類(lèi)結(jié)果造成的不利影響,本文針對(duì)這一缺陷,提出了采用CFS算法對(duì)屬性實(shí)施選取操作,選出一組最優(yōu)的屬性子集合。在減弱樸素貝葉斯算法的條件獨(dú)立性假設(shè)的眾多方法之中,屬性權(quán)重法早已引起了研究者的重視。為進(jìn)一步減弱條件獨(dú)立性假設(shè)引發(fā)的不利影響,本文將根據(jù)各屬性對(duì)分類(lèi)結(jié)果的影響程度,為不同的屬性賦予相應(yīng)的權(quán)重。本文提出的權(quán)重獲取方法不僅考慮了屬性與屬性間的依賴(lài)關(guān)系,而且考慮了屬性與類(lèi)屬性間的依賴(lài)關(guān)系,使每個(gè)屬性獲取到的權(quán)重更加合理,F(xiàn)有的屬性加權(quán)方法僅將學(xué)習(xí)到的屬性權(quán)重納入樸素貝葉斯分類(lèi)公式中,而不將權(quán)重納入其條件概率估計(jì)中,本文使用一種被稱(chēng)之為深度屬性加權(quán)的方法,能夠提高樸素貝葉斯模型的質(zhì)量。最后把本文所提出的ICAIM和SW-HNB算法應(yīng)用到冠心病中醫(yī)輔助診療系統(tǒng)當(dāng)中。首先通過(guò)ICAIM算法對(duì)冠心病臨床數(shù)據(jù)進(jìn)行離散化處理,然后再用SW-HNB算法對(duì)患者的病癥分類(lèi)。實(shí)驗(yàn)證明該系統(tǒng)可以有效地起到輔助診療的效果。
【學(xué)位授予單位】:大連海事大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2017
【分類(lèi)號(hào)】:TP18
文章目錄
摘要
ABSTRACT
第1章 緒論
1.1 研究背景和意義
1.2 國(guó)內(nèi)外研究現(xiàn)狀
1.2.1 離散化算法研究現(xiàn)狀
1.2.2 樸素貝葉斯分類(lèi)方法研究現(xiàn)狀
1.3 本文主要工作及組織結(jié)構(gòu)
第2章 相關(guān)背景知識(shí)
2.1 數(shù)據(jù)挖掘理論概述
2.1.1 數(shù)據(jù)挖掘任務(wù)
2.1.2 數(shù)據(jù)挖掘方法
2.1.3 數(shù)據(jù)挖掘流程
2.2 數(shù)據(jù)離散化
2.2.1 離散化概念
2.2.2 離散化評(píng)價(jià)標(biāo)準(zhǔn)
2.3 貝葉斯分類(lèi)方法
2.3.1 貝葉斯分類(lèi)相關(guān)理論
2.3.2 常用貝葉斯分類(lèi)算法
2.4 本章小結(jié)
第3章 基于類(lèi)別屬性關(guān)聯(lián)程度的數(shù)據(jù)離散化方法
3.1 CAIM離散算法
3.1.1 相關(guān)概念
3.1.2 算法描述
3.2 基于CAIM離散算法的改進(jìn)
3.2.1 CAIR標(biāo)準(zhǔn)
3.2.2 CAIU標(biāo)準(zhǔn)
3.2.3 ICAIM算法
3.3 實(shí)驗(yàn)與分析
3.4 本章小結(jié)
第4章 基于屬性加權(quán)的選擇性隱樸素貝葉斯分類(lèi)算法
4.1 隱樸素貝葉斯分類(lèi)算法
4.2 基于屬性選擇的HNB分類(lèi)算法
4.3 基于屬性加權(quán)的HNB分類(lèi)算法
4.3.1 信息增益率
4.3.2 屬性相關(guān)性度量
4.3.3 屬性加權(quán)HNB模型
4.4 基于屬性加權(quán)的選擇性HNB分類(lèi)算法
4.5 實(shí)驗(yàn)與分析
4.6 本章小結(jié)
第5章 數(shù)據(jù)離散化與貝葉斯改進(jìn)算法在冠心病中醫(yī)輔助診療系統(tǒng)的應(yīng)用
5.1 相關(guān)介紹
5.1.1 冠心病的危害
5.1.2 智能技術(shù)在冠心病預(yù)防和診治中的應(yīng)用
5.2 中醫(yī)輔助診療系統(tǒng)介紹
5.2.1 系統(tǒng)整體框架
5.2.2 系統(tǒng)的開(kāi)發(fā)工具和平臺(tái)
5.2.3 各個(gè)功能模塊設(shè)計(jì)
5.3 改進(jìn)算法在中醫(yī)輔助診療系統(tǒng)中的應(yīng)用
5.3.1 冠心病數(shù)據(jù)
5.3.2 基于類(lèi)別屬性關(guān)聯(lián)程度的數(shù)據(jù)離散化算法的應(yīng)用
5.3.3 基于屬性加權(quán)的選擇性隱樸素貝葉斯分類(lèi)算法的應(yīng)用
5.4 實(shí)驗(yàn)與分析
5.5 本章小結(jié)
第6章 總結(jié)與展望
6.1 總結(jié)
6.2 下一步研究工作
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】
相關(guān)期刊論文 前9條
1 閆志虹;;中西醫(yī)結(jié)合治療冠心病的研究進(jìn)展[J];中國(guó)保健營(yíng)養(yǎng);2013年02期
2 田松;何茜;;冠心病現(xiàn)代文獻(xiàn)中醫(yī)證型與證素的特征研究[J];湖南中醫(yī)藥大學(xué)學(xué)報(bào);2013年01期
3 彭興媛;劉瓊蓀;;不同類(lèi)變量下屬性聚類(lèi)的樸素貝葉斯分類(lèi)算法[J];計(jì)算機(jī)應(yīng)用;2011年11期
4 楊萍;楊天社;杜小寧;李濟(jì)生;黃永宣;;一種基于類(lèi)別屬性關(guān)聯(lián)程度最大化離散算法[J];控制與決策;2011年04期
5 鄧維斌;王國(guó)胤;王燕;;基于Rough Set的加權(quán)樸素貝葉斯分類(lèi)算法[J];計(jì)算機(jī)科學(xué);2007年02期
6 程克非;張聰;;基于特征加權(quán)的樸素貝葉斯分類(lèi)器[J];計(jì)算機(jī)仿真;2006年10期
7 謝宏,程浩忠,牛東曉;基于信息熵的粗糙集連續(xù)屬性離散化算法[J];計(jì)算機(jī)學(xué)報(bào);2005年09期
8 馬光志,陳鳳華;基于關(guān)聯(lián)規(guī)則的ABN分類(lèi)器構(gòu)造[J];計(jì)算機(jī)工程與科學(xué);2005年05期
9 石洪波,黃厚寬,王志海;基于Boosting的TAN組合分類(lèi)器[J];計(jì)算機(jī)研究與發(fā)展;2004年02期
本文編號(hào):
1420675
本文鏈接:http://www.sikaile.net/shoufeilunwen/xixikjs/1420675.html