天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

樸素貝葉斯分類算法的改進研究Research onNaive Bayesian ClassifierAlgorithm

發(fā)布時間:2015-12-11 12:06

樸素貝葉斯分類算法的改進研究Research onNaive Bayesian ClassifierAlgorithm

摘要

NBC模型具有計算簡單,分類性能優(yōu)越等特點,而受到各類科學(xué)工作者的青睞,成為目前應(yīng)用最廣泛的分類器之一關(guān)于其應(yīng)用和研究也成為一個熱點。然而,在實際應(yīng)用中,條件獨立性的假設(shè)難以得到滿足,削弱NBC模型的分類效果。本文針對不同的數(shù)據(jù)類型分別從特征變量的提取和特征變量的篩選的角度提出了樸素貝葉斯分類器的兩種改進模型:基于費希爾判別的樸素貝葉斯分類模型和基于R型聚類的樸素貝葉斯分類模型。
基于費希爾判別的樸素貝葉斯分類模型FI-NBC,利用費希爾判別提取獨立特征的性質(zhì),對原來的屬性集做費希爾判別,萃取判別式,構(gòu)建近似滿足獨立性假設(shè)的新屬性集,使用NBC模型對新的屬性集進行分類。通過UCI數(shù)據(jù)集上的對照實驗,結(jié)果表明:FI-NBC分類模型相對于NBC模型而言具有較好的分類效果。
基于相關(guān)性測度和R型聚類的樸素貝葉斯分類模型RC-NBC,首先利用本文定義的相關(guān)性測度作為屬性間的相似系數(shù)對R型聚類做了改進,利用改進的R型聚類方法將原屬性集劃分為若干子集,從每個子集中挑選典型屬性構(gòu)建新的屬性集,用NBC模型對新的數(shù)據(jù)集進行分類,,實驗結(jié)果表明提高了分類準確率。
關(guān)鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯分類;費希爾判別;R型聚類;互信息

[Abstract]

NaïveBayesian classifier which based on the assumption of conditionattributesindependent of each other,with simple structure,high classification accuracy , little consumption of running time and storage space and solid theoretical foundation of mathematics, isoneof the efficient classifiers.Therefore,the research and  application of naive Bayesianclassifier is popular now.However,in many practical cases, the performance of naïvebayesianclassifier is affected for the violation of  the assumption of conditional independence.Two improvedclassifiers,naive bayesian  classifierbased on fisher discriminant analysis and  naive bayesianclassifier based  on mutual information and R-type clustering analyses are proposed from the perspective of feature selection for data sets of different types.
NaïveBayesianclassifierbasedon fisher discriminant analysis ,FI-NBC,constructs  newattribute set from the original propertysetusing fisher discriminantanalysis.Naivebayesianclassifier  is  built  on  the new attribute set which meets the assumption of conditional independence approximately.Theexperimental  results  on  UCI  data  sets  show  that  the  performance of  FI-NBC is better  than naive bayesian classifier on the feasible data set.
Naïvebayesian classifier based on mutual information and R-typeclustering analyses,RC-NBC, changes theR-typeclustering by measures the correlation of propertiesthroughmutual  information.  Theorigin attribute set is classified into some independent attribute subsets by th changed R-typeclustering.Select one typical attributes from each sub-construct to form a new set of properties,and then builtNaive  bayesianclassifieron  the new attribute set.The  comparative experiments on UCI data sets show that the performance of RC-NBC improves significantly compared  to  naive  bayesian  classifier .
[Keyword]data mining ,naïvebayesian classifier,fisher discriminant analysis, R-typeclustering,mutual information


目錄

第一章緒論 3
1.1論文的研究背景 3
1.2 研究現(xiàn)狀 8
1.3論文的研究內(nèi)容與組織結(jié)構(gòu) 10
第二章樸素貝葉斯分類模型 11
2.1貝葉斯理論概況 11
2.2樸素貝葉斯分類模型 13
本章小結(jié) 17
第三章基于FISHER判別的貝葉斯分類模型 18
3.1 FISHER判別 18
3.2  FI-NBC模型 22
3.3 實驗及結(jié)果分析 24
本章小結(jié) 28
第四章基于R型聚類分析改進的樸素貝葉斯分類模型 29
4.1  R型聚類分析 29
4.2 基于屬性聚類的改進的樸素貝葉斯分類算法 34
4.3 基于R型聚類和互信息改進的貝葉斯分類方法 34
4.4 實驗及結(jié)果分析 37
本章小結(jié) 39
第五章總結(jié)與展望 40
參考文獻: 42
致謝 44


第一章緒論

1.1論文的研究背景
1.1.1數(shù)據(jù)挖掘
計算科學(xué)與信息技術(shù)經(jīng)過半個多世紀的迅猛發(fā)展,推動了社會的進步。隨著數(shù)據(jù)搜集、數(shù)據(jù)處理、及數(shù)據(jù)庫管理技術(shù)的發(fā)展,人們越來越能夠高效的收集、利用信息。在全國各地建立起來了大量的數(shù)據(jù)庫廣泛應(yīng)用于商務(wù)管理、科學(xué)探索、生產(chǎn)控制、工業(yè)設(shè)計,工程開發(fā)、市場營銷等各個方面。存儲在人們計算機和數(shù)據(jù)庫中的信息在以指數(shù)級數(shù)增長。數(shù)據(jù)是知識的源泉。但是,擁有數(shù)據(jù)并不等同于擁有知識。面對人們被海量數(shù)據(jù)淹沒卻渴求于知識的困境,一個新的挑戰(zhàn)被提了出來:、怎樣才能既不被繁蕪的海量信息所吞沒,又能從中有效地發(fā)現(xiàn)所需要的,于己有用的知識模式,使數(shù)據(jù)真正為轉(zhuǎn)化為知識財富呢?,數(shù)據(jù)挖掘技術(shù)就在這樣的背景下應(yīng)運而生了。

第五章總結(jié)與展望

本文主要研究了以統(tǒng)計學(xué)中貝葉斯定理為理論基礎(chǔ)的NBC模型,考慮到NBC模型所要求的類條件獨立性假設(shè)在實際應(yīng)用中難以得到滿足的情況,分別從特征提取和特征選擇提出了兩種樸素貝葉斯方法的改進算法:
基于費希爾判別的樸素貝葉斯分類模型FI-NBC,利用費希爾判別提取獨立特征的性質(zhì),對原屬性集進行線性投影降維,簡化數(shù)據(jù)集的同時,剔除了因冗余導(dǎo)致的屬性間的相關(guān)性,并且投影方向正交得到的新屬性獨立性增強,可以近似的逼近樸素貝葉斯方法要求的條件獨立的假設(shè)。
基于相關(guān)性測度和R型聚類的樸素貝葉斯分類模型RC-NBC,首先引入了相關(guān)性測度作為屬性間的相似系數(shù)對R型聚類做了改進,利用改進的R型聚類方法將原屬性集劃分為若干子集,從每個子集中挑選典型屬性構(gòu)建新的屬性集構(gòu)建樸素NBC模型,剔除了因冗余導(dǎo)致的相關(guān)性影響因素同時達到了降維的目。
并且通過使用UCI上數(shù)據(jù)集做對比試驗,驗證了能夠提高樸NBC模型的分類準確率。
然而,由于作者學(xué)識有限,本文的研究和討論還存在許多不足之處,有不少需要進一步深入探討的問題。主要有以下幾個方面:
第一:本文引進了相關(guān)性測度的概念度量兩個屬性間的相關(guān)程度大小,在計算屬性間的相關(guān)性測度時計算量非常大,當(dāng)屬性變量特別多時會產(chǎn)生組合爆炸。例如,當(dāng)有30個屬性變量,每個變量有4個取值,類別變量時二值變量,那么它需要計算大約個組合值。今后,可對提高特征提取效率的算法方面進行研究。
第二,本文在進行特征選擇時,是從每個屬性簇中挑選一個作為典型屬性構(gòu)建新的屬性集,可能會導(dǎo)致樣本所包含信息量的損失,今后可以考慮屬性簇中屬性的組合方法。
第三:在實驗的數(shù)據(jù)選擇上,我們沒有考慮缺失數(shù)據(jù),而且變量都屬于同種性質(zhì)的,今后可以對有缺失數(shù)據(jù)和混合變量的實驗樣本進行深入研究。


參考文獻:

[1]陳安,  陳寧,  周龍驤等.  數(shù)據(jù)挖掘技術(shù)及應(yīng)用[M].  北京:  科學(xué)出版社, 2006: 111-112
[2]Han J. W, Kamber M. Data Mining Concepts and Techniques[M]. San Francisco: Morgan Kaufmann Publishers, 2001: 3-6
[3] Kononenko  I.Semi-native  Bayesian  classifier[A].In:Proceedings  of  the  6th  European  Working Session on Learning.New York:Springer-Verlag , 1991. 206-219.
[4]Langley  P,  Sage  S.  Induction  of  Selective  Bayesian  Classifiers  [A].  In:  Proceedings  of  the Tenth Conference on Uncertainty in Artificial Intelligence[C]. Seattle, WA: Morgan Kaufmann Publishers, 1994. 339-406.
[5]沈黎,周麗. 基于屬性聚類的貝葉斯分類算法.河南教育學(xué)院學(xué)報(自然科學(xué)版).2013.22.22-24
[6] 張靜,王建民,何華燦.基于屬性相關(guān)性的屬性約簡新方法[J].  計算機工程與應(yīng)用.  2005. 28:57- 59.
[7] Harry Zhang, Shengli Sheng. Learning Weighted NaiveBayeswith Accurate Ranking[C]. IEEE International Conference on Data Mining - ICDM , pp. 567-570, 2004
[8] 程克非,張聰.  基于特征加權(quán)的樸素貝葉斯分類器[J].計算機仿真,2006, 23: 92-94.
[9] Geoffrey I. Webb, Michael J. Pazzani. Adjusted Probability Naive Bayesian Induction[C].Australian Joint Conference on Artificial Intelligence - AUS-AI , pp. 285-295, 1998
[10] Hall M. A decision tree-based attribute weighting filter for Naive Bayes[J].Knowledge- Based Systems, 2007.20 : 120- 126.
[11] Pazzani M J. Constructive Induction of Cartesian Product Attributes[A]. In: Proceedings of the Conference  on  Information,  Statistics  and  Induction  in  Science  [C].  Singapore:  World   Scientific, 1996. 66-77.
[12] 王志海,張播.一種基于粗糙集合理論的樹擴張型貝葉斯網(wǎng)絡(luò)分類器川.復(fù)旦學(xué)報(自然科學(xué)版).2004.43(5):725一728
[13] 閉樂鵬,徐偉,宋瀚濤.  基于一類 SVM 的貝葉斯分類算法[J].  北京理工大學(xué)學(xué)報,2006. 26:143-146.
[14]李海龍,王鉦旋,王利民,苑淼淼.基于主成分分析提升貝葉斯.儀器儀表學(xué)報.2004.25:384-386
[15]Kohavi R. Scaling up the Accuracy of Native-Bayes Classifiers: A Decision-Tree Hybrid[A]. In: Simoudis  E,  Han  J  W,  Fayyad  U  M.  Proceedings  of  the  Second  International  Conference  on Knowledge Discovery and Data Mining[C]. Menlo Park, CA: AAAI Press, 1996. 202-207.
[16] 鄧維斌,黃蜀江,周玉敏.  基于條件信息熵的自主式樸素貝葉斯分類算法[J],  計算機應(yīng)用, 2007. 27: 888-891.
[17] Ting K M, Zheng Z. Improving the performance of boosting for Naive Bayesian classification. NingZhong, Li zhu Zhou eds. Proc of the 3rdPacific一Asia Conf on Knowledge Discovery and Data Mining Berlin Germany: Springer -Verlag, 1999. 296-305.
[18] 張璠.  多種策略改進樸素貝葉斯分類器[J].  微機發(fā)展, 2005. 15:125-127.
[19]茆詩松,程依明,濮曉龍。概率論與數(shù)理統(tǒng)計教程。北京:高等教育出版社。2004;38-45
[20] 鐘路,  潘昊等.  模式識別[M].  武漢:  武漢大學(xué)出版社, 2006.
[21] 杜會鋒.  基于 Copula 理論的兩種分類算法研究[D].  重慶:重慶大學(xué)統(tǒng)計系,2008.
[22] 李雄飛,  李軍.  數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].  北京:  高等教育出版社, 2003.
[23] Mia K, Stern, Joseph E. Beverly Park Wolf. Native Bayes Classifiers for User Modeling.
[24] Pedro Domingos, Michael Pazzzani. On the Optimality of the Simple Bayesian Classifier under Zero-One Loss[J]. Machine Learning, 1997. 29: 103-130.
[25]王學(xué)民.應(yīng)用多元分析.上海.上海財經(jīng)大學(xué)出版社.2004.20-21
[26]于秀林.任雪松.多遠統(tǒng)計分析.北京.中國統(tǒng)計出版社.1999.115-125
[27]WanSJ ,Wong5K.Ameasureforconeeptdissimilariryanditsapplicationsinmaehinelearning.ProeeedingsoftheInternationalConfereneeonComputingandInforma-
tion,1989,267~273.
[28]HAN  J  W,  KAMBER  M.  數(shù)據(jù)挖掘概念與技術(shù)[M].  范明,  孟小峰,  譯.  北京:  機械工業(yè)出版社, 2001.
[29] 陳路瑩.  高維數(shù)據(jù)的聚類分析方法研究及其應(yīng)用[D].  廈門大學(xué)博士學(xué)位論文,2009.
[30]任若恩.王惠文.多元統(tǒng)計數(shù)據(jù)分析.北京:國防工業(yè)出版社.1997:56-84
[31] 余瑞康.聚類思想在貝葉斯算法中的應(yīng)用[J].計算機工程與應(yīng)用, 2006. 28: 159-163.
[32] 陳弋蘭.基于模糊聚類的混合樸素貝葉斯分類模型[D].安徽建筑工業(yè)學(xué)院學(xué)報(自然科學(xué)版), 2009. 17: 88-91.
[33]Cover T.M, Thomas J.A.  信息論基礎(chǔ)[M]. 2 版.  阮吉壽,  張華.  北京:  清華大學(xué)出版社, 2003: 7-13
[34]Pang-Ning Tan, Michael Steinbach,Vioin Kumar [M]范明,范宏建,譯.北京.人民郵電出版社.2012
[35]張志涌.精通MATLAB R2011a.北京.北京航空航天大學(xué)出版社.2013
[36]謝中華.MATLAB統(tǒng)計分析與應(yīng)用:40個案例分析.北京.北京航空航天大學(xué)出版社.2010




本文編號:19097

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/jingjilunwen/shijiejingjilunwen/19097.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶699cd***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com