樸素貝葉斯算法的改進與應用
本文關(guān)鍵詞:樸素貝葉斯算法的改進與應用
更多相關(guān)文章: 樸素貝葉斯 下溢 核心關(guān)鍵詞 TFIDF 文本分類
【摘要】:樸素貝葉斯算法是分類算法中最經(jīng)典、最有影響的算法之一,但仍然存在一些不足之處。針對該算法中下溢問題,對算法基本公式進行了優(yōu)化改進。針對NB算法中準確率問題,結(jié)合類別核心詞思想和改進后的TFIDF算法,提出了一種基于類別核心詞和改進型TFIDF的樸素貝葉斯CIT-NB算法。將改進后的算法應用于新聞數(shù)據(jù)集文本分類,實驗結(jié)果表明,CIT-NB算法的分類性能明顯優(yōu)于原始樸素貝葉斯算法和基于TFIDF的分類算法。
【作者單位】: 河南理工大學計算機科學與技術(shù)學院;河南省普通高等學校礦山信息化研究重點實驗室;
【關(guān)鍵詞】: 樸素貝葉斯 下溢 核心關(guān)鍵詞 TFIDF 文本分類
【基金】:河南省科技攻關(guān)項目(142402210435) 河南省高等學校礦山信息化重點學科開放實驗室開放基金項目(ky2012-02)
【分類號】:TP18;TP391.1
【正文快照】: 文獻[i]指出分類問題是數(shù)據(jù)挖掘領(lǐng)域研究和應用最為廣泛的問題之一^目前最常用的分類算法主要有貝葉斯算法、C4. 5決策樹算法、支持向量機算法(SVM,sUpP0rt vector machine)等。文獻[2]指出C4.5決策樹算法受到數(shù)據(jù)集中奇異數(shù)據(jù)的影響。文獻[3]指出SVM算法在訓練大數(shù)據(jù)集時速
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前2條
1 曾青華;袁家斌;張云洲;;基于Hadoop的貝葉斯過濾MapReduce模型[J];計算機工程;2013年11期
2 邸鵬;段利國;;一種新型樸素貝葉斯文本分類算法[J];數(shù)據(jù)采集與處理;2014年01期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前5條
1 唐勇;;基于樸素貝葉斯算法對論壇文本分類的技術(shù)實現(xiàn)[J];電腦知識與技術(shù);2014年32期
2 楊陽;張文生;;基于深度學習的圖像自動標注算法[J];數(shù)據(jù)采集與處理;2015年01期
3 吳斌;李冠辰;劉宇;張雷;王柏;;基于微博重復發(fā)送的垃圾用戶甄別[J];數(shù)據(jù)采集與處理;2015年01期
4 孫兵率;;一種基于MapReduce的頻繁項集挖掘算法[J];軟件導刊;2015年04期
5 柴丹煒;邵思思;張若昕;樂光學;劉建生;;網(wǎng)絡輿論話題分類算法研究與實證分析[J];嘉興學院學報;2014年06期
中國碩士學位論文全文數(shù)據(jù)庫 前3條
1 蔣偉;基于Hadoop的電商商品文本分類研究與實現(xiàn)[D];武漢理工大學;2014年
2 徐冉;基于文本挖掘的疾病輔助導診技術(shù)研究[D];北京郵電大學;2015年
3 梁海龍;基于鄰域粗糙集的屬性約簡和樣本約減算法研究及在文本分類中的應用[D];太原理工大學;2015年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王美珍;李芝棠;吳漢濤;;改進的貝葉斯垃圾郵件過濾算法[J];華中科技大學學報(自然科學版);2009年08期
2 李維杰;徐勇;;簡體中文垃圾郵件分類的實驗設計及對比研究[J];計算機工程與應用;2007年25期
3 鄧維斌;王國胤;洪智勇;;基于粗糙集的加權(quán)樸素貝葉斯郵件過濾方法[J];計算機科學;2011年02期
4 鐘將;孫啟干;李靜;;基于歸一化向量的文本分類算法[J];計算機工程;2011年08期
5 王濤;裘國永;何聚厚;;新的基于最小風險的貝葉斯郵件過濾模型[J];計算機應用研究;2008年04期
6 陳志賢;;垃圾郵件過濾技術(shù)研究綜述[J];計算機應用研究;2009年05期
7 趙世奇,張宇,劉挺,陳毅恒,黃永光,李生;基于類別特征域的文本分類特征選擇方法[J];中文信息學報;2005年06期
8 劉叢山;李祥寶;楊煜普;;一種基于近鄰元分析的文本分類算法[J];計算機工程;2012年15期
9 呂國云;趙榮椿;張艷寧;樊養(yǎng)余;Sahli Hichem;;基于三音素動態(tài)貝葉斯網(wǎng)絡模型的大詞匯量連續(xù)語音識別[J];數(shù)據(jù)采集與處理;2009年01期
10 史岳鵬;朱顥東;;基于類別相關(guān)性和優(yōu)化的ID3特征選擇[J];數(shù)據(jù)采集與處理;2011年02期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 賴英旭;楊震;;改進貝葉斯算法在未知惡意軟件識別中的研究[J];北京工業(yè)大學學報;2011年05期
2 陳凱星;陳建英;;一種改進的基于樸素貝葉斯算法的垃圾短信過濾技術(shù)[J];福建電腦;2014年03期
3 李欣;;一種對貝葉斯算法的改進算法分析[J];山東省農(nóng)業(yè)管理干部學院學報;2011年05期
4 皮靖;邵雄凱;肖雅夫;;基于樸素貝葉斯算法的主題爬蟲的研究[J];計算機與數(shù)字工程;2012年06期
5 楊忠強;秦亮曦;;一種基于維規(guī)約的屬性加權(quán)樸素貝葉斯算法[J];信息技術(shù);2013年12期
6 丁岳偉;潘濤;;利用貝葉斯算法過濾報文內(nèi)容分析系統(tǒng)中的垃圾信息[J];上海理工大學學報;2008年01期
7 李森;趙潔;;基于樸素貝葉斯算法的語言特征描述研究[J];農(nóng)業(yè)網(wǎng)絡信息;2012年05期
8 陳福志,史杏榮;基于改進貝葉斯算法的信息安全模型[J];計算機工程;2003年20期
9 汪明;張征;;SQL Server 2008 R2貝葉斯算法研究[J];河北軟件職業(yè)技術(shù)學院學報;2011年03期
10 文橋;王衛(wèi)平;;基于改進貝葉斯算法的入侵檢測方法[J];計算機工程;2006年12期
中國重要會議論文全文數(shù)據(jù)庫 前3條
1 顧蕊;;利用貝葉斯算法的目標探測前跟蹤方法[A];第七屆全國信息獲取與處理學術(shù)會議論文集[C];2009年
2 許小林;唐文忠;;基于貝葉斯算法的垃圾郵件檢測中數(shù)據(jù)預處理技術(shù)的研究[A];計算機技術(shù)與應用進展——全國第17屆計算機科學與技術(shù)應用(CACIS)學術(shù)會議論文集(上冊)[C];2006年
3 彭小明;辛陽;;基于增量貝葉斯算法的主題爬蟲的設計與實現(xiàn)[A];第九屆中國通信學會學術(shù)年會論文集[C];2012年
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 劉大雷;基于不確定貝葉斯算法在滑坡危險性預測的應用研究[D];江西理工大學;2015年
2 楊忠強;基于屬性加權(quán)和歸約的樸素貝葉斯算法研究[D];廣西大學;2013年
3 Emmanuel Kayitaba 阿瑪尼;[D];中南大學;2010年
4 孫源澤;樸素貝葉斯算法及其在電信客戶流失分析中的應用研究[D];湖南大學;2008年
5 朱強;貝葉斯算法在智能終端信息過濾中的應用研究[D];中南大學;2013年
6 王剛剛;貝葉斯算法在人體生理狀態(tài)識別中的應用[D];大連理工大學;2008年
7 曾志中;基于貝葉斯算法的垃圾郵件過濾系統(tǒng)的分析與實現(xiàn)[D];北京郵電大學;2009年
8 林士杰;ID3算法、樸素貝葉斯算法和BP神經(jīng)網(wǎng)絡算法的比較和分析研究[D];內(nèi)蒙古大學;2013年
9 陳培;基于行為分析的惡意代碼識別系統(tǒng)研究與實現(xiàn)[D];電子科技大學;2010年
10 劉永昌;基于演化樸素貝葉斯的木馬檢測技術(shù)研究[D];華中科技大學;2012年
,本文編號:823973
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/823973.html