加權(quán)貝葉斯郵件過濾方法研究
本文關(guān)鍵詞:加權(quán)貝葉斯郵件過濾方法研究
更多相關(guān)文章: 貝葉斯定理 郵件過濾 特征選擇 特征表示 加權(quán)
【摘要】:電子郵件給人們的溝通交流帶來極大的便利,與此同時(shí)也帶來了新的問題,即大量垃圾郵件的出現(xiàn)。垃圾郵件占用大量的網(wǎng)絡(luò)資源,侵犯個人隱私,給人們造成了很大干擾,因此研究如何過濾垃圾郵件具有重要的現(xiàn)實(shí)意義和實(shí)際應(yīng)用價(jià)值。本文在貝葉斯垃圾郵件分類算法的基礎(chǔ)上進(jìn)行研究工作。該算法基于統(tǒng)計(jì)學(xué)中的貝葉斯定理,根據(jù)先驗(yàn)概率求出后驗(yàn)概率,從而達(dá)到將垃圾郵件從大量電子文件中剔除的目的。貝葉斯垃圾郵件分類算法在按照文本分類進(jìn)行郵件過濾的研究領(lǐng)域得到了廣泛應(yīng)用。本文首先介紹了垃圾郵件過濾的研究背景、國內(nèi)外研究現(xiàn)狀以及常用的郵件過濾方法和技術(shù)。為了建立垃圾郵件剔除效果測試的比較標(biāo)準(zhǔn),介紹了貝葉斯概率定理、本文使用的語料庫以及引用文獻(xiàn)中經(jīng)常使用文本分類性能評價(jià)指標(biāo)。本文重點(diǎn)在分析常用的特征表示和特征選擇基礎(chǔ)上,做一些改進(jìn)工作。建立特征表示的指紋向量方法以及特征選擇的CHI-XIG混合方法,初步分析這種新方法在垃圾郵件分類中的優(yōu)越性,后續(xù)設(shè)計(jì)了仿真實(shí)驗(yàn)進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果顯示在本文建立的特征表示和特征選擇方法基礎(chǔ)上,樸素貝葉斯算法郵件分類效果有顯著提高。本文研究發(fā)現(xiàn)郵件頭和郵件體在郵件分類過程中具有不同的作用,據(jù)此建立了給予郵件頭和郵件體不同權(quán)重系數(shù)的加權(quán)貝葉斯郵件過濾模型。在實(shí)際使用中,郵件頭和郵件體的權(quán)重系數(shù)從歷史數(shù)據(jù)統(tǒng)計(jì)產(chǎn)生,利用加權(quán)貝葉斯郵件過濾模型計(jì)算得到郵件綜合分?jǐn)?shù)作為判斷郵件類型的定量依據(jù)。仿真實(shí)驗(yàn)驗(yàn)證了加權(quán)貝葉斯郵件過濾模型在垃圾郵件分類中的明顯優(yōu)勢。
【關(guān)鍵詞】:貝葉斯定理 郵件過濾 特征選擇 特征表示 加權(quán)
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.098
【目錄】:
- 摘要4-5
- Abstract5-8
- 第1章 緒論8-14
- 1.1 課題背景8
- 1.2 國內(nèi)外研究現(xiàn)狀8-10
- 1.3 垃圾郵件的定義10
- 1.4 常用垃圾郵件過濾技術(shù)10-12
- 1.4.1 黑白名單技術(shù)10-11
- 1.4.2 關(guān)鍵詞過濾技術(shù)11
- 1.4.3 反向域名驗(yàn)證11
- 1.4.4 基于規(guī)則評分的過濾技術(shù)11-12
- 1.4.5 貝葉斯過濾法12
- 1.5 本文研究的內(nèi)容12
- 1.6 本論文的組織結(jié)構(gòu)12-14
- 第2章 貝葉斯概率理論14-17
- 2.1 貝葉斯定理14
- 2.2 向量空間14-15
- 2.3 語料庫15
- 2.4 評價(jià)體系15-16
- 2.5 本章小結(jié)16-17
- 第3章 樸素貝葉斯過濾方法特征研究17-31
- 3.1 樸素貝葉斯過濾模型17-18
- 3.2 貝葉斯過濾模型的估計(jì)18-19
- 3.3 樸素貝葉斯分類基本流程19
- 3.4 樸素貝葉斯過濾器的改進(jìn)19-29
- 3.4.1 特征表示19-23
- 3.4.2 特征選擇23-29
- 3.5 閾值的動態(tài)調(diào)整29-30
- 3.6 本章小結(jié)30-31
- 第4章 加權(quán)貝葉斯郵件過濾分類模型31-41
- 4.1 電子郵件簡介31-33
- 4.2 郵件格式33-34
- 4.3 郵件頭字段34-37
- 4.4 加權(quán)貝葉斯概率模型37-38
- 4.5 加權(quán)貝葉斯郵件分類模型流程38-39
- 4.6 實(shí)驗(yàn)結(jié)果分析39-40
- 4.7 本章小結(jié)40-41
- 結(jié)論41-42
- 參考文獻(xiàn)42-47
- 致謝47
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 楊葆紅;防范垃圾郵件的幾種措施[J];鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報(bào);2004年01期
2 Firefox;;在線狙擊垃圾郵件[J];電腦迷;2005年16期
3 LX ,阮征 ,Joycat;垃圾郵件 你真的惹惱我了!(上)[J];電腦愛好者;2005年03期
4 許偉民;羅鍵;;廈門廣電集團(tuán)垃圾郵件的防范[J];中國傳媒科技;2006年10期
5 馮秀彥;宋宏偉;楊鳳勇;;防垃圾郵件方法探討[J];石家莊職業(yè)技術(shù)學(xué)院學(xué)報(bào);2006年06期
6 高良誠;;郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J];銅陵職業(yè)技術(shù)學(xué)院學(xué)報(bào);2007年01期
7 戴健;;飛馬替你收郵件[J];電腦界.應(yīng)用文萃;2000年08期
8 蔡健,黃國興,謝孟軍;基于數(shù)據(jù)挖掘方法的電子郵件過濾[J];微型電腦應(yīng)用;2001年08期
9 呢仔男孩;垃圾郵件防守戰(zhàn)[J];電腦愛好者;2001年09期
10 馮小民;徹底拒絕垃圾郵件[J];電腦愛好者;2001年16期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 張晶;姚建民;董守斌;張凌;;基于自然語言同現(xiàn)詞匯的郵件過濾[A];第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2007年
2 薛亞楠;廖聞劍;彭艷兵;;垃圾郵件行為識別研究[A];中國電子學(xué)會第十六屆信息論學(xué)術(shù)年會論文集[C];2009年
3 蒯莉;;網(wǎng)絡(luò)垃圾郵件的防范與治理[A];第十六次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集[C];2001年
4 沈衛(wèi)超;;郵件過濾器系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[A];中國工程物理研究院科技年報(bào)(2001)[C];2001年
5 石艷榮;孫丹寧;賀永強(qiáng);;一種基于內(nèi)容的郵件過濾模型的研究與性能分析[A];2007通信理論與技術(shù)新發(fā)展——第十二屆全國青年通信學(xué)術(shù)會議論文集(上冊)[C];2007年
6 張尼;姜譽(yù);方濱興;郭莉;;一個基于郵件路徑地理屬性分析的垃圾郵件過濾算法[A];全國網(wǎng)絡(luò)與信息安全技術(shù)研討會論文集(下冊)[C];2007年
7 朱巧明;周志軍;李培峰;;中文郵件語料庫建設(shè)及其分類研究[A];第六屆漢語詞匯語義學(xué)研討會論文集[C];2005年
8 仇小鋒;陳鳴;賈永興;;垃圾郵件及其防范技術(shù)[A];第九屆全國青年通信學(xué)術(shù)會議論文集[C];2004年
9 張相於;陳繼東;李玉坤;孟小峰;;TEXEM:一種基于實(shí)體的郵件任務(wù)提取策略[A];第二十五屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(二)[C];2008年
10 李婧;張煥國;;應(yīng)用于貝葉斯過濾器的噪音消除算法研究[A];2005通信理論與技術(shù)新進(jìn)展——第十屆全國青年通信學(xué)術(shù)會議論文集[C];2005年
中國重要報(bào)紙全文數(shù)據(jù)庫 前10條
1 曹;拒絕垃圾郵件[N];中國電腦教育報(bào);2003年
2 ;狙擊垃圾郵件[N];中國電腦教育報(bào);2004年
3 ;砍斷垃圾郵件黑手[N];計(jì)算機(jī)世界;2003年
4 本報(bào)記者 張琳;防垃圾郵件怎樣“行為識別”[N];網(wǎng)絡(luò)世界;2005年
5 新華社記者 王緬 毛磊 楊駿 何德功 潘治;垃圾郵件全球泛濫,,法律怎么辦[N];新華每日電訊;2003年
6 阮光塵邋朱元春;多層構(gòu)建郵件免疫機(jī)能[N];中國計(jì)算機(jī)報(bào);2007年
7 ;垃圾郵件不再是安全難題[N];網(wǎng)絡(luò)世界;2006年
8 ;垃圾郵件傳播追隨“熱點(diǎn)”[N];網(wǎng)絡(luò)世界;2007年
9 劉向晨;垃圾郵件防治任重道遠(yuǎn)[N];中國電腦教育報(bào);2003年
10 小新;郵箱也能自動過濾垃圾郵件[N];中國電腦教育報(bào);2003年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前6條
1 陳彬;垃圾郵件的特征選擇及檢測方法研究[D];華南理工大學(xué);2010年
2 劉震;垃圾郵件過濾理論和關(guān)鍵技術(shù)研究[D];電子科技大學(xué);2008年
3 王友衛(wèi);基于統(tǒng)計(jì)的垃圾郵件識別關(guān)鍵技術(shù)研究[D];吉林大學(xué);2015年
4 劉衛(wèi)紅;垃圾郵件檢測與過濾關(guān)鍵技術(shù)研究[D];華南理工大學(xué);2010年
5 詹川;反垃圾郵件技術(shù)的研究[D];電子科技大學(xué);2005年
6 王會珍;文本內(nèi)容分類和主題追蹤關(guān)鍵技術(shù)研究[D];東北大學(xué);2008年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 朱凱健;基于向量空間模型的垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];內(nèi)蒙古大學(xué);2015年
2 卓小伍;基于改進(jìn)度量尺度和閾值確定方法的馬田系統(tǒng)及其在郵件過濾中的應(yīng)用[D];南京理工大學(xué);2015年
3 周文彬;基于鏈接挖掘的郵件網(wǎng)絡(luò)中心性研究[D];北京化工大學(xué);2015年
4 項(xiàng)學(xué)濤;基于賦權(quán)有向圖的郵件網(wǎng)絡(luò)親緣關(guān)系研究與實(shí)現(xiàn)[D];國際關(guān)系學(xué)院;2015年
5 王旭;基于用戶關(guān)系行為的垃圾郵件判別機(jī)制的研究與實(shí)現(xiàn)[D];東北大學(xué);2014年
6 陳海華;圖像垃圾郵件攔截系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D];蘇州大學(xué);2016年
7 張遠(yuǎn);加權(quán)貝葉斯郵件過濾方法研究[D];哈爾濱工業(yè)大學(xué);2016年
8 宋洪正;基于用戶行為關(guān)系和內(nèi)容的郵件分類算法的研究與實(shí)現(xiàn)[D];電子科技大學(xué);2016年
9 趙雪梅;校園網(wǎng)環(huán)境下行為模式識別垃圾郵件技術(shù)研究[D];安徽理工大學(xué);2008年
10 王巖;基于內(nèi)容的郵件過濾技術(shù)研究[D];北方工業(yè)大學(xué);2010年
本文編號:978833
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/978833.html