基于聚類思想的快速訓(xùn)練不平衡郵件集的方法
發(fā)布時間:2023-04-20 05:13
隨著互聯(lián)網(wǎng)中垃圾郵件的快速蔓延,垃圾郵件過濾的研究越來越受到學(xué)者關(guān)注。在研究中,較為常見的思路是通過文本挖掘技術(shù)進(jìn)行垃圾郵件的識別,該思路將郵件過濾問題看做是一個區(qū)分正常郵件和垃圾郵件的二分類問題,它通過對已標(biāo)記類別的郵件樣本集合的訓(xùn)練學(xué)習(xí),得到一個可識別未知樣本類別的分類器,并用該分類器對正常郵件和垃圾郵件進(jìn)行區(qū)分。然而,在現(xiàn)實應(yīng)用中,由于垃圾郵件不斷涌現(xiàn),訓(xùn)練集在隨之持續(xù)更新的同時,其規(guī)模也持續(xù)擴大。大規(guī)模樣本的頻繁訓(xùn)練需要消耗過多的計算資源,這是垃圾郵件技術(shù)在實際應(yīng)用中無法回避的問題。此外,介于用戶隱私等因素的考慮,正常郵件較垃圾郵件而言,往往更難收集,訓(xùn)練集中樣本比例的不平衡將使得分類器更傾向于判斷一封未知類別的郵件為垃圾郵件,影響垃圾郵件識別的準(zhǔn)確率。因此,針對此問題,本文提出了一種快速訓(xùn)練不平衡郵件集的方法,該方法在通過聚類方法對樣本集合進(jìn)行壓縮和平衡處理后,再使用支持向量機進(jìn)行訓(xùn)練和預(yù)測。其核心思想是為正常郵件和垃圾郵件設(shè)置不同的閩值進(jìn)行樣本壓縮。實驗表明,針對大量不平衡郵件訓(xùn)練集,該方法在縮短訓(xùn)練時間、提高預(yù)測的準(zhǔn)確率方面,具有一定的有效性。
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
第一章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文結(jié)構(gòu)
第二章 文本挖掘理論
2.1 文本表示
2.1.1 向量空間模型
2.1.2 語言模型
2.1.3 后綴樹模型
2.2 文本特征
2.2.1 特征表示
2.2.2 特征選擇
2.2.3 特征提取
2.3 文本分類
2.3.1 支持向量機算法
2.3.2 樸素貝葉斯算法
2.3.3 K最近鄰算法
2.4 文本聚類
2.4.1 劃分聚類算法
2.4.2 層次聚類算法
2.4.3 密度聚類算法
第三章 快速訓(xùn)練不平衡郵件集的模型研究
3.1 郵件過濾模型簡介
3.1.1 郵件過濾研究中的現(xiàn)存問題
3.1.2 模型框架介紹
3.2 郵件的量化表示
3.2.1 結(jié)構(gòu)分析和內(nèi)容抽取
3.2.2 特征空間構(gòu)建
3.2.3 特征選擇與提取
3.2.4 相似度計算
3.3 郵件的過濾算法
3.3.1 欠采樣的分析
3.3.2 壓縮及平衡樣本的算法
3.3.3 分類算法
3.3.4 訓(xùn)練集更新思路
第四章 實驗及結(jié)果評價
4.1 實驗環(huán)境及樣本
4.2 實驗內(nèi)容
4.3 實驗評價指標(biāo)
4.4 實驗結(jié)果及分析
第五章 結(jié)論和展望
5.1 本文的結(jié)論
5.2 創(chuàng)新點
5.3 不足之處
參考文獻(xiàn)
致謝
本文編號:3794959
【文章頁數(shù)】:59 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
目錄
第一章 緒論
1.1 研究背景和意義
1.1.1 研究背景
1.1.2 研究意義
1.2 研究現(xiàn)狀
1.3 研究內(nèi)容
1.4 論文結(jié)構(gòu)
第二章 文本挖掘理論
2.1 文本表示
2.1.1 向量空間模型
2.1.2 語言模型
2.1.3 后綴樹模型
2.2 文本特征
2.2.1 特征表示
2.2.2 特征選擇
2.2.3 特征提取
2.3 文本分類
2.3.1 支持向量機算法
2.3.2 樸素貝葉斯算法
2.3.3 K最近鄰算法
2.4 文本聚類
2.4.1 劃分聚類算法
2.4.2 層次聚類算法
2.4.3 密度聚類算法
第三章 快速訓(xùn)練不平衡郵件集的模型研究
3.1 郵件過濾模型簡介
3.1.1 郵件過濾研究中的現(xiàn)存問題
3.1.2 模型框架介紹
3.2 郵件的量化表示
3.2.1 結(jié)構(gòu)分析和內(nèi)容抽取
3.2.2 特征空間構(gòu)建
3.2.3 特征選擇與提取
3.2.4 相似度計算
3.3 郵件的過濾算法
3.3.1 欠采樣的分析
3.3.2 壓縮及平衡樣本的算法
3.3.3 分類算法
3.3.4 訓(xùn)練集更新思路
第四章 實驗及結(jié)果評價
4.1 實驗環(huán)境及樣本
4.2 實驗內(nèi)容
4.3 實驗評價指標(biāo)
4.4 實驗結(jié)果及分析
第五章 結(jié)論和展望
5.1 本文的結(jié)論
5.2 創(chuàng)新點
5.3 不足之處
參考文獻(xiàn)
致謝
本文編號:3794959
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/3794959.html
最近更新
教材專著