基于BP神經網(wǎng)絡的多重郵件過濾系統(tǒng)的研究與設計
發(fā)布時間:2021-04-25 20:31
隨著互聯(lián)網(wǎng)網(wǎng)絡的高速發(fā)展,人與人之間在信息交流中使用電子郵件的頻率與日俱增,它逐漸成為一個重要的溝通媒介。但是,隨著電子郵件的不斷普及,伴隨而來的是垃圾郵件的泛濫,控制不好甚至會影響了人們的正常工作與生活。目前已有的垃圾郵件過濾仍存在諸多不足,不能很好地將垃圾郵件區(qū)分過濾。針對這項不足,如何更好地加強對垃圾郵件過濾技術的研究便顯得尤為重要。本次研究是要設計一種基于統(tǒng)計的郵件過濾系統(tǒng)模型。模型訓練選用BP神經網(wǎng)絡學習算法。實驗過程對公共PU語料庫進行數(shù)據(jù)預處理和算法訓練得到大量模型,接著進行模型選擇,最終通過模型組合得到垃圾郵件過濾系統(tǒng)主輔多重協(xié)同模型。郵件在該模型的過濾過程中會被分成多股數(shù)據(jù)流進入FC層,并分別在Output層輸出結果,再根據(jù)子模型虛報率(FALLOUT)計算權值得到最終判斷結果。論文預處理過程包括了基于Hadoop的詞頻統(tǒng)計、基于改進TF算法的詞典降維和向量空間模型(VSM)形式矩陣生成。詞頻統(tǒng)計得到總特征詞列表、合法郵件特征詞列表、垃圾郵件特征詞列表和每封郵件特征詞列表。本研究針對數(shù)據(jù)預處理改進了傳統(tǒng)的TF算法,通過詞頻統(tǒng)計對語料庫特征詞集合進行降維,將維度落在20...
【文章來源】:深圳大學廣東省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文研究內容
1.4 本文組織結構
第二章 郵件過濾相關理論及實驗平臺
2.1 郵件過濾原理
2.1.1 服務器端和客戶端的郵件過濾
2.1.2 三種郵件過濾技術原理
2.1.3 特征選擇技術
2.2 基于統(tǒng)計的郵件過濾算法
2.2.1 貝葉斯
2.2.2 K近鄰
2.2.3 支持向量機
2.2.4 BP神經網(wǎng)絡算法
2.3 Hadoop平臺及MapReduce編程模式
2.3.1 Hadoop平臺
2.3.2 MapReduce編程模式
2.4 小結
第三章 數(shù)據(jù)采集、詞典維數(shù)與預處理
3.1 實驗語料庫選擇
3.2 語料庫子集劃分
3.3 基于Hadoop實驗數(shù)據(jù)詞頻統(tǒng)計
3.4 基于改進的TF算法詞典降維
3.4.1 初步降維
3.4.2 詞典降維
3.4.3 生成VSM形式的稀疏矩陣
3.5 數(shù)據(jù)處理實驗
3.5.1 Hadoop的配置
3.5.2 實驗過程
3.5.3 實驗結果
3.6 小結
第四章 基于BP神經網(wǎng)絡郵件過濾研究
4.1 算法訓練及模型選擇
4.1.1 學習率(Learning Rate)選擇
4.1.2 模型仿真及最優(yōu)模型選擇
4.2 實驗最優(yōu)模型與SVM基函數(shù)訓練模型比較
4.3 小結
第五章 多重過濾系統(tǒng)的設計與實現(xiàn)
5.1 多重郵件過濾系統(tǒng)的流程設計
5.2 指標測試結果
5.2.1 重要評價指標
5.2.2 基于AUC的評價指標
5.3 模型運算量評估
5.4 模型內存占用率評估
5.5 小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]DNS服務器淺談[J]. 楊龍. 電腦知識與技術. 2017(21)
[2]Hadoop MapReduce短作業(yè)執(zhí)行性能優(yōu)化[J]. 顧榮,嚴金雙,楊曉亮,袁春風,黃宜華. 計算機研究與發(fā)展. 2014(06)
[3]垃圾郵件優(yōu)化過濾方法的研究與仿真[J]. 邵葉秦. 計算機仿真. 2013(12)
[4]基于鄰接表的進路廣度搜索算法分析[J]. 文冬林. 科技資訊. 2013(34)
[5]文本分類中TF-IDF方法的改進研究[J]. 覃世安,李法運. 現(xiàn)代圖書情報技術. 2013(10)
[6]一種智能垃圾郵件過濾模型的仿真研究[J]. 雷劍剛,孫細斌. 計算機仿真. 2013(05)
[7]VSM信息檢索中的數(shù)據(jù)稀疏問題分析與規(guī)避策略[J]. 梁士金. 圖書情報工作. 2013(01)
[8]Matlab神經網(wǎng)絡工具NNTool的應用與仿真[J]. 唐忠,謝濤. 計算機與現(xiàn)代化. 2012(12)
[9]Hadoop HDFS和MapReduce架構淺析[J]. 郝樹魁. 郵電設計技術. 2012(07)
[10]基于AUC的分類器評價和設計綜述[J]. 汪云云,陳松燦. 模式識別與人工智能. 2011(01)
碩士論文
[1]郵件服務器的設計與實現(xiàn)[D]. 韓穎.吉林大學 2014
[2]ID3算法、樸素貝葉斯算法和BP神經網(wǎng)絡算法的比較和分析研究[D]. 林士杰.內蒙古大學 2013
[3]基于改進SVM的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 陳孝禮.山東師范大學 2011
[4]基于神經網(wǎng)絡集成的垃圾郵件過濾系統(tǒng)設計[D]. 劉寶萍.山西財經大學 2010
[5]Exchange郵件傳輸過程的安全性研究[D]. 金晶.上海交通大學 2009
[6]基于內容的垃圾郵件過濾技術研究[D]. 楊麗華.西南交通大學 2006
[7]基于支持向量機理論的垃圾郵件過濾模型[D]. 張羽.電子科技大學 2006
[8]基于內容的垃圾郵件過濾研究[D]. 潘文鋒.中國科學院研究生院(計算技術研究所) 2004
本文編號:3160048
【文章來源】:深圳大學廣東省
【文章頁數(shù)】:64 頁
【學位級別】:碩士
【文章目錄】:
摘要
Abstract
第一章 緒論
1.1 研究背景及意義
1.2 國內外研究現(xiàn)狀
1.3 本文研究內容
1.4 本文組織結構
第二章 郵件過濾相關理論及實驗平臺
2.1 郵件過濾原理
2.1.1 服務器端和客戶端的郵件過濾
2.1.2 三種郵件過濾技術原理
2.1.3 特征選擇技術
2.2 基于統(tǒng)計的郵件過濾算法
2.2.1 貝葉斯
2.2.2 K近鄰
2.2.3 支持向量機
2.2.4 BP神經網(wǎng)絡算法
2.3 Hadoop平臺及MapReduce編程模式
2.3.1 Hadoop平臺
2.3.2 MapReduce編程模式
2.4 小結
第三章 數(shù)據(jù)采集、詞典維數(shù)與預處理
3.1 實驗語料庫選擇
3.2 語料庫子集劃分
3.3 基于Hadoop實驗數(shù)據(jù)詞頻統(tǒng)計
3.4 基于改進的TF算法詞典降維
3.4.1 初步降維
3.4.2 詞典降維
3.4.3 生成VSM形式的稀疏矩陣
3.5 數(shù)據(jù)處理實驗
3.5.1 Hadoop的配置
3.5.2 實驗過程
3.5.3 實驗結果
3.6 小結
第四章 基于BP神經網(wǎng)絡郵件過濾研究
4.1 算法訓練及模型選擇
4.1.1 學習率(Learning Rate)選擇
4.1.2 模型仿真及最優(yōu)模型選擇
4.2 實驗最優(yōu)模型與SVM基函數(shù)訓練模型比較
4.3 小結
第五章 多重過濾系統(tǒng)的設計與實現(xiàn)
5.1 多重郵件過濾系統(tǒng)的流程設計
5.2 指標測試結果
5.2.1 重要評價指標
5.2.2 基于AUC的評價指標
5.3 模型運算量評估
5.4 模型內存占用率評估
5.5 小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
【參考文獻】:
期刊論文
[1]DNS服務器淺談[J]. 楊龍. 電腦知識與技術. 2017(21)
[2]Hadoop MapReduce短作業(yè)執(zhí)行性能優(yōu)化[J]. 顧榮,嚴金雙,楊曉亮,袁春風,黃宜華. 計算機研究與發(fā)展. 2014(06)
[3]垃圾郵件優(yōu)化過濾方法的研究與仿真[J]. 邵葉秦. 計算機仿真. 2013(12)
[4]基于鄰接表的進路廣度搜索算法分析[J]. 文冬林. 科技資訊. 2013(34)
[5]文本分類中TF-IDF方法的改進研究[J]. 覃世安,李法運. 現(xiàn)代圖書情報技術. 2013(10)
[6]一種智能垃圾郵件過濾模型的仿真研究[J]. 雷劍剛,孫細斌. 計算機仿真. 2013(05)
[7]VSM信息檢索中的數(shù)據(jù)稀疏問題分析與規(guī)避策略[J]. 梁士金. 圖書情報工作. 2013(01)
[8]Matlab神經網(wǎng)絡工具NNTool的應用與仿真[J]. 唐忠,謝濤. 計算機與現(xiàn)代化. 2012(12)
[9]Hadoop HDFS和MapReduce架構淺析[J]. 郝樹魁. 郵電設計技術. 2012(07)
[10]基于AUC的分類器評價和設計綜述[J]. 汪云云,陳松燦. 模式識別與人工智能. 2011(01)
碩士論文
[1]郵件服務器的設計與實現(xiàn)[D]. 韓穎.吉林大學 2014
[2]ID3算法、樸素貝葉斯算法和BP神經網(wǎng)絡算法的比較和分析研究[D]. 林士杰.內蒙古大學 2013
[3]基于改進SVM的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D]. 陳孝禮.山東師范大學 2011
[4]基于神經網(wǎng)絡集成的垃圾郵件過濾系統(tǒng)設計[D]. 劉寶萍.山西財經大學 2010
[5]Exchange郵件傳輸過程的安全性研究[D]. 金晶.上海交通大學 2009
[6]基于內容的垃圾郵件過濾技術研究[D]. 楊麗華.西南交通大學 2006
[7]基于支持向量機理論的垃圾郵件過濾模型[D]. 張羽.電子科技大學 2006
[8]基于內容的垃圾郵件過濾研究[D]. 潘文鋒.中國科學院研究生院(計算技術研究所) 2004
本文編號:3160048
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3160048.html
最近更新
教材專著