天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

圖像型垃圾郵件過(guò)濾系統(tǒng)的研究

發(fā)布時(shí)間:2017-04-15 21:37

  本文關(guān)鍵詞:圖像型垃圾郵件過(guò)濾系統(tǒng)的研究,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展和電子郵件應(yīng)用的普及,垃圾郵件制造者常利用圖像型垃圾郵件發(fā)送廣告、色情、欺詐信息及反動(dòng)思想等不良內(nèi)容牟取利益。同文本型垃圾郵件相比,,圖像型垃圾郵件更難以檢測(cè),同時(shí)占用更多的網(wǎng)絡(luò)資源,甚至?xí)o社會(huì)安全埋下隱患。現(xiàn)有的圖像型垃圾郵件過(guò)濾系統(tǒng)不盡人意,所以仍有必要開(kāi)展圖像型垃圾郵件過(guò)濾技術(shù)的研究。 本文研究并設(shè)計(jì)了一個(gè)級(jí)聯(lián)型郵件過(guò)濾系統(tǒng),降低了圖像型郵件錯(cuò)誤分類的可能性。圖像型垃圾郵件過(guò)濾技術(shù)主要包括郵件圖像的特征提取和分類識(shí)別兩大部分,因此分別從這兩方面介紹本文所設(shè)計(jì)的多層郵件過(guò)濾系統(tǒng)。 (1)第一層粗分類:利用圖像的底層特征,并結(jié)合支持向量機(jī)(SVM)實(shí)現(xiàn)粗分類得到第一層過(guò)濾系統(tǒng),使大多數(shù)正常郵件圖像被識(shí)別出來(lái)。在此過(guò)濾系統(tǒng)中,分別對(duì)比了顏色特征、梯度特征、LBP特征后,并提出新的融合特征即梯度—LBP的融合特征,利用SVM分類器此特征可以得到更高的準(zhǔn)確率。 (2)第二層精分類:選擇更加精細(xì)的圖像特征,基于SIFT特征和GIST特征構(gòu)造詞袋模型(Bags of words),引入并改進(jìn)局部敏感哈希算法(LSH),實(shí)現(xiàn)精分類得到第二層過(guò)濾系統(tǒng)。在此過(guò)濾系統(tǒng)中,比較了LSH算法改進(jìn)前后的計(jì)算復(fù)雜度和分類準(zhǔn)確率。并提出一種新的文本定位方法,能夠很好的定位到垃圾郵件圖像中的文本區(qū)域。該方法結(jié)合Adaboost算法利用表示形式簡(jiǎn)單和計(jì)算速度快的haar特征實(shí)現(xiàn)。 (3)第三層進(jìn)一步分類:利用文字識(shí)別軟件(OCR)提取垃圾郵件圖像中的文本信息,并與敏感詞庫(kù)進(jìn)行比對(duì),實(shí)現(xiàn)最后一步分類得到第三層過(guò)濾系統(tǒng)。 在MATLAB和VS2008的混合編程環(huán)境下,使用標(biāo)準(zhǔn)圖像庫(kù)Spam Archive和作者利用互聯(lián)網(wǎng)和電子郵箱搜集的垃圾圖像以及人工構(gòu)造的垃圾圖像進(jìn)行訓(xùn)練和測(cè)試,并分析了每層過(guò)濾系統(tǒng)的性能,結(jié)果表明級(jí)聯(lián)過(guò)濾系統(tǒng)獲得了較高的準(zhǔn)確率。
【關(guān)鍵詞】:垃圾郵件 特征提取 支持向量機(jī) 局部敏感哈希算法 級(jí)聯(lián)分類器
【學(xué)位授予單位】:遼寧工業(yè)大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.41;TP393.098
【目錄】:
  • 摘要5-6
  • Abstract6-9
  • 1 緒論9-15
  • 1.1 論文的研究背景與選題意義9-11
  • 1.2 國(guó)內(nèi)外研究現(xiàn)狀11-13
  • 1.3 論文的主要內(nèi)容及結(jié)構(gòu)安排13-15
  • 2 圖像型垃圾郵件過(guò)濾概述15-22
  • 2.1 圖像型垃圾郵件的定義15-16
  • 2.2 圖像型垃圾郵件的種類16-17
  • 2.3 圖像型垃圾郵件的特征17-18
  • 2.4 現(xiàn)有圖像型垃圾郵件過(guò)濾方法18-19
  • 2.5 圖像型垃圾郵件數(shù)據(jù)庫(kù)19-21
  • 2.6 本章小結(jié)21-22
  • 3 圖像型垃圾郵件的特征提取22-38
  • 3.1 基于圖像底層的特征提取22-26
  • 3.1.1 顏色特征22-23
  • 3.1.2 梯度特征23-24
  • 3.1.3 LBP 特征24-26
  • 3.1.4 融合特征26
  • 3.2 構(gòu)造基于 SIFT 的詞袋模型26-32
  • 3.2.1 SIFT 特征26-31
  • 3.2.2 詞袋模型31-32
  • 3.3 GIST 特征32-34
  • 3.3.1 Gabor 小波概述32-33
  • 3.3.2 GIST 特征提取33-34
  • 3.4 文本區(qū)域定位與特征提取34-37
  • 3.4.1 現(xiàn)有文本區(qū)域定位方法34-35
  • 3.4.2 本文文本區(qū)域定位方法35-37
  • 3.5 本章小結(jié)37-38
  • 4 圖像型垃圾郵件的分類38-48
  • 4.1 SVM 算法38-41
  • 4.2 最近鄰算法41
  • 4.3 相似性檢索算法41-44
  • 4.3.1 LSH 算法41-43
  • 4.3.2 改進(jìn)的 LSH 算法43-44
  • 4.4 Adaboost 算法44-47
  • 4.4.1 弱分類器的訓(xùn)練過(guò)程45-46
  • 4.4.2 強(qiáng)分類器的訓(xùn)練過(guò)程46-47
  • 4.4.3 級(jí)聯(lián)分類器的訓(xùn)練過(guò)程47
  • 4.5 本章小結(jié)47-48
  • 5 多層垃圾郵件過(guò)濾系統(tǒng)總體設(shè)計(jì)48-59
  • 5.1 系統(tǒng)總體設(shè)計(jì)框圖48-49
  • 5.2 第一層過(guò)濾系統(tǒng)49-52
  • 5.2.1 第一層過(guò)濾系統(tǒng)框架49
  • 5.2.2 第一層過(guò)濾系統(tǒng)的實(shí)驗(yàn)結(jié)果與性能分析49-52
  • 5.3 第二層過(guò)濾系統(tǒng)52-55
  • 5.3.1 第二層過(guò)濾系統(tǒng)框架52-53
  • 5.3.2 第二層過(guò)濾系統(tǒng)的實(shí)驗(yàn)結(jié)果與性能分析53-55
  • 5.4 第三層過(guò)濾系統(tǒng)55-57
  • 5.4.1 第三層過(guò)濾系統(tǒng)框架55-56
  • 5.4.2 第三層過(guò)濾系統(tǒng)的實(shí)驗(yàn)結(jié)果與性能分析56-57
  • 5.5 文本區(qū)域定位的實(shí)驗(yàn)結(jié)果57-58
  • 5.6 本章小結(jié)58-59
  • 6 總結(jié)與展望59-61
  • 6.1 總結(jié)59
  • 6.2 展望59-61
  • 參考文獻(xiàn)61-64
  • 攻讀碩士期間發(fā)表學(xué)術(shù)論文情況64-65
  • 致謝65

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前10條

1 劉曉e

本文編號(hào):309317


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/wenyilunwen/guanggaoshejilunwen/309317.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶e9e6f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com