基于深度學(xué)習(xí)的垃圾郵件文本分類方法
發(fā)布時(shí)間:2021-01-20 18:05
隨著電子郵件的廣泛應(yīng)用,郵件成為了商業(yè)廣告、惡意軟件和非法文件的傳播載體,人們平均接受的垃圾郵件數(shù)量遠(yuǎn)遠(yuǎn)超于正常郵件數(shù)量,嚴(yán)重影響著人們的生活和網(wǎng)絡(luò)安全,如何能夠精確的將垃圾郵件過(guò)濾出來(lái)成為了急需解決的問(wèn)題。目前常用的垃圾郵件過(guò)濾方法一般包括基于郵件來(lái)源的識(shí)別技術(shù)和基于內(nèi)容的識(shí)別技術(shù)兩種類型,例如白名單與黑名單機(jī)制、關(guān)鍵詞匹配和樸素貝葉斯模型文本識(shí)別。電子郵件的數(shù)量與樣式在不斷的增多,垃圾郵件的特征關(guān)鍵詞也在發(fā)生巨大的變化,所以基于規(guī)則的識(shí)別方式要不間斷的進(jìn)行郵件特征規(guī)則庫(kù)的更新,這將需要耗費(fèi)大量的人力。基于內(nèi)容的方法已經(jīng)初具成效,但是傳統(tǒng)的樸素貝葉斯模型識(shí)別垃圾郵件,在文本分類上性能已落后于深度學(xué)習(xí)模型,為此本文基于深度學(xué)習(xí)模型研究垃圾郵件分類。本畢業(yè)論文從電子郵件文本內(nèi)容入手,使用深度學(xué)習(xí)文本分類算法,建立了一個(gè)垃圾郵件識(shí)別模型。具體研究工作及貢獻(xiàn)包括:(1)提出了基于卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型(Conv-BiGRU Model),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的局部特征提取優(yōu)勢(shì)和循環(huán)神經(jīng)網(wǎng)絡(luò)的上下文學(xué)習(xí)優(yōu)勢(shì),有效提高了垃圾郵件文本分類的正確率;(2)結(jié)合深度學(xué)習(xí)模型改進(jìn)了Stac...
【文章來(lái)源】:中北大學(xué)山西省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
決策樹示例
圖 2.2 支持向量機(jī)示意圖空間中,分類超平面的表示公式如下:0T x b= (式間中某個(gè)點(diǎn) x 到分類超平面( ,b)的距離計(jì)算公式為:| |r|| ||T x b = (式類超平面正確區(qū)分了樣本類別,由式 2.9 對(duì) 縮放得出如下公式:1, 11, 1Ti iTi ix b yx b y = = (式式 2.10 成立的距離分類超平面最近的樣本稱作“支持向量”。兩個(gè)不
圖 2.3 FastText 模型結(jié)構(gòu)中輸入是句子的 N-gram 特征1 2, ,...,Nx x x 。于多分類問(wèn)題,因?yàn)楹芏辔谋痉诸悊?wèn)題的類別會(huì)特別多,傳統(tǒng)的 Softmax 計(jì)算隨著類別的增多上升非?,于是 FastText 利用了一種層次分類器將多種類別形結(jié)構(gòu)里面,這樣加快了計(jì)算速度,這種層次分類器就是層次 Softmax。層ax 的優(yōu)點(diǎn)是在于對(duì)類別標(biāo)簽進(jìn)行了哈夫曼編碼,計(jì)算輸出目標(biāo)的數(shù)量大量減少astText 另一個(gè)特點(diǎn)是采用了 N-gram 特征[47],輸入特征加入了局部詞組特征。 找 他”這個(gè)樣本中分詞后的輸入是“我”“找”“他”,“他 找 我”這個(gè)詞后的輸入是“他”“找”“我”,這兩個(gè)樣本分詞后的特征詞是一樣的,無(wú)區(qū)分出兩句話的含義。假設(shè)加入 N-gram 特征,這里 N 取 2,則得到第一個(gè)樣gram 特征為“我找”,“找他”,第二個(gè)樣本 N-gram 特征為“他找”,“找我”明顯能區(qū)分兩個(gè)樣本的語(yǔ)義。此 FastText 的核心思想就是:將輸入的詞序列及 N-gram 特征詞序列經(jīng)過(guò)隱藏
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量特征的文本分類模型研究[J]. 張敬誼,張亞紅,李靜. 信息技術(shù)與標(biāo)準(zhǔn)化. 2017(05)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計(jì)算機(jī)與現(xiàn)代化. 2017(04)
[3]深度學(xué)習(xí)的發(fā)展與應(yīng)用[J]. 邱曉康. 科技展望. 2016(33)
[4]基于規(guī)則的垃圾郵件過(guò)濾算法比較研究[J]. 湯金波,孫力. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2016(06)
[5]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[6]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[7]泛化誤差的各種交叉驗(yàn)證估計(jì)方法綜述[J]. 楊柳,王鈺. 計(jì)算機(jī)應(yīng)用研究. 2015(05)
[8]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(02)
[9]基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學(xué)報(bào). 2014(06)
[10]垃圾郵件分類技術(shù)對(duì)比研究[J]. 趙曉丹,徐燕. 信息網(wǎng)絡(luò)安全. 2014(02)
博士論文
[1]垃圾郵件過(guò)濾理論和關(guān)鍵技術(shù)研究[D]. 劉震.電子科技大學(xué) 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[2]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的句子分類算法[D]. 林榮華.浙江大學(xué) 2015
[4]模型選擇中的交叉驗(yàn)證方法綜述[D]. 范永東.山西大學(xué) 2013
[5]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞改進(jìn)及其在面向應(yīng)用分詞中的應(yīng)用[D]. 巫黃旭.浙江大學(xué) 2012
[6]基于理解的漢語(yǔ)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[7]基于貝葉斯分類的垃圾郵件過(guò)濾系統(tǒng)研究與實(shí)現(xiàn)[D]. 林偉.西華大學(xué) 2009
[8]基于邏輯回歸模型的垃圾郵件過(guò)濾系統(tǒng)的研究[D]. 安波.哈爾濱工程大學(xué) 2009
[9]基于貝葉斯分類算法的中文垃圾郵件過(guò)濾技術(shù)的研究[D]. 李書全.合肥工業(yè)大學(xué) 2008
[10]基于內(nèi)容挖掘的中文垃圾郵件過(guò)濾技術(shù)研究與實(shí)現(xiàn)[D]. 許建明.湖南大學(xué) 2008
本文編號(hào):2989516
【文章來(lái)源】:中北大學(xué)山西省
【文章頁(yè)數(shù)】:73 頁(yè)
【學(xué)位級(jí)別】:碩士
【部分圖文】:
決策樹示例
圖 2.2 支持向量機(jī)示意圖空間中,分類超平面的表示公式如下:0T x b= (式間中某個(gè)點(diǎn) x 到分類超平面( ,b)的距離計(jì)算公式為:| |r|| ||T x b = (式類超平面正確區(qū)分了樣本類別,由式 2.9 對(duì) 縮放得出如下公式:1, 11, 1Ti iTi ix b yx b y = = (式式 2.10 成立的距離分類超平面最近的樣本稱作“支持向量”。兩個(gè)不
圖 2.3 FastText 模型結(jié)構(gòu)中輸入是句子的 N-gram 特征1 2, ,...,Nx x x 。于多分類問(wèn)題,因?yàn)楹芏辔谋痉诸悊?wèn)題的類別會(huì)特別多,傳統(tǒng)的 Softmax 計(jì)算隨著類別的增多上升非?,于是 FastText 利用了一種層次分類器將多種類別形結(jié)構(gòu)里面,這樣加快了計(jì)算速度,這種層次分類器就是層次 Softmax。層ax 的優(yōu)點(diǎn)是在于對(duì)類別標(biāo)簽進(jìn)行了哈夫曼編碼,計(jì)算輸出目標(biāo)的數(shù)量大量減少astText 另一個(gè)特點(diǎn)是采用了 N-gram 特征[47],輸入特征加入了局部詞組特征。 找 他”這個(gè)樣本中分詞后的輸入是“我”“找”“他”,“他 找 我”這個(gè)詞后的輸入是“他”“找”“我”,這兩個(gè)樣本分詞后的特征詞是一樣的,無(wú)區(qū)分出兩句話的含義。假設(shè)加入 N-gram 特征,這里 N 取 2,則得到第一個(gè)樣gram 特征為“我找”,“找他”,第二個(gè)樣本 N-gram 特征為“他找”,“找我”明顯能區(qū)分兩個(gè)樣本的語(yǔ)義。此 FastText 的核心思想就是:將輸入的詞序列及 N-gram 特征詞序列經(jīng)過(guò)隱藏
【參考文獻(xiàn)】:
期刊論文
[1]基于詞向量特征的文本分類模型研究[J]. 張敬誼,張亞紅,李靜. 信息技術(shù)與標(biāo)準(zhǔn)化. 2017(05)
[2]基于卷積神經(jīng)網(wǎng)絡(luò)的互聯(lián)網(wǎng)短文本分類方法[J]. 郭東亮,劉小明,鄭秋生. 計(jì)算機(jī)與現(xiàn)代化. 2017(04)
[3]深度學(xué)習(xí)的發(fā)展與應(yīng)用[J]. 邱曉康. 科技展望. 2016(33)
[4]基于規(guī)則的垃圾郵件過(guò)濾算法比較研究[J]. 湯金波,孫力. 網(wǎng)絡(luò)安全技術(shù)與應(yīng)用. 2016(06)
[5]基于字符串匹配的中文分詞算法的研究[J]. 常建秋,沈煒. 工業(yè)控制計(jì)算機(jī). 2016(02)
[6]中文分詞模型的領(lǐng)域適應(yīng)性方法[J]. 韓冬煦,常寶寶. 計(jì)算機(jī)學(xué)報(bào). 2015(02)
[7]泛化誤差的各種交叉驗(yàn)證估計(jì)方法綜述[J]. 楊柳,王鈺. 計(jì)算機(jī)應(yīng)用研究. 2015(05)
[8]中文分詞與詞性標(biāo)注研究[J]. 梁喜濤,顧磊. 計(jì)算機(jī)技術(shù)與發(fā)展. 2015(02)
[9]基于字符的中文分詞、詞性標(biāo)注和依存句法分析聯(lián)合模型[J]. 郭振,張玉潔,蘇晨,徐金安. 中文信息學(xué)報(bào). 2014(06)
[10]垃圾郵件分類技術(shù)對(duì)比研究[J]. 趙曉丹,徐燕. 信息網(wǎng)絡(luò)安全. 2014(02)
博士論文
[1]垃圾郵件過(guò)濾理論和關(guān)鍵技術(shù)研究[D]. 劉震.電子科技大學(xué) 2008
碩士論文
[1]基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 龔千健.華中科技大學(xué) 2016
[2]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D]. 王威.東北大學(xué) 2015
[3]基于卷積神經(jīng)網(wǎng)絡(luò)的句子分類算法[D]. 林榮華.浙江大學(xué) 2015
[4]模型選擇中的交叉驗(yàn)證方法綜述[D]. 范永東.山西大學(xué) 2013
[5]基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞改進(jìn)及其在面向應(yīng)用分詞中的應(yīng)用[D]. 巫黃旭.浙江大學(xué) 2012
[6]基于理解的漢語(yǔ)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 蘇勇.電子科技大學(xué) 2011
[7]基于貝葉斯分類的垃圾郵件過(guò)濾系統(tǒng)研究與實(shí)現(xiàn)[D]. 林偉.西華大學(xué) 2009
[8]基于邏輯回歸模型的垃圾郵件過(guò)濾系統(tǒng)的研究[D]. 安波.哈爾濱工程大學(xué) 2009
[9]基于貝葉斯分類算法的中文垃圾郵件過(guò)濾技術(shù)的研究[D]. 李書全.合肥工業(yè)大學(xué) 2008
[10]基于內(nèi)容挖掘的中文垃圾郵件過(guò)濾技術(shù)研究與實(shí)現(xiàn)[D]. 許建明.湖南大學(xué) 2008
本文編號(hào):2989516
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2989516.html
最近更新
教材專著