基于圖正則化MNMF的中文垃圾郵件過濾
【圖文】:
比例都為1∶2。根據(jù)上述比例,最終用于實驗的訓(xùn)練樣本包含1500封垃圾郵件和750封正常郵件,測試樣本數(shù)目類似。將上述參數(shù)和數(shù)據(jù)用于本組實驗,可以得到測試樣本數(shù)據(jù)由經(jīng)NMF+SVM、GNMF+SVM、MNMF和GMNMF分別降維后的投影情況分布圖(圖1)。從圖1可以看出:對于相同測試樣本,GMNMF算法所構(gòu)建的模型能取得最高的F1。不僅如此,經(jīng)過GMNMF算法特征抽取后的數(shù)據(jù)變得明顯比其他三個的數(shù)據(jù)更容易分類。如此看來,GMNMF算法與其他三種算法相比具有一定的優(yōu)越性。spamhamhyperplane806040200-20(a)MMF+SVM020406080F1=0.86862(b)GNMF+SVM10.80.60.40.200.20.40.60.81spamhamhyperplane20-2-4-6-8-0.500.511.5F1=0.91256spamhamhyperplaneF1=0.94146spamhamhyperplane210-1-2-3-2-101234(c)NNMF(d)GMNMF圖1測試樣本在四種算法的基矩陣下的投影分布情況F1=0.92139A組實驗中僅在維數(shù)k=2進(jìn)行了實驗,,為了驗證在較小的不同維數(shù)k下GMNMF算法所構(gòu)建的垃圾郵件過濾模型同樣能夠取得好的分類效果,進(jìn)行B組實驗。在B組實驗中,維數(shù)k分別取2、10、20、40、60和80,其他的參數(shù)選取和數(shù)據(jù)分配方法與A組中的一樣。不一樣的是本組將CDSCE和trec06c都用于實驗,其中由CDSCE生成的訓(xùn)練樣本有974封垃圾郵件和487封正常郵件,測試樣本數(shù)目類似;由trec06c生成的樣本數(shù)目類似于A組實驗。將上述得到的兩組樣本分別用于訓(xùn)練和測試,可以得到NMF+SVM、GNMF+SVM、MNMF和GM-NMF在不同維數(shù)下的測試分類效果如圖2所示。從圖2可以看出:對于每個數(shù)據(jù)集,隨著維數(shù)k逐漸增大,四種算法的F1都大致呈現(xiàn)出逐漸增大的趨勢,而且增幅總體上都逐漸減小;當(dāng)k=10時,各種算法都已經(jīng)獲得了較高的F1。不?
比例都為1∶2。根據(jù)上述比例,最終用于實驗的訓(xùn)練樣本包含1500封垃圾郵件和750封正常郵件,測試樣本數(shù)目類似。將上述參數(shù)和數(shù)據(jù)用于本組實驗,可以得到測試樣本數(shù)據(jù)由經(jīng)NMF+SVM、GNMF+SVM、MNMF和GMNMF分別降維后的投影情況分布圖(圖1)。從圖1可以看出:對于相同測試樣本,GMNMF算法所構(gòu)建的模型能取得最高的F1。不僅如此,經(jīng)過GMNMF算法特征抽取后的數(shù)據(jù)變得明顯比其他三個的數(shù)據(jù)更容易分類。如此看來,GMNMF算法與其他三種算法相比具有一定的優(yōu)越性。spamhamhyperplane806040200-20(a)MMF+SVM020406080F1=0.86862(b)GNMF+SVM10.80.60.40.200.20.40.60.81spamhamhyperplane20-2-4-6-8-0.500.511.5F1=0.91256spamhamhyperplaneF1=0.94146spamhamhyperplane210-1-2-3-2-101234(c)NNMF(d)GMNMF圖1測試樣本在四種算法的基矩陣下的投影分布情況F1=0.92139A組實驗中僅在維數(shù)k=2進(jìn)行了實驗,為了驗證在較小的不同維數(shù)k下GMNMF算法所構(gòu)建的垃圾郵件過濾模型同樣能夠取得好的分類效果,進(jìn)行B組實驗。在B組實驗中,維數(shù)k分別取2、10、20、40、60和80,其他的參數(shù)選取和數(shù)據(jù)分配方法與A組中的一樣。不一樣的是本組將CDSCE和trec06c都用于實驗,其中由CDSCE生成的訓(xùn)練樣本有974封垃圾郵件和487封正常郵件,測試樣本數(shù)目類似;由trec06c生成的樣本數(shù)目類似于A組實驗。將上述得到的兩組樣本分別用于訓(xùn)練和測試,可以得到NMF+SVM、GNMF+SVM、MNMF和GM-NMF在不同維數(shù)下的測試分類效果如圖2所示。從圖2可以看出:對于每個數(shù)據(jù)集,隨著維數(shù)k逐漸增大,四種算法的F1都大致呈現(xiàn)出逐漸增大的趨勢,而且增幅總體上都逐漸減小;當(dāng)k=10時,各種算法都已經(jīng)獲得了較高的F1。不?
【共引文獻(xiàn)】
相關(guān)期刊論文 前2條
1 ;A new method of mesh simplification for 3-Dimension terrain using Laplace operator[J];Computer Aided Drafting,Design and Manufacturing;2012年01期
2 陳孝禮;劉培玉;;應(yīng)用于垃圾郵件過濾的詞序列核[J];計算機(jī)應(yīng)用;2011年03期
相關(guān)碩士學(xué)位論文 前3條
1 陳孝禮;基于改進(jìn)SVM的垃圾郵件過濾系統(tǒng)研究與實現(xiàn)[D];山東師范大學(xué);2011年
2 孫吉譚;基于內(nèi)容的垃圾郵件意圖分析方法研究[D];吉林大學(xué);2011年
3 王慕妮;基于組合及統(tǒng)計的圖像型垃圾郵件檢測研究[D];南京郵電大學(xué);2012年
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 郭煒強;戴天;文貴華;;基于領(lǐng)域知識的專利自動分類[J];計算機(jī)工程;2005年23期
2 馬輝民;李衛(wèi)華;吳良元;;VSM在中文文本聚類中的應(yīng)用及實證分析[J];武漢理工大學(xué)學(xué)報(信息與管理工程版);2006年04期
3 張娜;張化祥;;基于超鏈接和內(nèi)容相關(guān)度的檢索算法[J];計算機(jī)應(yīng)用;2006年05期
4 楊麗華;戴齊;郭艷軍;;KNN文本分類算法研究[J];微計算機(jī)信息;2006年21期
5 田正軍;張鴻彥;;基于自動分類的郵件過濾系統(tǒng)[J];河南科學(xué);2007年02期
6 周文霞;;現(xiàn)代文本分類技術(shù)研究[J];武警學(xué)院學(xué)報;2007年12期
7 朱宗乾;姬浩;楊冬民;;基于網(wǎng)絡(luò)的ERP實施風(fēng)險評價信息挖掘模型[J];計算機(jī)工程;2008年07期
8 曹建芳;王鴻斌;;基于SVM的漢語動詞短語分類算法研究[J];河北北方學(xué)院學(xué)報(自然科學(xué)版);2008年02期
9 徐文海;溫有奎;;一種基于TFIDF方法的中文關(guān)鍵詞抽取算法[J];情報理論與實踐;2008年02期
10 卓佳;張俊坤;李暢;;使用向量空間模型進(jìn)行信息檢索的實現(xiàn)[J];華南金融電腦;2008年10期
相關(guān)會議論文 前10條
1 王桐;劉大昕;田迪;孫偉;張萬松;;一種改進(jìn)的XML向量空間模型及其近似匹配算法[A];第二十三屆中國數(shù)據(jù)庫學(xué)術(shù)會議論文集(研究報告篇)[C];2006年
2 高勇;荀恩東;宋柔;;構(gòu)造自然語言問答系統(tǒng)平臺[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
3 喻飛;夏曉燕;吳蓉暉;徐成;;基于向量空間模型的信息安全審計系統(tǒng)[A];第二十六屆中國控制會議論文集[C];2007年
4 陳浩;何婷婷;代玲;;基于向量空間模型的無導(dǎo)詞義消歧[A];第二屆全國學(xué)生計算語言學(xué)研討會論文集[C];2004年
5 黃萱菁;夏迎炬;吳立德;;基于向量空間模型的文本過濾系統(tǒng)[A];輝煌二十年——中國中文信息學(xué)會二十周年學(xué)術(shù)會議論文集[C];2001年
6 蘇貴洋;王永成;馬穎華;;信息自動獲取的結(jié)構(gòu)模型[A];第一屆學(xué)生計算語言學(xué)研討會論文集[C];2002年
7 原福永;楊治秋;王海霞;;一種基于向量空間模型的文檔聚類算法研究[A];第十二屆全國信號處理學(xué)術(shù)年會(CCSP-2005)論文集[C];2005年
8 林游龍;余智華;程學(xué)旗;劉悅;;虛點:一種減少特征值鴻溝的方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
9 廖祝華;劉建勛;易愛平;;基于用戶興趣的Web服務(wù)發(fā)現(xiàn)[A];2006年全國開放式分布與并行計算機(jī)學(xué)術(shù)會議論文集(三)[C];2006年
10 曹晶;孫鐵利;楊柳;;基于概念向量空間模型的信息檢索方法[A];2006年全國理論計算機(jī)科學(xué)學(xué)術(shù)年會論文集[C];2006年
相關(guān)重要報紙文章 前2條
1 清華大學(xué)計算機(jī)系智能技術(shù)與系統(tǒng)國家重點實驗室 張敏 金奕江;尋“寶”有術(shù)[N];計算機(jī)世界;2003年
2 中國科學(xué)院計算技術(shù)研究所 王 斌;內(nèi)容為王[N];計算機(jī)世界;2004年
相關(guān)博士學(xué)位論文 前10條
1 孫道軍;文本挖掘預(yù)處理相關(guān)基礎(chǔ)技術(shù)分析與應(yīng)用研究[D];北京郵電大學(xué);2008年
2 邢軍;領(lǐng)域本體構(gòu)造中數(shù)據(jù)源選取及構(gòu)造方法的研究[D];大連理工大學(xué);2008年
3 夏迎炬;文本過濾關(guān)鍵技術(shù)研究[D];復(fù)旦大學(xué);2003年
4 杜衛(wèi)鋒;粗糙集理論在中文文本分類中的應(yīng)用[D];西南交通大學(xué);2006年
5 馬暉男;信息檢索中淺層語義模型的研究[D];大連理工大學(xué);2007年
6 李春光;流形學(xué)習(xí)及其在模式識別中的應(yīng)用[D];北京郵電大學(xué);2008年
7 徐婕;基于對等網(wǎng)絡(luò)的資源搜索策略的研究[D];華中科技大學(xué);2007年
8 于瑞國;維數(shù)約減算法研究及其在大規(guī)模文本數(shù)據(jù)挖掘中的應(yīng)用[D];天津大學(xué);2008年
9 楊創(chuàng)新;基于機(jī)器學(xué)習(xí)的高性能中文文本分類研究[D];華南理工大學(xué);2009年
10 王修力;基于描述復(fù)雜性的信息檢索理論與若干模型研究[D];北京語言大學(xué);2006年
相關(guān)碩士學(xué)位論文 前10條
1 褚金正;面向特定領(lǐng)域的文本識別和分類[D];湖南大學(xué);2005年
2 張波;個性化Web搜索系統(tǒng)研究[D];燕山大學(xué);2006年
3 郭妍;基于市長公開電話文本為背景的兩種自動分類算法的比較[D];東北師范大學(xué);2006年
4 董梅;文本內(nèi)容的信息過濾技術(shù)研究[D];合肥工業(yè)大學(xué);2006年
5 李洋;企業(yè)注冊登記文件聚類軟件設(shè)計與實現(xiàn)[D];大連理工大學(xué);2007年
6 吳新濤;基于向量空間模型的網(wǎng)頁信息過濾方法研究[D];大連理工大學(xué);2008年
7 趙博;一種基于關(guān)鍵向量的文本分類模型的研究[D];哈爾濱理工大學(xué);2008年
8 趙文鵬;基于自組織特征映射的海洋文獻(xiàn)聚類分析的研究與實現(xiàn)[D];中國海洋大學(xué);2009年
9 趙治軍;OAI-PMH中元數(shù)據(jù)相似度計算的研究與實現(xiàn)[D];太原科技大學(xué);2009年
10 段建勇;現(xiàn)代漢語詞性細(xì)分類標(biāo)注研究[D];山西大學(xué);2004年
本文編號:2562023
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2562023.html