基于擬合特征分布的垃圾網(wǎng)頁(yè)檢測(cè)方法
本文選題:垃圾網(wǎng)頁(yè) + 內(nèi)容特征 ; 參考:《計(jì)算機(jī)工程與設(shè)計(jì)》2013年08期
【摘要】:為了有效地檢測(cè)垃圾網(wǎng)頁(yè),通過(guò)分析網(wǎng)頁(yè)內(nèi)容特征和鏈接特征的分布,發(fā)現(xiàn)正常網(wǎng)頁(yè)特征分布有規(guī)律而垃圾網(wǎng)頁(yè)特征分布散亂,根據(jù)正常網(wǎng)頁(yè)特征分布與垃圾網(wǎng)頁(yè)特征分布的不同,提出了用分布函數(shù)擬合正常網(wǎng)頁(yè)特征分布,并計(jì)算正常網(wǎng)頁(yè)和垃圾網(wǎng)頁(yè)比例與分布函數(shù)的差值,以差值為閾值使用C4.5決策樹(shù)對(duì)垃圾網(wǎng)頁(yè)進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地減少被錯(cuò)誤分類(lèi)的正常網(wǎng)頁(yè),提高準(zhǔn)確率。
[Abstract]:In order to detect garbage pages effectively, by analyzing the distribution of page content features and link features, it is found that the distribution of normal page features is regular and the distribution of garbage page features is scattered. According to the difference between the normal web page feature distribution and the garbage page feature distribution, the distribution function is proposed to fit the normal page feature distribution, and the difference between the normal web page and the garbage page proportion and the distribution function is calculated. Using the C4.5 decision tree as the threshold value, the garbage pages are detected. The experimental results show that the proposed method can effectively reduce the number of normal web pages classified by errors and improve the accuracy.
【作者單位】: 山東師范大學(xué)信息科學(xué)與工程學(xué)院;山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室;
【基金】:國(guó)家自然科學(xué)基金項(xiàng)目(61170145) 教育部高等學(xué)校博士點(diǎn)專(zhuān)項(xiàng)基金項(xiàng)目(20113704110001) 山東省自然科學(xué)基金和科技攻關(guān)計(jì)劃基金項(xiàng)目(ZR2010FM021、2008B0026、2010G0020115)
【分類(lèi)號(hào)】:TP393.092
【相似文獻(xiàn)】
相關(guān)期刊論文 前10條
1 賈志洋;崔博文;王勇剛;石宜金;;搜索引擎垃圾網(wǎng)頁(yè)技術(shù)分析[J];情報(bào)探索;2011年07期
2 段宇峰;網(wǎng)站特征的定量研究(一)——對(duì)大學(xué)網(wǎng)站鏈接特征的探討[J];情報(bào)理論與實(shí)踐;2005年01期
3 歐德寧;馬軍;;基于內(nèi)含鏈接特征分析的垃圾郵件過(guò)濾技術(shù)[J];鄭州大學(xué)學(xué)報(bào)(理學(xué)版);2009年02期
4 蔣濤;張彬;;一種反Web Spam頁(yè)面的方法[J];微型電腦應(yīng)用;2007年04期
5 蔣濤;張彬;;一種反Web Spam頁(yè)面的方法[J];計(jì)算機(jī)與數(shù)字工程;2007年11期
6 張曉宇;吳向前;張平洋;;農(nóng)業(yè)網(wǎng)站中垃圾網(wǎng)頁(yè)過(guò)濾方法的研究[J];網(wǎng)絡(luò)安全技術(shù)與應(yīng)用;2011年01期
7 張付志;石占偉;郭學(xué)敏;;一種抗擊鏈接垃圾頁(yè)面的PageRank改進(jìn)算法[J];信息安全與通信保密;2009年08期
8 沈陽(yáng);;一種網(wǎng)頁(yè)自動(dòng)保存和鏈接推薦方法[J];微計(jì)算機(jī)信息;2007年06期
9 程光;龔儉;丁偉;;大規(guī);ヂ(lián)網(wǎng)活動(dòng)IP流分布研究[J];計(jì)算機(jī)科學(xué);2003年04期
10 林俊武;張建中;;基于端到端數(shù)據(jù)的矩的網(wǎng)絡(luò)時(shí)延估計(jì)算法[J];計(jì)算機(jī)工程;2011年10期
相關(guān)會(huì)議論文 前2條
1 李毅;顧健;;反垃圾郵件產(chǎn)品檢測(cè)技術(shù)研究及檢測(cè)工具開(kāi)發(fā)[A];第二十次全國(guó)計(jì)算機(jī)安全學(xué)術(shù)交流會(huì)論文集[C];2005年
2 劉瑋;廖祥文;許洪波;;基于內(nèi)容特征的垃圾博客過(guò)濾[A];第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C];2008年
相關(guān)重要報(bào)紙文章 前3條
1 本報(bào)記者 朱杰;統(tǒng)一應(yīng)用識(shí)別引擎提升UTM性能[N];中國(guó)計(jì)算機(jī)報(bào);2009年
2 ;構(gòu)筑校園反垃圾郵件防線(xiàn)[N];中國(guó)計(jì)算機(jī)報(bào);2004年
3 億中郵信息技術(shù)有限公司 市場(chǎng)部經(jīng)理 馬志杰;將垃圾郵件拒之門(mén)外[N];中國(guó)電腦教育報(bào);2004年
相關(guān)博士學(xué)位論文 前4條
1 郭振濱;互聯(lián)網(wǎng)測(cè)量與建模研究[D];北京交通大學(xué);2012年
2 李東方;Web 2.0環(huán)境下互聯(lián)網(wǎng)信息過(guò)濾理論與方法研究[D];中國(guó)科學(xué)技術(shù)大學(xué);2009年
3 姜志宏;大規(guī)模P2PTV系統(tǒng)測(cè)量與建模研究[D];國(guó)防科學(xué)技術(shù)大學(xué);2011年
4 史偉;基于復(fù)雜網(wǎng)絡(luò)的拓?fù)渑c信息傳輸問(wèn)題研究[D];天津大學(xué);2010年
相關(guān)碩士學(xué)位論文 前10條
1 李e,
本文編號(hào):1859849
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1859849.html