垃圾博客檢測(cè)技術(shù)的研究與實(shí)現(xiàn)
發(fā)布時(shí)間:2019-09-11 18:11
【摘要】:隨著Web2.0的飛速發(fā)展,人們正在從網(wǎng)絡(luò)內(nèi)容的使用者向網(wǎng)絡(luò)內(nèi)容的提供者轉(zhuǎn)變,網(wǎng)絡(luò)上出現(xiàn)了各種各樣的用戶生成內(nèi)容,其中以博客最具代表性。隨著博客的飛速發(fā)展,博客數(shù)量激增,博客已經(jīng)成為人們?nèi)粘I钪斜夭豢缮俚囊徊糠。博客的到來正在逐漸改變著人們?nèi)粘I钪械慕涣鞣绞?人們通過在博客中發(fā)帖子來表達(dá)自己的心情或者心得體會(huì)。博客的飛速發(fā)展也帶來了大量的垃圾博客。垃圾博客的泛濫不僅浪費(fèi)了大量的網(wǎng)絡(luò)帶寬資源和網(wǎng)絡(luò)存儲(chǔ)空間,更惡劣的是它嚴(yán)重?fù)p害了Web的可信度和博客的內(nèi)容質(zhì)量,降低了用戶進(jìn)行網(wǎng)絡(luò)信息共享的滿意度。 垃圾博客的檢測(cè)是一個(gè)分類問題。傳統(tǒng)的垃圾博客檢測(cè)過程中存在三點(diǎn)不足之處:一、把博客中的博文看做是一個(gè)網(wǎng)頁(yè)分別進(jìn)行檢測(cè),沒有把一個(gè)博客看做是一個(gè)整體;二、在博客的特征提取方面,只是提取了博客的內(nèi)容特征和鏈接特征,沒有考慮博客區(qū)別于網(wǎng)頁(yè)的特征;三、單分類器越來越不適用于日益復(fù)雜的數(shù)據(jù)形式。本文對(duì)這些不足之處進(jìn)行了研究,在對(duì)垃圾博客進(jìn)行檢測(cè)時(shí),把一個(gè)博客中的所有博文看做一個(gè)集合,在博客的特征方面本文中不僅提取了基于內(nèi)容和鏈接的特征,而且經(jīng)過對(duì)垃圾博客的研究加入了5個(gè)統(tǒng)計(jì)特征和博客的3個(gè)時(shí)間動(dòng)態(tài)性特征。在分類器方面,本文設(shè)計(jì)了基于旋轉(zhuǎn)森林的SVM集成分類器對(duì)垃圾博客進(jìn)行檢測(cè)。 最后,本文設(shè)計(jì)了多組實(shí)驗(yàn)進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的垃圾博客檢測(cè)系統(tǒng)有著良好的效果。
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
本文編號(hào):2534591
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092
【參考文獻(xiàn)】
相關(guān)期刊論文 前4條
1 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期
2 劉瑋;廖祥文;許洪波;王麗宏;;基于統(tǒng)計(jì)特征的垃圾博客過濾[J];中文信息學(xué)報(bào);2008年06期
3 王海鳳;薩智海;;DOM技術(shù)在數(shù)據(jù)轉(zhuǎn)換中的應(yīng)用[J];內(nèi)蒙古工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2008年04期
4 徐遠(yuǎn)超;劉江華;劉麗珍;關(guān)永;;基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];微計(jì)算機(jī)信息;2007年21期
,本文編號(hào):2534591
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2534591.html
最近更新
教材專著