基于內(nèi)容的搜索引擎垃圾網(wǎng)頁(yè)檢測(cè)
本文關(guān)鍵詞:基于內(nèi)容的搜索引擎垃圾網(wǎng)頁(yè)檢測(cè),由筆耕文化傳播整理發(fā)布。
第2 6卷第 1 1期 2 0 0 9年 1 1月
計(jì)算機(jī)應(yīng)用與軟件 C o m p u t e r A p p l i c a t i o n s a n dS o f t w a r e
V o l ? 2 6N o . 1 1 0 9 N o v . 2 0
基于內(nèi)容的搜索引擎垃圾網(wǎng)頁(yè)檢測(cè)
賈志洋1 李偉偉1 張海燕2
1
( 云南師范大學(xué)計(jì)算機(jī)科學(xué)與信息技術(shù)學(xué)院 云南 昆明 6 5 0 0 9 2 )
2
( 中國(guó)石油大慶石化公司信息中心 遼寧 大慶 1 6 3 7 1 4 )
摘 要 有些網(wǎng)頁(yè)為了增加訪問(wèn)量, 通過(guò)欺騙搜索引擎, 提高在搜索引擎的搜索結(jié)果中的排名, 這些網(wǎng)頁(yè)被稱為“ 搜索引擎垃圾 網(wǎng)頁(yè)” 或“ 垃圾網(wǎng)頁(yè)” 。將搜索引擎垃圾網(wǎng)頁(yè)的檢測(cè)看成一個(gè)分類問(wèn)題, 采用 C 4 . 5分類算法建立決策樹(shù)分類模型, 將網(wǎng)頁(yè)分成正常 網(wǎng)頁(yè)和垃圾網(wǎng)頁(yè)兩類。實(shí)驗(yàn)表明我們的分類模型可以有效地檢測(cè)搜索引擎垃圾網(wǎng)頁(yè)。 關(guān)鍵詞 搜索引擎 垃圾網(wǎng)頁(yè) 垃圾網(wǎng)頁(yè)檢測(cè) 決策樹(shù)。 4 . 5分類算法
C O N T E N T ? B A S E DS P A M WE BP A G ED E T E C T I O NI NS E A R C HE N G I N E
1 1 2 J i aZ h i y a n g L i We i w e i 。 h a n gH a i y a n
1
( S c h o o l o f C o m p u t e r S c i e n c e a n dI n f o r m a t i o nT e c h n o l o g y , Y u n n a nN o r m a l U n i v e r s i t y , K u n m i n g 6 5 0 0 9 2 , Y u n n a n , C h i n a )
2
( I n f o r m a t i o nC e n t e r , P e t r o C h i n aD a q i n gP e t r o c h e m i c a l C o m p a n y , D a q i n g 1 6 3 7 1 4 , L i a o n i n g , C h i n a )
A b s t r a c t 。 no r d e r t oa t t r a c t m o r e v i s i t s ,s o m e w e bp a g e s a c h i e v e h i g h e r r a n k i n g s i na s e a r c he n g i n e ’ s r e s u l t s b y d e c e i v i n g t h e s e a r c he n ? g i n e .T h e s e w e bp a g e s a r e c a l l e d“ s e a r c he n g i n e s p a mw e bp a g e ”o r “ s p a mw e bp a g e ” .I nt h i s p a p e r t h e s p a mw e bp a g e d e t e c t i o ni ns e a r c h e n g i n ei s d e e m e da s ac l a s s i f i c a t i o np r o b l e m ,w ec r e a t ea d e c i s i o nt r e e c l a s s i f i c a t i o nm o d e l b y C 4 . 5c l a s s i f i c a t i o na l g o r i t h m ,t o s e p a r a t e w e b p a g e s i n t ot w oc a t e g o r i e s ,t h e n o r m a l a n dt h e s p a m .T h e e x p e r i m e n t r e s u l t s s h o wt h a t o u r c l a s s i f i c a t i o nm o d e l c a ne f f e c t i v e l y d e t e c t s p a mw e b p a g ei ns e a r c he n g i n e . K e y w o r d s 。 e a r c he n g i n e 。 p a mw e bp a g e S p a mw e bp a g ed e t e c t i o n 。 e c i s i o nt r e e 。 4 . 5c l a s s i f i c a t i o na l g o r i t h m 網(wǎng)頁(yè)的排名。也就是說(shuō), “ 垃圾網(wǎng)頁(yè)” 不是提高其質(zhì)量, 而是針
0 引 言
隨著網(wǎng)頁(yè)數(shù)量的指數(shù)級(jí)增長(zhǎng), 用戶不得不通過(guò)搜索引擎獲 取有效信息, 近幾年搜索引擎已經(jīng)成為網(wǎng)絡(luò)信息檢索的主要方
1 ] 式。據(jù)研究表明 [ : 大多數(shù)用戶只查看搜索引擎返回的前三頁(yè)
對(duì)搜索引擎網(wǎng)頁(yè)排名算法進(jìn)行“ 作弊” , 從而提高網(wǎng)頁(yè)排名。 如圖 1所示, 網(wǎng)頁(yè)中包含了很多熱門關(guān)鍵詞, 但是有用的信 息卻很少, 顯然是針對(duì)搜索引擎的垃圾網(wǎng)頁(yè)。
的搜索結(jié)果。因此, 網(wǎng)站管理者會(huì)通過(guò)努力提高網(wǎng)站的質(zhì)量, 以 達(dá)到提高網(wǎng)站在搜索結(jié)果中排名的目的。但是, 有些網(wǎng)站則是 通過(guò)一些“ 作弊” 的方式來(lái)提升排名。更有甚者, 有些網(wǎng)站管理 者“ 手動(dòng)” 或“ 自動(dòng)” 地制造一些“ 垃圾網(wǎng)頁(yè)” , 這些網(wǎng)頁(yè)不是提 供給用戶有效的信息而僅僅是為了提升在搜索結(jié)果中的排名, 以此提高網(wǎng)站訪問(wèn)量。 值得注意的是, “ 垃圾網(wǎng)頁(yè)” 不僅嚴(yán)重干擾了用戶檢索的有 效信息, 而且給搜索引擎公司造成了極大的資源浪費(fèi)。據(jù)研究
2 ] 表明 [ , 搜索引擎在爬行網(wǎng)頁(yè)、 處理網(wǎng)頁(yè)、 索引網(wǎng)頁(yè)、 響應(yīng)用戶
圖1 垃圾網(wǎng)頁(yè)示例
查詢時(shí)在“ 垃圾網(wǎng)頁(yè)” 上的浪費(fèi), 達(dá)到了各種資源的 1 / 7 。所以, 對(duì)“ 垃圾網(wǎng)頁(yè)” 檢測(cè)的相關(guān)研究具有現(xiàn)實(shí)意義。
2 基于網(wǎng)頁(yè)內(nèi)容的特征提取
雖然垃圾網(wǎng)頁(yè)與正常網(wǎng)頁(yè)在視覺(jué)效果上具有明顯差別, 但 是卻難以根據(jù)視覺(jué)特征進(jìn)行檢測(cè)。因此, 我們根據(jù)網(wǎng)頁(yè)內(nèi)容, 分 析、 提取垃圾網(wǎng)頁(yè)的特征, 并把檢測(cè)垃圾網(wǎng)頁(yè)看成一個(gè)分類問(wèn)
6 ] 題[ ,, 采用機(jī)器學(xué)習(xí)的方法對(duì)網(wǎng)頁(yè)進(jìn)行分類。
1 “ 垃圾網(wǎng)頁(yè)” 的定義
首先, 我們引用文獻(xiàn)[ 3 ] 對(duì)“ 垃圾網(wǎng)頁(yè)” 的定義: “ 任何企圖 欺騙搜索引擎網(wǎng)頁(yè)排名算法以獲得更高排名的網(wǎng)頁(yè)” 。 不同的搜索引擎在返回搜索結(jié)果時(shí), 采用不同算法計(jì)算網(wǎng)
[ 4 ] [ 5 ] 頁(yè)在搜索結(jié)果中的排名, 如G o o g l e 采用 P a g e R a n k 算法計(jì)算
為了設(shè)計(jì)和評(píng)估本文的垃圾網(wǎng)頁(yè)檢測(cè)算法, 基于盡可能選
收稿日期: 2 0 0 8- 0 4- 2 3 。 賈志洋, 碩士生, 主研領(lǐng)域: We b挖掘, We b 應(yīng)用測(cè)試。
1 6 6
計(jì)算機(jī)應(yīng)用與軟件 2 . 3 其它特征
2 0 0 9年
用 We b 中的“ 隨機(jī)樣本” 以及網(wǎng)頁(yè)在相關(guān)搜索結(jié)果排名靠前的 原則, 我們于 2 0 0 8年 1月爬取了較具代表性的 1 1 4 7 0個(gè)中文網(wǎng) 頁(yè)。通過(guò)人工判別, 數(shù)據(jù)集中共有垃圾網(wǎng)頁(yè) 5 7 0個(gè)( 5 %) , 正常 網(wǎng)頁(yè) 1 0 9 0 0個(gè)( 9 5 %) 。
( 1 )網(wǎng)頁(yè)“< M E T A>” 標(biāo)簽 在 H T M L語(yǔ)言中, “<M E T A > ” 標(biāo)簽被用來(lái)描述一個(gè) H T M L網(wǎng)頁(yè)文檔的屬性, 通常會(huì)用到 “ n a m e ” 屬性里的“ k e y w o r d s ” ( 網(wǎng)頁(yè)關(guān)鍵詞) 和“ d e s c r i p t i o n ” ( 網(wǎng) 頁(yè)描述) 兩個(gè)參數(shù)。大多數(shù)搜索引擎的搜索結(jié)果排名和 M E T A 標(biāo)簽中的內(nèi)容有很大關(guān)系, 以至于“ M E T A ” 標(biāo)簽在一個(gè)頁(yè)面中 的作用僅次于網(wǎng)頁(yè)標(biāo)題。所以很多垃圾網(wǎng)頁(yè)的 M E T A標(biāo)簽的內(nèi) 容會(huì)與正常網(wǎng)頁(yè)有很大區(qū)別。 為此, 我們計(jì)算了數(shù)據(jù)集中每一個(gè)網(wǎng)頁(yè)的“<M E T A>” 標(biāo) 簽數(shù)量、 “< M E T A> ” 標(biāo)簽“ n a m e ” 屬性值為“ k e y w o r d s ” 的“ 網(wǎng)頁(yè) 關(guān)鍵詞” 長(zhǎng)度、 “< M E T A> ” 標(biāo)簽“ n a m e ” 值為“ k e y w o r d s ” 的“ 網(wǎng) 頁(yè)描述” 長(zhǎng)度等作為備選特征。 ( 2 )網(wǎng)頁(yè) U R L長(zhǎng)度 垃圾網(wǎng)頁(yè)一般是自動(dòng)生成的, 因此垃 圾網(wǎng)頁(yè)的 U R L會(huì)與正常網(wǎng)頁(yè)具有顯著的區(qū)別, 為了提取此特 征, 我們把數(shù)據(jù)集中每一個(gè)網(wǎng)頁(yè)的 U R L長(zhǎng)度提取出來(lái), 將其作 為備選特征。 ( 3 )網(wǎng)頁(yè)長(zhǎng)度 部分垃圾網(wǎng)頁(yè)為了與大量關(guān)鍵詞都 “ 相 關(guān)” , 不僅大量重復(fù)某個(gè)關(guān)鍵詞, 而且將大量熱門關(guān)鍵詞加入到 網(wǎng)頁(yè)中, 所以垃圾網(wǎng)頁(yè)的長(zhǎng)度可能與正常網(wǎng)頁(yè)具有較大區(qū)別, 也 將網(wǎng)頁(yè)長(zhǎng)度作為備選特征。
2 . 1 網(wǎng)頁(yè)標(biāo)題長(zhǎng)度
搜索引擎對(duì)網(wǎng)頁(yè)進(jìn)行排名時(shí), 會(huì)給網(wǎng)頁(yè)標(biāo)題很高的權(quán)重, 所 以很多垃圾網(wǎng)頁(yè)就針對(duì)這點(diǎn), 將大量與網(wǎng)頁(yè)內(nèi)容無(wú)關(guān)的關(guān)鍵詞 羅列在一起作為網(wǎng)頁(yè)的標(biāo)題, 這種技術(shù)為“ 關(guān)鍵詞堆砌” 。 為了測(cè)試網(wǎng)頁(yè)標(biāo)題是否可以作為判定垃圾網(wǎng)頁(yè)的特征, 實(shí) 驗(yàn)如下: 提取數(shù)據(jù)集中每個(gè)網(wǎng)頁(yè) H T M L源代碼 “<t i t l e > ” 標(biāo)記 中標(biāo)題的長(zhǎng)度, 并計(jì)算其分布( 如圖 2所示) 。
圖2 網(wǎng)頁(yè)標(biāo)題長(zhǎng)度與垃圾網(wǎng)頁(yè)的關(guān)系
( 4 )常用詞出現(xiàn)率 有些垃圾網(wǎng)頁(yè)的內(nèi)容就是從熱門關(guān)鍵 詞詞典中選擇一部分, 這種垃圾網(wǎng)頁(yè)很可能出現(xiàn)常用詞過(guò)少或 過(guò)多的情況。針對(duì)這種行為, 首先建立一個(gè)常用詞詞典, 提取數(shù) 據(jù)集中每一個(gè)網(wǎng)頁(yè)的文本并進(jìn)行分詞, 然后計(jì)算每個(gè)網(wǎng)頁(yè)中的 常用詞數(shù)量與此網(wǎng)頁(yè)包含的全部詞匯數(shù)量的比值, 將其作為備 選特征。 ( 5 )停用詞使用率 有些垃圾網(wǎng)頁(yè)的內(nèi)容就是隨機(jī)選取的 一些熱門關(guān)鍵詞, 所以這些垃圾網(wǎng)頁(yè)中的停用詞的出現(xiàn)頻率與 正常網(wǎng)頁(yè)的停用詞出現(xiàn)頻率有很大的區(qū)別, 為了提取這個(gè)特征, 我們計(jì)算了數(shù)據(jù)集中每一個(gè)網(wǎng)頁(yè)的停用詞數(shù)量與此網(wǎng)頁(yè)包含全 部詞匯數(shù)量的比值, 將其作為備選特征。 ( 6 )可視文本 為了提供給用戶更多相關(guān)的搜索結(jié)果, 搜 索引擎在分析網(wǎng)頁(yè)的時(shí)候往往將 H T M L標(biāo)簽里的部分關(guān)鍵詞也 收錄起來(lái)( 雖然這部分文本對(duì)用戶是不可見(jiàn)的) 。于是垃圾網(wǎng) 頁(yè)就可以將關(guān)鍵詞堆砌到網(wǎng)頁(yè) H T M L標(biāo)簽里。為了提取此特 征, 我們計(jì)算了去除 H T M L標(biāo)簽后的網(wǎng)頁(yè)文本長(zhǎng)度( 即可視文 本長(zhǎng)度) , 將可視文本長(zhǎng)度與未去除 H T M L標(biāo)簽的網(wǎng)頁(yè) H T M L 文本長(zhǎng)度的比值作為備選特征。 ( 7 )鏈接文本數(shù)量 搜索引擎在計(jì)算網(wǎng)頁(yè)排名的時(shí)候考慮 到鏈接文本的因素。即如果網(wǎng)頁(yè) A有一個(gè)指向網(wǎng)頁(yè) B的鏈接, 其鏈接文本為 t , 那么即使網(wǎng)頁(yè) B中沒(méi)有出現(xiàn)關(guān)鍵詞 t , 搜索引 擎也會(huì)認(rèn)為網(wǎng)頁(yè) B的內(nèi)容是與 t 相關(guān)的。搜索引擎在計(jì)算網(wǎng)頁(yè) 排名的時(shí)候會(huì)考慮鏈接文本的情況。所以有些垃圾網(wǎng)頁(yè)的存在 就是為其他垃圾網(wǎng)頁(yè)提供熱門關(guān)鍵詞的鏈接文本。所以, 我們 提取出網(wǎng)頁(yè)中所有鏈接文本并計(jì)算其長(zhǎng)度, 將其長(zhǎng)度值與網(wǎng)頁(yè) 所有文本長(zhǎng)度值( 包括鏈接文本) 的比值作為此備選特征。
圖 2由一個(gè)直方圖和一個(gè)折線圖組成。圖中 x 軸代表網(wǎng)頁(yè) 標(biāo)題長(zhǎng)度值, 左方的 y 軸與直方圖相對(duì)應(yīng), 即標(biāo)題長(zhǎng)度為 x 的網(wǎng) 頁(yè)數(shù)量占網(wǎng)頁(yè)總量的百分比; 右方的 y 軸與折線圖相對(duì)應(yīng), 即標(biāo) 題長(zhǎng)度為 x 的網(wǎng)頁(yè)中垃圾網(wǎng)頁(yè)所占的百分比( 垃圾網(wǎng)頁(yè)的可能 性) 。直方圖從標(biāo)題長(zhǎng)度為 4 0的位置開(kāi)始服從對(duì)數(shù)正態(tài)分布, 隨著標(biāo)題長(zhǎng)度的增加, 垃圾網(wǎng)頁(yè)的可能性也逐漸遞增, 雖然在 1 1 0位置有一個(gè)噪點(diǎn), 但網(wǎng)頁(yè)標(biāo)題的長(zhǎng)度大于 1 2 0時(shí)其是垃圾 網(wǎng)頁(yè)的可能性就高于 5 0 %?梢(jiàn), 標(biāo)題長(zhǎng)度可作為判定垃圾網(wǎng) 頁(yè)的一個(gè)較好的特征。
2 . 2 網(wǎng)頁(yè)壓縮率
搜索引擎在計(jì)算網(wǎng)頁(yè)文本與目標(biāo)關(guān)鍵詞相關(guān)度時(shí), 主要采用
7 ] 的是 S a l t o n 和M c G i l l 于1 9 7 3年提出的 T F / I D F算法[ 。T F / I D F
算法認(rèn)為關(guān)鍵詞在文檔中的權(quán)重正比于其在文檔中的出現(xiàn)頻率, 反比于所有文檔中出現(xiàn)該關(guān)鍵詞的文檔數(shù)。根據(jù)此算法, 垃圾網(wǎng) 頁(yè)可能通過(guò)在網(wǎng)頁(yè)中大量重復(fù)同一關(guān)鍵詞以獲得更高的權(quán)重。 我們將網(wǎng)頁(yè)壓縮并計(jì)算其被壓縮前后大小的比值以獲取該 特征, 并將這個(gè)比值稱為網(wǎng)頁(yè)壓縮率, 計(jì)算數(shù)據(jù)集中每個(gè)網(wǎng)頁(yè)的 壓縮率, 得到結(jié)果如圖 3 ?梢(jiàn), 網(wǎng)頁(yè)壓縮率的分布服從正態(tài)分 布, 在0 . 3 1位置達(dá)到最高點(diǎn), 在壓縮率小于 0 . 1 0時(shí), 網(wǎng)頁(yè)是垃 圾網(wǎng)頁(yè)的可能性大于 6 0 %, 故網(wǎng)頁(yè)壓縮率也是判定垃圾網(wǎng)頁(yè)的 一個(gè)較好的特征。
3 使用分類器檢測(cè)垃圾網(wǎng)頁(yè)
前一部分中我們計(jì)算了網(wǎng)頁(yè)的若干特征分布, 但這些特征 不能單獨(dú)作為檢測(cè)垃圾網(wǎng)頁(yè)的決定性規(guī)則, 我們考慮將這些特
圖3 網(wǎng)頁(yè)壓縮率與垃圾網(wǎng)頁(yè)的關(guān)系
征結(jié)合起來(lái)并對(duì)垃圾網(wǎng)頁(yè)進(jìn)行檢測(cè)。
第1 1期
賈志洋等: 基于內(nèi)容的搜索引擎垃圾網(wǎng)頁(yè)檢測(cè)
1 6 7
本文將垃圾網(wǎng)頁(yè)檢測(cè)看成一個(gè)分類問(wèn)題, 通過(guò)建立一個(gè)分 類模型, 根據(jù)網(wǎng)頁(yè)內(nèi)容計(jì)算其特征值, 使用分類器將其歸類到正 常網(wǎng)頁(yè)或者垃圾網(wǎng)頁(yè)類別中。我們實(shí)驗(yàn)了以下分類方法: 基于
8 ] 9 ] 規(guī)則的分類方法 [ 、 基于樸素貝葉斯的分類方法 [ 以及基于決
分類器的數(shù)據(jù)。由此, 得到分類結(jié)果: 1 1 3 1 5個(gè)( 占9 8 . 6 %) 網(wǎng)頁(yè) 分類正確; 1 5 5個(gè)( 占1 . 4 %) 網(wǎng)頁(yè)分類錯(cuò)誤。 綜上, 本分類器對(duì)正常網(wǎng)頁(yè)具有很好的識(shí)別效果,對(duì)垃圾 網(wǎng)頁(yè)也能進(jìn)行較為準(zhǔn)確的判別, 可實(shí)際應(yīng)用于搜索引擎中。
策樹(shù)的分類方法。通過(guò)對(duì)比試驗(yàn)結(jié)果( 如表 1所示) , 發(fā)現(xiàn)基于 決策樹(shù)的分類方法效果最佳。
表1 三種分類方法試驗(yàn)結(jié)果比較 分類方法 網(wǎng)頁(yè)類別 正常網(wǎng)頁(yè) 基于規(guī)則 垃圾網(wǎng)頁(yè) 樸素 貝葉斯 正常網(wǎng)頁(yè) 垃圾網(wǎng)頁(yè) 正常網(wǎng)頁(yè) 決策樹(shù) 垃圾網(wǎng)頁(yè) 0 . 9 0 3 0 . 8 1 6 0 . 8 5 7 [1] J a n s e nB , S p i n kA . A nA n a l y s i s o f w e bd o c u m e n t s r e t r i e v e da n dv i e w e d [ C ] / / P r o c e e d i n g s o f I C I C ′ 0 3 . L a s V e g a s , N e v a d a , U S A , 2 0 0 3 : 6 5 6 9 . [2] N t o u l a sA , N a j o r kM, M a n a s s eM . D e t e c t i n gs p a mw e bp a g e st h r o u g h c o n t e n t a n a l y s i s [ C ] / / P r o c e e d i n g s o f t h e 1 5 t hI n t e r n a t i o n a l C o n f e r e n c e 8 3 9 2 . o nWo r l dWi d e We b . E d i n b u r g h , S c o t l a n d , 2 0 0 6 : [3] G y o n g y i Z , M o l i n a H . We bs p a mt a x o n o m y [ C ] / / P r o c e e d i n g s o f t h e 1 s t I n t e r n a t i o n a lWo r k s h o po nA d v e r s a r i a lI n f o r m a t i o nR e t r i e v a lo nt h e We b . C h i b a , J a p a n , 2 0 0 5 : 3 9 4 7 . [4] B r i nS , P a g eL . T h ea n a t o m yo f al a r g e ? s c a l eh y p e r t e x t u a l w e bs e a r c h e n g i n e [ C ] / / P r o c e e d i n g so f t h eS e v e n t hI n t e r n a t i o n a l C o n f e r e n c eo n Wo r l dWi d e We b . B r i s b a n e , A u s t r a l i a , 1 9 9 8 : 1 0 7 1 1 7 . [5] B i a n c h i n i M, G o r i M, S c a r s e l l i F . I n s i d eP a g e R a n k [ J ] . A C Mt r a n s a c ? t i o n s o nI n t e r n e t T e c h n o l o g y , 2 0 0 5 , 5 ( 1 ) : 9 2 1 2 8 . [6] F e t t e r l y D , M a n a s s eM, N a j o r kM . S p a m , d a m ns p a m , a n ds t a t i s t i c s : u ? s i n g s t a t i s t i c a l a n a l y s i s t o l o c a t es p a mw e bp a g e s [ C ] / / P r o c e e d i n g s o f t h eS e v e n t hI n t e r n a t i o n a l Wo r k s h o po nt h eWe ba n dD a t a b a s e s . P a r i s , F r a n c e , 2 0 0 4 : 1 6 . [ 7] S t i l t o nG , M c G i l l M . I n t r o d u c t i o nt o m o d e r ni n f o r m a t i o nr e t r i e v a l [ M] . N e wY o r k :M c G r a w ? H i l l I n c , 1 9 8 6 . [8] E i b e F r a n k , I a nWi t t e n . G e n e r a t i n g A c c u r a t e R u l e S e t s Wi t h o u t G l o b a l O p t i m i z a t i o n [ C ] / / P r o c e e d i n g so f t h eF i f t e e n t hI n t e r n a t i o n a l C o n f e r ? e n c e . S a nF r a n c i s c o , U S A , 1 9 9 8 : 1 4 4 1 5 1 . [9] J o h nGH , L a n g l e yP . E s t i m a t i n gC o n t i n u o u s D i s t r i b u t i o n s i nB a y e s i a n C l a s s i f i e r s [ C ] / / P r o c e e d i n g s o f t h e E l e v e n t hC o n f e r e n c e o nU n c e r t a i n ? 3 3 8 3 4 5 . t y i nA r t i f i c i a l I n t e l l i g e n c e . Q u e b e c , C a n a d a , 1 9 9 5 : [ 1 0 ]Q u i n l a nJ . C 4 . 5 : p r o g r a m sf o r m a c h i n el e a r n i n g [ M] . S a nF r a n c i s c o : M o r g a n ? K a u f m a nP u b l i s h e r s I n c , 1 9 9 3 . [ 1 1 ]G a nQ , S u e lT . I m p r o v i n gWe bs p a mc l a s s i f i e r su s i n gl i n ks t r u c t u r e [ C ] / / P r o c e e d i n g s o f t h e 3 r dI n t e r n a t i o n a l Wo r k s h o po nA d v e r s a r i a l I n ? f o r m a t i o nR e t r i e v a l o nt h e We b . B a n f f , A l b e r t a , C a n a d a , 2 0 0 7 : 1 7 2 0 . 0 . 8 9 3 0 . 9 9 1 0 . 7 6 9 0 . 9 9 1 0 . 8 0 7 0 . 9 8 6 0 . 8 3 3 0 . 9 9 5 0 . 8 4 8 0 . 9 8 9 0 . 7 9 9 0 . 9 9 3 準(zhǔn)確率 0 . 9 9 0 召回率 0 . 9 9 5 F 1值 0 . 9 9 2
4 結(jié) 論
本文較為詳細(xì)地分析了多種垃圾網(wǎng)頁(yè)技術(shù), 討論了幾種可 用于垃圾網(wǎng)頁(yè)的內(nèi)容特征, 建立了基于決策樹(shù)的檢測(cè)模型并進(jìn) 行了實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明本文的垃圾網(wǎng)頁(yè)檢測(cè)方法是行之有效 的。由于本文是基于網(wǎng)頁(yè)內(nèi)容的檢測(cè), 而沒(méi)有考慮網(wǎng)頁(yè)的鏈接 結(jié)構(gòu), 故可以在以后的工作中考慮結(jié)合網(wǎng)頁(yè)的鏈接結(jié)構(gòu)對(duì)垃圾
1 1 ] 網(wǎng)頁(yè)進(jìn)行檢測(cè) [ , 以期獲得更好的檢測(cè)結(jié)果。
參 考 文 獻(xiàn)
以下主要關(guān)注基于決策樹(shù)的分類方法, 我們采用 C 4 . 5分
1 0 ] 類算法 [ 建立分類模型。 C 4 . 5算法工作原理為: 在給定訓(xùn)練
數(shù)據(jù)集和相應(yīng)的特征集后, 此算法建立一個(gè)類似于流程圖的樹(shù) 型結(jié)構(gòu), 其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試, 每個(gè)分枝 表示一個(gè)測(cè)試的輸出, 算法使用稱為信息增益的基于熵的度量 作為啟發(fā)信息, 選擇能夠最好地將樣本分類的屬性作為樹(shù)形結(jié) 構(gòu)中節(jié)點(diǎn)的“ 測(cè)試” 或“ 判定” 屬性。 我們使用試驗(yàn)數(shù)據(jù)集中的網(wǎng)頁(yè)訓(xùn)練分類器。由 C 4 . 5算法 建立的決策樹(shù)的一部分如圖 4所示, 其主要分類過(guò)程為: 測(cè)試此 決策樹(shù)的根節(jié)點(diǎn)所代表的網(wǎng)頁(yè)屬性值, 然后根據(jù)各分支所代表 的輸出, 選擇輸出到左邊節(jié)點(diǎn)或者右邊節(jié)點(diǎn), 然后重復(fù)此步驟, 直至輸出節(jié)點(diǎn)為一個(gè)類別。例如: 如果一個(gè)網(wǎng)頁(yè)的 U R L長(zhǎng)度大 于1 0 7 , 那么分類器就將此網(wǎng)頁(yè)歸類到垃圾網(wǎng)頁(yè)的類別中; 如果 一個(gè)網(wǎng)頁(yè)的 U R L長(zhǎng)度小于等于 1 0 7 , 并且 M e t a 標(biāo)簽數(shù)量少于等 于6 , 并且 M e t a 標(biāo)簽 “ 描述” 長(zhǎng)度大于 4 8 , 并且網(wǎng)頁(yè)長(zhǎng)度大于 1 3 7 5 9 , 并且網(wǎng)頁(yè)壓縮率小于等于 0 . 2 2 6 , 那么這個(gè)網(wǎng)頁(yè)就被分 類器歸類到垃圾網(wǎng)頁(yè)的類別中。
???????????????????????
( 上接第 1 6 2頁(yè))
[ 1 1 ] 叢爽. 面向 M A T L A B工具箱的神經(jīng)網(wǎng)絡(luò)理論與應(yīng)用[ M] . 合肥: 中 圖4 。 4 . 5算法建立的檢測(cè)垃圾網(wǎng)頁(yè)的決策樹(shù)的一部分 國(guó)科學(xué)技術(shù)大學(xué)出版社, 1 9 9 8 . [ 1 2 ] 翁維勤, 周慶海. 過(guò)程控制系統(tǒng)及工程[ M] . 北京: 化學(xué)工業(yè)出版 社, 1 9 9 6 . [ 1 3 ] 龔劍平. F O P D T的模型不確定性界和內(nèi)?刂破黥敯粜阅茉O(shè)計(jì) [ J ] . 北京化工大學(xué)學(xué)報(bào), 2 0 0 1 , 2 8 ( 1 ) : 7 6 7 8 .
最后, 我們采用了 1 0 ? 折交叉確認(rèn)方法對(duì)本文的檢測(cè)模型進(jìn) 行評(píng)估。1 0 ? 折交叉確認(rèn)方法思想為: 將數(shù)據(jù)集中的數(shù)據(jù)隨機(jī)分 成1 0等份, 并執(zhí)行 1 0次訓(xùn)練 / 測(cè)試步驟, 每個(gè)步驟中都是使用 9 個(gè)等份作為訓(xùn)練分類器的數(shù)據(jù), 并使用剩余 1個(gè)等份作為測(cè)試
本文關(guān)鍵詞:基于內(nèi)容的搜索引擎垃圾網(wǎng)頁(yè)檢測(cè),由筆耕文化傳播整理發(fā)布。
本文編號(hào):208262
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/208262.html