天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

基于排序算法的垃圾網(wǎng)頁(yè)檢測(cè)技術(shù)

發(fā)布時(shí)間:2017-05-02 07:03

  本文關(guān)鍵詞:基于排序算法的垃圾網(wǎng)頁(yè)檢測(cè)技術(shù),由筆耕文化傳播整理發(fā)布。


【摘要】:研究表明,80%的搜索引擎使用者查看返回結(jié)果不超過(guò)三頁(yè),因此在搜索引擎返回結(jié)果中,排名越高帶來(lái)的利潤(rùn)越大,很多網(wǎng)頁(yè)通過(guò)欺騙搜索引擎的手段獲得較高的排名,這類網(wǎng)頁(yè)被稱為垃圾網(wǎng)頁(yè)。垃圾網(wǎng)頁(yè)在利益的驅(qū)使下采用作弊手段欺騙搜索引擎獲得更高的排名,干擾了用戶對(duì)信息的獲取。垃圾網(wǎng)頁(yè)損害搜索引擎的聲譽(yù),削弱了其用戶對(duì)搜索引擎的信任,檢測(cè)垃圾網(wǎng)頁(yè)已是搜索引擎面臨的重大的挑戰(zhàn)之一。為了有效的檢測(cè)出垃圾網(wǎng)頁(yè),分析了數(shù)據(jù)集中垃圾網(wǎng)頁(yè)與正常的網(wǎng)頁(yè)內(nèi)容特征與鏈接特征分布,通過(guò)結(jié)合網(wǎng)頁(yè)的內(nèi)容特征與鏈接特征結(jié)合機(jī)器學(xué)習(xí)方法及其他排序算法對(duì)垃圾網(wǎng)頁(yè)進(jìn)行檢測(cè)。具體工作如下: 1. TrustRank算法是著名的基于鏈接信息的網(wǎng)頁(yè)排序算法。傳統(tǒng)的TrustRank算法基于鏈接特征的垃圾網(wǎng)頁(yè)檢測(cè)方法,這種方法不是對(duì)所有作弊網(wǎng)頁(yè)都有效。譬如一組網(wǎng)頁(yè)提供一些有用資源,吸引其他網(wǎng)站的鏈接,但這組網(wǎng)頁(yè)包含了許多指向目標(biāo)作弊頁(yè)面的鏈接,這些鏈接可能是隱蔽的,目標(biāo)作弊網(wǎng)頁(yè)的TrustRank值就有可能很高。而且有的垃圾網(wǎng)頁(yè)的拓?fù)浣Y(jié)構(gòu)和正常網(wǎng)頁(yè)的拓?fù)浣Y(jié)構(gòu)相似,這時(shí)基于內(nèi)容特征的垃圾網(wǎng)頁(yè)檢測(cè)方法就比較有效了。因此,我們?cè)诨阪溄臃治龅腡rustRank算法基礎(chǔ)上對(duì)網(wǎng)頁(yè)內(nèi)容特征進(jìn)行提取,并分析網(wǎng)頁(yè)內(nèi)容特征的分布,根據(jù)正常網(wǎng)頁(yè)與垃圾網(wǎng)頁(yè)內(nèi)容特征分布的不同結(jié)合網(wǎng)頁(yè)鏈接特征對(duì)Web spam進(jìn)行檢測(cè)。 2.基于內(nèi)容特征的垃圾網(wǎng)頁(yè)檢測(cè)方法只考慮了網(wǎng)頁(yè)的文本內(nèi)容特征,沒有考慮網(wǎng)頁(yè)的鏈接結(jié)構(gòu),很難適應(yīng)不斷發(fā)展的網(wǎng)頁(yè)作弊技術(shù),而基于鏈接結(jié)構(gòu)的垃圾網(wǎng)頁(yè)檢測(cè)方法則忽略了網(wǎng)頁(yè)的內(nèi)容信息,如果只考慮網(wǎng)頁(yè)的拓?fù)浣Y(jié)構(gòu),很難檢測(cè)出那些拓?fù)浣Y(jié)構(gòu)與正常網(wǎng)頁(yè)十分相似的垃圾網(wǎng)頁(yè)。我們?cè)诜治鰯?shù)據(jù)集網(wǎng)頁(yè)特征分布的基礎(chǔ)上,用各種分布函數(shù)擬合網(wǎng)頁(yè)的內(nèi)容特征分布和鏈接特征分布,由于正常網(wǎng)頁(yè)的特征分布比較有規(guī)律,而垃圾網(wǎng)頁(yè)的特征分布混亂,因此用分布函數(shù)擬合之后求差值,正常網(wǎng)頁(yè)差值較小而垃圾網(wǎng)頁(yè)差值較大。根據(jù)網(wǎng)頁(yè)特征值與擬合函數(shù)的差值利用決策樹檢測(cè)垃圾網(wǎng)頁(yè)。 3.目前大多數(shù)研究把垃圾網(wǎng)頁(yè)檢測(cè)看作是分類問(wèn)題,并且使用機(jī)器學(xué)習(xí)方法譬如SVM、決策樹等對(duì)垃圾網(wǎng)頁(yè)進(jìn)行檢測(cè)。我們把垃圾網(wǎng)頁(yè)檢測(cè)問(wèn)題看作排序問(wèn)題,結(jié)合網(wǎng)頁(yè)的內(nèi)容特征和鏈接特征建立排序模型對(duì)網(wǎng)頁(yè)進(jìn)行排序。排序模型的基本要求是能夠保證正常網(wǎng)頁(yè)排名靠前,,垃圾網(wǎng)頁(yè)排名靠后,從而使得用戶使用搜索引擎時(shí)不會(huì)被垃圾網(wǎng)頁(yè)干擾。我們結(jié)合網(wǎng)頁(yè)的鏈接信息和網(wǎng)頁(yè)的內(nèi)容特征信息建立數(shù)學(xué)模型。首先,我們通過(guò)分析網(wǎng)頁(yè)的內(nèi)容特征分布,用分布函數(shù)擬合計(jì)算得到內(nèi)容特征向量,用內(nèi)容特征向量逼近網(wǎng)頁(yè)的鏈接信息值求得權(quán)值向量,計(jì)算內(nèi)容特征向量與權(quán)值向量的乘積作為網(wǎng)頁(yè)值對(duì)網(wǎng)頁(yè)排序。 垃圾網(wǎng)頁(yè)不僅影響了用戶通過(guò)搜索引擎尋找有用的信息,而且嚴(yán)重浪費(fèi)了搜索引擎的資源,搜索引擎在根據(jù)用戶的請(qǐng)求索引網(wǎng)頁(yè)時(shí),需要處理大量的垃圾的網(wǎng)頁(yè),所以檢測(cè)垃圾網(wǎng)頁(yè)的相關(guān)研究有切實(shí)的意義。
【關(guān)鍵詞】:垃圾網(wǎng)頁(yè) 搜索引擎 網(wǎng)頁(yè)排名 信任指數(shù) 內(nèi)容特征 鏈接特征 排序算法
【學(xué)位授予單位】:山東師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2014
【分類號(hào)】:TP393.092;TP391.3
【目錄】:
  • 目錄4-5
  • 摘要5-7
  • ABSTRACT7-9
  • 第一章 緒論9-13
  • 1.1 研究背景和意義9
  • 1.2 垃圾網(wǎng)頁(yè)的概述及國(guó)內(nèi)外研究現(xiàn)狀9-11
  • 1.2.1 垃圾網(wǎng)頁(yè)的概述9-10
  • 1.2.2 國(guó)內(nèi)外研究現(xiàn)狀10-11
  • 1.3 本文創(chuàng)新點(diǎn)11-12
  • 1.4 論文的組織結(jié)構(gòu)12-13
  • 第二章 垃圾網(wǎng)頁(yè)檢測(cè)方法研究綜述13-20
  • 2.1 基于機(jī)器學(xué)習(xí)的垃圾網(wǎng)頁(yè)檢測(cè)方法13-15
  • 2.1.1 支持向量機(jī)13-14
  • 2.1.2 決策樹14-15
  • 2.2 基于排序檢測(cè)垃圾網(wǎng)頁(yè)方法15-19
  • 2.2.1 Pagerank 算法16-17
  • 2.2.2 Trustrank 算法17-19
  • 2.3 本章小結(jié)19-20
  • 第三章 基于結(jié)合內(nèi)容特征的 TrustRank 算法改進(jìn)20-24
  • 3.1 內(nèi)容特征分析20-21
  • 3.2 結(jié)合內(nèi)容特征的 TrustRank 算法21
  • 3.3 實(shí)驗(yàn)及結(jié)果分析21-23
  • 3.4 本章小結(jié)23-24
  • 第四章 基于擬合內(nèi)容與鏈接特征分布的垃圾網(wǎng)頁(yè)檢測(cè)方法24-30
  • 4.1 數(shù)據(jù)集24
  • 4.2 網(wǎng)頁(yè)內(nèi)容特征及鏈接特征24-28
  • 4.3 實(shí)驗(yàn)結(jié)果及其分析28-29
  • 4.4 本章小結(jié)29-30
  • 第五章 基于排序算法的垃圾網(wǎng)頁(yè)檢測(cè)方法30-36
  • 5.1 特征分布30-32
  • 5.2 結(jié)合內(nèi)容特征與鏈接信息的排序模型32-33
  • 5.3 實(shí)驗(yàn)結(jié)果及分析33-35
  • 5.4 本章結(jié)論35-36
  • 第六章 總結(jié)與展望36-37
  • 6.1 研究?jī)?nèi)容總結(jié)36
  • 6.2 下一步工作36-37
  • 參考文獻(xiàn)37-40
  • 攻讀碩士學(xué)位期間發(fā)表的論文、申請(qǐng)專利和參與的項(xiàng)目40-41
  • 致謝41

【參考文獻(xiàn)】

中國(guó)期刊全文數(shù)據(jù)庫(kù) 前1條

1 ;The new interpretation of support vector machines on statistical learning theory[J];Science in China(Series A:Mathematics);2010年01期


  本文關(guān)鍵詞:基于排序算法的垃圾網(wǎng)頁(yè)檢測(cè)技術(shù),由筆耕文化傳播整理發(fā)布。



本文編號(hào):340467

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/340467.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f9369***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com