天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于隨機森林和欠采樣集成的垃圾網(wǎng)頁檢測

發(fā)布時間:2017-06-19 22:03

  本文關鍵詞:基于隨機森林和欠采樣集成的垃圾網(wǎng)頁檢測,由筆耕文化傳播整理發(fā)布。


【摘要】:為解決垃圾網(wǎng)頁檢測過程中的不平衡分類和"維數(shù)災難"問題,提出一種基于隨機森林(RF)和欠采樣集成的二元分類器算法。首先使用欠采樣技術(shù)將訓練樣本集大類抽樣成多個子樣本集,再將其分別與小類樣本集合并構(gòu)成多個平衡的子訓練樣本集;然后基于各個子訓練樣本集訓練出多個隨機森林分類器;最后用多個隨機森林分類器對測試樣本集進行分類,采用投票法確定測試樣本的最終所屬類別。在WEBSPAM UK-2006數(shù)據(jù)集上的實驗表明,該集成分類器算法應用于垃圾網(wǎng)頁檢測比隨機森林算法及其Bagging和Adaboost集成分類器算法效果更好,準確率、F1測度、ROC曲線下面積(AUC)等指標提高至少14%,13%和11%。與Web spam challenge 2007優(yōu)勝團隊的競賽結(jié)果相比,該集成分類器算法在F1測度上提高至少1%,在AUC上達到最優(yōu)結(jié)果。
【作者單位】: 南昌大學軟件學院;南昌大學信息工程學院;
【關鍵詞】垃圾網(wǎng)頁檢測 隨機森林 欠采樣 集成分類器 機器學習
【基金】:江西省科技支撐計劃項目(20131102040039)~~
【分類號】:TP391.3;TP393.092
【正文快照】: 0引言垃圾網(wǎng)頁(Web spam)指的是自身真實價值很低,卻在搜索引擎結(jié)果頁面(Search Engine Result Page,SERP)排名靠前的網(wǎng)頁[1]。研究表明,互聯(lián)網(wǎng)上的垃圾網(wǎng)頁大約占到10%~15%[1]。垃圾網(wǎng)頁產(chǎn)生的原因,是由于大多數(shù)搜索引擎使用者只會瀏覽SERP的前3頁[2],在SERP中排名越靠前,被

  本文關鍵詞:基于隨機森林和欠采樣集成的垃圾網(wǎng)頁檢測,,由筆耕文化傳播整理發(fā)布。



本文編號:463853

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/463853.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶99633***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com