三種用于垃圾網頁檢測的隨機欠采樣集成分類器
本文選題:垃圾網頁檢測 + 不平衡分類。 參考:《計算機應用》2017年02期
【摘要】:針對垃圾網頁檢測過程中輕微的不平衡分類問題,提出三種隨機欠采樣集成分類器算法,分別為一次不放回隨機欠采樣(RUS-once)、多次不放回隨機欠采樣(RUS-multiple)和有放回隨機欠采樣(RUS-replacement)算法。首先使用其中一種隨機欠采樣技術將訓練樣本集轉換成平衡樣本集,然后對每個平衡樣本集使用分類回歸樹(CART)分類器算法進行分類,最后采用簡單投票法構建集成分類器對測試樣本進行分類。實驗表明,三種隨機欠采樣集成分類器均取得了良好的分類效果,其中RUS-multiple和RUS-replacement比RUS-once的分類效果更好。與CART及其Bagging和Adaboost集成分類器相比,在WEBSPAM UK-2006數(shù)據集上,RUS-multiple和RUS-replacement方法的AUC指標值提高了10%左右,在WEBSPAM UK-2007數(shù)據集上,提高了25%左右;與其他最優(yōu)研究結果相比,RUS-multiple和RUS-replacement方法在AUC指標上能達到最優(yōu)分類結果。
[Abstract]:In order to solve the problem of slight unbalance classification in the process of garbage page detection, three kinds of random under-sampling ensemble classifier algorithms are proposed, which are single unretractable random under-sampling (RUS-onceg), multiple unretractable random under-sampling (RUS-multiple) and random under-sampling (RUS-replacementation) algorithm. Firstly, one of the random under-sampling techniques is used to transform the training sample set into a balanced sample set, and then each balanced sample set is classified by using the classifying regression tree / cart classifier algorithm. Finally, a simple voting method is used to construct an integrated classifier to classify test samples. The experimental results show that all of the three random under-sampling ensemble classifiers have good classification effect, and RUS-multiple and RUS-replacement have better classification effect than RUS-once. Compared with CART and its Bagging and Adaboost integrated classifiers, the AUC index value of RUS-multiple and RUS-replacement methods on WEBSPAM UK-2006 data sets is increased by about 10%, and on WEBSPAM UK-2007 data sets by about 25%. Compared with other optimal results, the RUS-multiple and RUS-replacement methods can achieve the optimal classification results on the AUC index.
【作者單位】: 南昌大學信息工程學院;南昌大學軟件學院;
【基金】:江西省科技支撐計劃項目(20131102040039)~~
【分類號】:TP393.092
【參考文獻】
相關期刊論文 前2條
1 盧曉勇;陳木生;吳政隆;張百棧;;基于免疫克隆特征選擇和欠采樣集成的垃圾網頁檢測[J];計算機應用;2016年07期
2 盧曉勇;陳木生;;基于隨機森林和欠采樣集成的垃圾網頁檢測[J];計算機應用;2016年03期
【共引文獻】
相關期刊論文 前3條
1 陳木生;盧曉勇;;三種用于垃圾網頁檢測的隨機欠采樣集成分類器[J];計算機應用;2017年02期
2 張莉;孫麗娜;郭峰;;在線社會網絡中近似網頁識別方法研究[J];微電子學與計算機;2017年02期
3 盧曉勇;陳木生;吳政隆;張百棧;;基于免疫克隆特征選擇和欠采樣集成的垃圾網頁檢測[J];計算機應用;2016年07期
【二級參考文獻】
相關期刊論文 前4條
1 盧曉勇;陳木生;;基于隨機森林和欠采樣集成的垃圾網頁檢測[J];計算機應用;2016年03期
2 王莉麗;朱焱;馬永強;;基于樸素貝葉斯的偽裝型垃圾網頁檢測[J];計算機應用;2013年S1期
3 房曉南;張化祥;高爽;;基于SMOTE和隨機森林的Web spam檢測[J];山東大學學報(工學版);2013年01期
4 林舒楊;李翠華;江弋;林琛;鄒權;;不平衡數(shù)據的降采樣方法研究[J];計算機研究與發(fā)展;2011年S3期
【相似文獻】
相關期刊論文 前10條
1 呂岳,施鵬飛,趙宇明;多分類器組合的投票表決規(guī)則[J];上海交通大學學報;2000年05期
2 韓宏;楊靜宇;;多分類器組合及其應用[J];計算機科學;2000年01期
3 陳剛,戚飛虎;多分類器結合的人臉識別[J];上海交通大學學報;2001年02期
4 韓宏,楊靜宇,婁震;基于層次的分類器組合[J];南京理工大學學報(自然科學版);2002年01期
5 趙誼虹,程國華,史習智;多分類器融合中一種新的加權算法[J];上海交通大學學報;2002年06期
6 王正群,葉暉,孫興華,楊靜宇;模糊多分類器組合[J];小型微型計算機系統(tǒng);2003年01期
7 楊利英,覃征,王向華;多分類器融合實現(xiàn)機型識別[J];計算機工程與應用;2004年15期
8 楊利英,覃征,王衛(wèi)紅;多分類器融合系統(tǒng)設計與應用[J];計算機工程;2005年05期
9 陳湘;;1-范數(shù)軟間隔分類器的風險[J];湖北大學學報(自然科學版);2006年02期
10 秦鋒;楊波;程澤凱;;分類器性能評價標準研究[J];計算機技術與發(fā)展;2006年10期
相關會議論文 前10條
1 王占一;徐蔚然;劉東鑫;郭軍;;一種基于兩級分類器的垃圾短信過濾方法[A];第五屆全國信息檢索學術會議論文集[C];2009年
2 翟靜;李海宏;唐常杰;陳敏敏;李智;;可驗證對象集分類器的再訓練演進[A];第十九屆全國數(shù)據庫學術會議論文集(研究報告篇)[C];2002年
3 陳繼航;劉家鋒;趙巍;唐降龍;;聯(lián)機手寫識別筆段特征分類器的學習方法[A];黑龍江省計算機學會2009年學術交流年會論文集[C];2010年
4 穆明生;;基于特征集的多種分類器模型的在線筆跡認證[A];第十屆全國信號處理學術年會(CCSP-2001)論文集[C];2001年
5 彭濤;左萬利;赫楓齡;;基于鏈接上下文的分類器主題爬行技術(英文)[A];第二十三屆中國數(shù)據庫學術會議論文集(技術報告篇)[C];2006年
6 王嵐;陳珂;遲惠生;;基于多特征組合多分類器的方法用于“與文本無關”的說話人辨認[A];第四屆全國人機語音通訊學術會議論文集[C];1996年
7 謝秋玲;;應用于心電圖分類的KNN-SVM分類器研究[A];2006中國控制與決策學術年會論文集[C];2006年
8 胡瓊;汪榮貴;胡韋偉;孫見青;;基于級聯(lián)分類器的快速人臉檢測方法[A];計算機技術與應用進展·2007——全國第18屆計算機技術與應用(CACIS)學術會議論文集[C];2007年
9 李蘭春;王雙成;杜瑞杰;;認知結構評估的動態(tài)貝葉斯網絡分類器方法[A];2011年中國智能自動化學術會議論文集(第一分冊)[C];2011年
10 邵小健;段華;賀國平;;一種改進的最少核分類器[A];中國運籌學會第七屆學術交流會論文集(上卷)[C];2004年
相關重要報紙文章 前1條
1 黃明;精子分類器決定生男生女[N];廣東科技報;2000年
相關博士學位論文 前10條
1 張非;對抗逃避攻擊的防守策略研究[D];華南理工大學;2015年
2 張文博;多類別智能分類器方法研究[D];西安電子科技大學;2014年
3 許勁松;智能交通中目標檢測與分類關鍵技術研究[D];南京理工大學;2014年
4 余家林;普通場景視頻人臉檢測與識別的關鍵技術研究[D];浙江大學;2016年
5 趙作林;基于圖像分析的北京地區(qū)楊樹種類識別研究[D];北京林業(yè)大學;2015年
6 任亞峰;基于標注和未標注數(shù)椐的虛假評論識別研究[D];武漢大學;2015年
7 曹鵬;不均衡數(shù)據分類方法的研究[D];東北大學;2014年
8 劉明;分類器組合技術研究及其在人機交互系統(tǒng)中的應用[D];北京交通大學;2008年
9 嚴志永;在劃分數(shù)據空間的視角下基于決策邊界的分類器研究[D];浙江大學;2011年
10 王U,
本文編號:1967502
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/1967502.html