天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁檢測

發(fā)布時間:2017-09-26 04:03

  本文關鍵詞:基于免疫克隆特征選擇和欠采樣集成的垃圾網(wǎng)頁檢測


  更多相關文章: 垃圾網(wǎng)頁檢測 集成學習 免疫克隆算法 特征選擇 欠采樣 隨機森林


【摘要】:為解決垃圾網(wǎng)頁檢測過程中的"維數(shù)災難"和不平衡分類問題,提出一種基于免疫克隆特征選擇和欠采樣(US)集成的二元分類器算法。首先,使用欠采樣技術將訓練樣本集大類抽樣成多個與小類樣本數(shù)相近的樣本集,再將其分別與小類樣本合并構成多個平衡的子訓練樣本集;然后,設計一種免疫克隆算法遴選出多個最優(yōu)的特征子集;基于最優(yōu)特征子集對平衡的子樣本集進行投影操作,生成平衡數(shù)據(jù)集的多個視圖;最后,用隨機森林(RF)分類器對測試樣本進行分類,采用簡單投票法確定測試樣本的最終類別。在WEBSPAM UK-2006數(shù)據(jù)集上的實驗結果表明,該集成分類器算法應用于垃圾網(wǎng)頁檢測:與隨機森林算法及其Bagging和Ada Boost集成分類器算法相比,準確率、F1測度、AUC等指標均提高11%以上;與其他最優(yōu)的研究結果相比,該集成分類器算法在F1測度上提高2%,在AUC上達到最優(yōu)。
【作者單位】: 南昌大學軟件學院;南昌大學信息工程學院;元智大學資訊學院;
【關鍵詞】垃圾網(wǎng)頁檢測 集成學習 免疫克隆算法 特征選擇 欠采樣 隨機森林
【基金】:江西省科技支撐計劃項目(20131102040039)~~
【分類號】:TP391.3;TP393.092
【正文快照】: 0引言垃圾網(wǎng)頁指的是那些在搜索引擎查詢結果中具有良好的排名而實際價值卻較差的網(wǎng)站和網(wǎng)頁。垃圾網(wǎng)頁之所以會出現(xiàn),是由于搜索引擎用戶傾向于只點擊那些排名靠前的鏈接。為了取得靠前的排名,各網(wǎng)站便想方設法采取各種手段優(yōu)化網(wǎng)站。而通過正當手段提高網(wǎng)站排名,成本極其高昂

【相似文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 李曉麗;;基于改進免疫克隆算法的終端區(qū)航班進場調(diào)度[J];計算機測量與控制;2013年06期

2 劉士榮;張波濤;;采用生物信息機制的量子免疫克隆算法[J];模式識別與人工智能;2011年03期

3 朱建東;蔣衛(wèi)菊;;基于免疫克隆算法的課表編排方案[J];計算機工程;2011年22期

4 劉洋;黃晉英;;免疫克隆算法收斂性及其在路徑規(guī)劃中的應用[J];信息技術與信息化;2014年01期

5 漆楊;秦子玄;陳霞;于中華;;基于免疫克隆算法的容量受限工廠選址問題研究[J];計算機應用;2009年01期

6 王娟;李飛;;一種基于實數(shù)編碼的量子免疫克隆算法[J];計算機工程;2012年18期

7 吳秋逸;焦李成;李陽陽;鄧曉政;;自適應量子免疫克隆算法及其收斂性分析[J];模式識別與人工智能;2008年05期

8 唐正;胡珉;;空間自適應免疫克隆選擇優(yōu)化算法[J];計算機應用;2009年02期

9 徐海黎;朱志松;王恒;朱龍彪;;環(huán)境變異免疫克隆算法解決有約束優(yōu)化問題[J];系統(tǒng)仿真學報;2011年11期

10 張敏輝;;基于結合鮑德溫效應和周期變異的免疫克隆優(yōu)化算法的研究[J];電腦與信息技術;2012年02期

中國重要會議論文全文數(shù)據(jù)庫 前3條

1 馬威;顧幸生;;一種求解多目標flow shop調(diào)度問題的免疫克隆算法[A];上海市化學化工學會2010年度學術年會論文集(自動化專題)[C];2010年

2 戴鍵;楊宏暉;;用于水聲目標識別的自適應免疫克隆特征選擇算法[A];2011'中國西部聲學學術交流會論文集[C];2011年

3 王蕓;楊宏暉;戴健;;加權免疫克隆樣本選擇與特征選擇融合算法[A];第三屆上!靼猜晫W學會學術會議論文集[C];2013年

中國重要報紙全文數(shù)據(jù)庫 前3條

1 聶曉剛;免疫克隆公司又遇麻煩[N];科技日報;2002年

2 曹嘉智;免疫克隆公司迎來黎明?[N];醫(yī)藥經(jīng)濟報;2003年

3 ;免疫克隆公司遭遇最后通牒[N];科技日報;2002年

中國博士學位論文全文數(shù)據(jù)庫 前2條

1 孫奕菲;基于小世界網(wǎng)絡模型和免疫克隆優(yōu)化的智能計算方法以及應用[D];西安電子科技大學;2014年

2 劉若辰;免疫克隆策略算法及其應用研究[D];西安電子科技大學;2005年

中國碩士學位論文全文數(shù)據(jù)庫 前10條

1 張國龍;基于免疫克隆算法的船舶遠程故障診斷研究[D];大連海事大學;2015年

2 李潤心;基于免疫克隆選擇的維數(shù)縮減及其應用[D];西安電子科技大學;2010年

3 王娟;量子免疫克隆算法研究及在壓縮感知重構中的應用[D];南京郵電大學;2012年

4 張麗霞;免疫克隆智能優(yōu)化算法的研究與應用[D];西北大學;2008年

5 馮靜;基于免疫克隆的投影尋蹤聚類算法及其應用[D];西安電子科技大學;2010年

6 張曉琳;基于免疫克隆選擇算法的作業(yè)車間調(diào)度問題研究[D];西安電子科技大學;2009年

7 馬紅梅;基于Curvelet冗余字典和免疫克隆優(yōu)化的壓縮感知重構[D];西安電子科技大學;2012年

8 楊茸;求解隨機機會約束規(guī)劃的免疫克隆混合算法及應用[D];太原理工大學;2012年

9 馬威;基于免疫克隆算法的多目標flow shop生產(chǎn)調(diào)度的研究[D];華東理工大學;2011年

10 徐聰;稀疏自然計算的學習算法及應用研究[D];西安電子科技大學;2013年

,

本文編號:921330

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/921330.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶593cc***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com