基于關(guān)聯(lián)屬性主成分分析的SVM技術(shù)應(yīng)用于Web Spam分類
本文關(guān)鍵詞:基于關(guān)聯(lián)屬性主成分分析的SVM技術(shù)應(yīng)用于Web Spam分類
更多相關(guān)文章: 垃圾網(wǎng)頁 關(guān)聯(lián)屬性 主成分分析 支持向量機
【摘要】:垃圾網(wǎng)頁(Web Spam)的大量存在嚴(yán)重降低了搜索引擎的檢索效率。針對垃圾網(wǎng)頁內(nèi)容特征、鏈接特征的高維性及特征屬性間的冗余性,本研究先對垃圾網(wǎng)頁數(shù)據(jù)集中具有較高相關(guān)度的關(guān)聯(lián)屬性進行分組主成分分析(PCA),并選取最高貢獻率的第一主成分的主要屬性,從而減少冗余。再使用支持向量機(SVM)分類模型對處理后的數(shù)據(jù)集進行分類實驗。實驗結(jié)果表明,本文提出的方法可有效提高SVM對垃圾網(wǎng)頁的分類性能。
【作者單位】: 山東師范大學(xué)信息科學(xué)與工程學(xué)院;山東省分布式計算機軟件新技術(shù)重點實驗室;
【關(guān)鍵詞】: 垃圾網(wǎng)頁 關(guān)聯(lián)屬性 主成分分析 支持向量機
【基金】:基于特征建模優(yōu)化及判別學(xué)習(xí)的web spam識別技術(shù)研究,國家自然科學(xué)基金(61170145) 基于特征建模與優(yōu)化的web垃圾頁面識別技術(shù)研究,教育部博士點基金(20113704110001) Spam頁面特征優(yōu)化模型及非線性識別技術(shù),山東省自然科學(xué)基金(ZR2010FM021)
【分類號】:TP393.092
【正文快照】: 1引言中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2015年7月發(fā)布的《中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,我國搜索引擎用戶規(guī)模達(dá)5.36億,使用率為80.3%[1]。搜索引擎已成為用戶訪問互聯(lián)網(wǎng)資源,獲取各類信息的主要工具。然而搜索引擎的廣泛使用卻使得垃圾網(wǎng)頁愈加泛濫,這嚴(yán)重降低了搜索引擎的
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 黎夏,葉嘉安;主成分分析與Cellular Automata在空間決策與城市模擬中的應(yīng)用[J];中國科學(xué)(D輯:地球科學(xué));2001年08期
2 黃炎磊;;主成分聚類分析在區(qū)域經(jīng)濟評價中的應(yīng)用——以廣東省城鎮(zhèn)居民可支配收入為例[J];福建電腦;2009年09期
3 許延鑫;熊繼平;;基于二次主成分分析模型解決病情確診問題[J];微型機與應(yīng)用;2009年19期
4 劉聰;汪明;;R軟件在主成分分析中的應(yīng)用研究[J];電腦知識與技術(shù);2011年13期
5 趙麗紅;張西禮;徐心和;;基于二維對稱主成分分析的人臉識別[J];儀器儀表學(xué)報;2008年06期
6 鄒東升;佘龍華;;改進的主成分分析方法在磁浮系統(tǒng)中的應(yīng)用[J];振動、測試與診斷;2009年01期
7 王麗華;秦嬋嬋;徐洪波;;基于完全二維對稱主成分分析的人臉識別[J];計算機工程;2010年12期
8 李薇;曹萍;;基于主成分分析的軟件外包人才創(chuàng)新能力的定量評價[J];天津理工大學(xué)學(xué)報;2012年06期
9 欒大龍;鉉一民;姚彬;趙煥叢;;基于粗糙集—主成分分析的企業(yè)創(chuàng)新能力評價實證研究[J];計算機工程與應(yīng)用;2007年04期
10 姚燦;蔡建峰;;陜西省互聯(lián)網(wǎng)絡(luò)發(fā)展與產(chǎn)業(yè)發(fā)展關(guān)系的實證研究[J];情報雜志;2007年09期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 么彩蓮;魏寧;;關(guān)于主成分分析的改進方法探討[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年
2 陳明星;繆柏其;靳韜;;利率影響因素的主成分分析與因子分析[A];中國現(xiàn)場統(tǒng)計研究會第12屆學(xué)術(shù)年會論文集[C];2005年
3 孫曉東;胡勁松;焦s,
本文編號:776080
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/776080.html