天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于鏈接相似度和作弊系數(shù)的Spam網(wǎng)頁(yè)識(shí)別算法

發(fā)布時(shí)間:2020-12-26 03:31
  Spam網(wǎng)頁(yè)主要通過(guò)鏈接作弊手段達(dá)到提高搜索排名而獲利的目的,根據(jù)鏈接作弊的特征,引入鏈接相似度和作弊系數(shù)兩個(gè)指標(biāo)來(lái)判定網(wǎng)頁(yè)作弊的可能性。借鑒BadRank算法思想,從Spam網(wǎng)頁(yè)種子集合通過(guò)迭代計(jì)算鏈接相似度和作弊系數(shù),并根據(jù)與種子集合的鏈接指向關(guān)系設(shè)置權(quán)重,將待判定的網(wǎng)頁(yè)進(jìn)行度量。最后選取Anti-Trust Rank等算法作對(duì)比實(shí)驗(yàn),結(jié)果驗(yàn)證了本文算法在準(zhǔn)確率和適應(yīng)性方面優(yōu)于對(duì)比算法。 

【文章來(lái)源】:計(jì)算機(jī)工程與科學(xué). 2015年10期 北大核心

【文章頁(yè)數(shù)】:6 頁(yè)

【部分圖文】:

基于鏈接相似度和作弊系數(shù)的Spam網(wǎng)頁(yè)識(shí)別算法


圖1鏈接結(jié)構(gòu)對(duì)比Figure1Linkstructurecontrast

鏈接結(jié)構(gòu),網(wǎng)頁(yè)


意關(guān)聯(lián),互相關(guān)聯(lián)的Spam網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)也存在著比較高的相似性,它們既共同指向一些網(wǎng)頁(yè),又被一些相同網(wǎng)頁(yè)引用;阪溄咏Y(jié)構(gòu),陳小飛等[15]提出了一種Spam網(wǎng)頁(yè)過(guò)濾算法,根據(jù)鏈接結(jié)構(gòu)的相似度(包含出鏈相似度和入鏈相似度),運(yùn)用聚類降權(quán)的手段有效評(píng)估各鏈接的質(zhì)量,達(dá)到降低排序、過(guò)濾Spam網(wǎng)頁(yè)的效果。張勇實(shí)[16]對(duì)其提出了改進(jìn)算法LSCB-SR,提高了Spam網(wǎng)頁(yè)識(shí)別率。Figure2Linkstructureofthespampages圖2Spam網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu)如圖3所示,假設(shè)b1為Spam網(wǎng)頁(yè),網(wǎng)頁(yè)ai(i∈{1,2,3,4})與b1有直接或間接的鏈接關(guān)系,其中a1和a2都有出鏈直接指向b1,則可以判定a1和a2具有較高的鏈接作弊傾向,因?yàn)樗鼈儙椭猓边_(dá)到目的。但是,不能因?yàn)椋猓庇谐鲦溨苯又赶颍幔扯卸ǎ幔碁椋樱穑幔砭W(wǎng)頁(yè),只能認(rèn)為或許存在一定的作弊可能性,因?yàn)椋幔碂o(wú)法阻止b1指向它。另外,b1有出鏈間接指向a4,對(duì)于a4的判定更缺乏依據(jù)。對(duì)此,王洪偉等[17]提出了鏈接作弊系數(shù)的方法來(lái)解決。它的基本思路是:借鑒BadRank算法思想,從Spam網(wǎng)頁(yè)開(kāi)始,一個(gè)網(wǎng)頁(yè)如有外鏈指向可能存在作弊行為的網(wǎng)頁(yè)(鏈接作弊系數(shù)非零),則該網(wǎng)頁(yè)也將被認(rèn)為存在一定的鏈接作弊可能。通過(guò)一定次數(shù)的迭代,不僅僅局限于初始Spam網(wǎng)1984ComputerEngineering&Science計(jì)算機(jī)工程與科學(xué)2015,37(10)

召回率,準(zhǔn)確率,算法


偽造成正常網(wǎng)頁(yè)(鏈接的多樣性)的結(jié)構(gòu),以避開(kāi)搜索引擎懲罰,所以對(duì)入鏈相似度還應(yīng)給予適當(dāng)?shù)臋?quán)重。4.2同類算法的準(zhǔn)確率對(duì)比為了驗(yàn)證LSSR算法的有效性,實(shí)驗(yàn)選擇與Anti-TrustRank算法、LSCB-SR算法在相同召回率下進(jìn)行準(zhǔn)確率的比較,三種算法取部分的相同參數(shù),即:閾值Ti=0.3,Tp=0.25。此外,LSSR算法還設(shè)定λ=0.2以及d=0.85。三種算法在對(duì)應(yīng)召回率下通過(guò)調(diào)整各自不同閾值T的取值,取得準(zhǔn)確率的最大值,結(jié)果如圖4所示。Figure4Comparisonofaccuracyandrecallrateamongsimilaralgorithms圖4同類算法的準(zhǔn)確率/召回率對(duì)比實(shí)驗(yàn)結(jié)果表明,在相同召回率下,LSSR算法的準(zhǔn)確率高于LSCB-SR算法與Anti-TrustRank算法。調(diào)整閾值T的取值越低,召回率越大,滿足條件的待判定節(jié)點(diǎn)越多(多數(shù)是間接指向Spam網(wǎng)頁(yè)的節(jié)點(diǎn)),節(jié)點(diǎn)范圍更廣,此時(shí)LSSR算法還能保持較高的準(zhǔn)確率,說(shuō)明確實(shí)改進(jìn)了式(5)中的衰減問(wèn)題,所以它的適用性更好。5結(jié)束語(yǔ)本文為了提高Spam網(wǎng)頁(yè)的識(shí)別率,在已有算法和研究成果的基礎(chǔ)上,結(jié)合實(shí)際情況,對(duì)鏈接相似度算法和作弊系數(shù)算法提出了改進(jìn),并將兩種算法組合成全新的LSSR算法。對(duì)比實(shí)驗(yàn)的結(jié)果表明,LSSR算法在擬實(shí)性、準(zhǔn)確率和適用性方面均有一定提升。下一步研究工作可向算法的識(shí)別效率進(jìn)行改進(jìn),待判定網(wǎng)頁(yè)節(jié)點(diǎn)之間的層級(jí)(如首頁(yè)、欄目頁(yè)、內(nèi)容頁(yè))屬性差異研究也可以用來(lái)改進(jìn)識(shí)別算法。參考文獻(xiàn):[1]HenzingerMR

【參考文獻(xiàn)】:
期刊論文
[1]搜索引擎排序作弊的識(shí)別:基于文本內(nèi)容和鏈接結(jié)構(gòu)的分析[J]. 王洪偉,王偉,孟園.  系統(tǒng)工程理論與實(shí)踐. 2015(02)

博士論文
[1]基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D]. 張勇實(shí).哈爾濱工程大學(xué) 2012



本文編號(hào):2938952

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/2938952.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶a541d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com