天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于鏈接分析的搜索引擎反作弊技術(shù)研究

發(fā)布時間:2020-07-15 14:20
【摘要】:隨著互聯(lián)網(wǎng)的飛速發(fā)展和廣泛普及,人們網(wǎng)上活動日益頻繁。資料顯示,目前搜索引擎已經(jīng)成為因特網(wǎng)的入口,成為人們在網(wǎng)絡(luò)中獲取信息的主要方式。 搜索引擎通過分析用戶提交的關(guān)鍵詞,將之與索引庫中已建立的網(wǎng)頁進(jìn)行對比,將相關(guān)性最高的網(wǎng)頁返回給用戶。由于搜索引擎一般索引了數(shù)以億級的網(wǎng)頁,而用戶通常只關(guān)注前10~20條搜索結(jié)果,因而對返回結(jié)果頁的排序成為搜索引擎的一個關(guān)鍵。而對網(wǎng)站建設(shè)者來說,獲得更好地排名意味著巨大的利益,而建設(shè)與維護(hù)一個高質(zhì)量的網(wǎng)站,往往需要花費(fèi)大筆精力。于是,從搜索引擎誕生的那天開始,作弊也隨之而生。作弊是指針對搜索引擎排序算法中存在的漏洞與不足,采取欺騙的手段,獲得網(wǎng)站的不正當(dāng)排名。目前,針對搜索引擎的排序原理,作弊一般分為內(nèi)容作弊與鏈接作弊。作弊不僅增加搜索引擎的運(yùn)行與維護(hù)成本,而且降低搜索效率,影響用戶感受。因此,進(jìn)行搜索引擎的反作弊研究,提出有效地反作弊技術(shù)對網(wǎng)絡(luò)的健康發(fā)展與信息的迅速傳播具有重要意義。 本文在已有的鏈接反作弊技術(shù)的基礎(chǔ)上,提出通過分析網(wǎng)站或網(wǎng)頁的Rank時間序列值,挖掘出作弊頁的序列特征。主要內(nèi)容概括如下: 1.首先對搜索引擎的原理,網(wǎng)絡(luò)結(jié)構(gòu)模型及基于鏈接的排名算法PageRank與HITS進(jìn)行分析介紹,然后著重分析了目前針對基于鏈接的搜索引擎最為普遍的一種作弊方式:鏈接工廠及其聯(lián)盟。最終,在分析了各種作弊與反作弊技術(shù)的基礎(chǔ)上,我們提出可以結(jié)合現(xiàn)有反作弊技術(shù),通過分析網(wǎng)頁Rank的時間序列值檢測作弊網(wǎng)頁,并通過實驗證實了這種方法的有效性與可行性。 2.設(shè)計并實現(xiàn)了一個提取DR(Domain Rank)異常值序列的實驗。實驗利用了企業(yè)生產(chǎn)實踐中數(shù)據(jù)比較新比較全的特點,結(jié)合鏈接作弊的特征,分析了DR值序列在作弊檢測中的作用,并對實驗中海量數(shù)據(jù)的處理方法進(jìn)行了介紹。實驗通過對比選取不同的統(tǒng)計特征得到的不同可疑作弊頁,對實驗結(jié)果進(jìn)行了詳細(xì)的分析,證實了DR值序列分析在反作弊研究中的合理性與有效性。同時,實驗充分考慮了對異常值抽取策略的擴(kuò)展性兼容,以便后續(xù)實驗。最后,文章對以后還需要做的工作做了進(jìn)行了總結(jié)展望。
【學(xué)位授予單位】:華南理工大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2012
【分類號】:TP391.3
【圖文】:

流程圖,搜索引擎,流程圖,查詢接口


第 2 章 基于鏈接分析的搜索引擎排序算法題等。查詢接口是接受用戶查詢并返回查詢結(jié)果的用戶界面,目前主流的搜索引擎并不拘泥于基于關(guān)鍵詞的查詢,而是注重查詢接口界面的設(shè)計,如檢索過程中對用戶的提示,返回的查詢結(jié)果表示方式;注重為用戶提供更加多元化的服務(wù)等等。搜索引擎流程如圖 2-1 所示[17]。

示意圖,網(wǎng)絡(luò)鏈接,鏈接,示意圖


圖 2-2 網(wǎng)絡(luò)鏈接示意圖0 1 0 0 00 0 1 1 00 1 0 0 00 0 0 0 10 0 0 0 00 0 0 0 0 ransition Matrix)定來鏈接數(shù)量,如下:1/ ( ) if <j, i> 0 else.{out j 陣為:0 0 0 0

域名,網(wǎng)頁


以用戶體驗為核心,這也是它與搜索引擎作弊的本質(zhì)不同。3.1.2現(xiàn)狀近年來,互聯(lián)網(wǎng)的快速發(fā)展大大促進(jìn)了基于 Web 的電子商務(wù)的發(fā)展。對于電子商務(wù)網(wǎng)站來說,網(wǎng)站流量意味著交易機(jī)會和商業(yè)利潤。而網(wǎng)站流量的大小很大程度上取決于該網(wǎng)站的網(wǎng)頁在搜索引擎結(jié)果中的排名是否靠前。在商業(yè)利益的驅(qū)使下,商業(yè)網(wǎng)站擁有者利用包括作弊在內(nèi)的各種手段提高自己網(wǎng)站的排名。為了研究互聯(lián)網(wǎng)上到底存在多少作弊網(wǎng)頁, Alexandros Ntoulas 等在一個包含 105,484,686 個網(wǎng)頁的數(shù)據(jù)集上進(jìn)行了兩個實驗[9]。在第一個實驗中,他們對屬于不同頂級域名的網(wǎng)頁進(jìn)行統(tǒng)計,以便發(fā)現(xiàn)作弊網(wǎng)頁在不同域名上的分布狀況。在 8 個最常見的頂級域名上的統(tǒng)計結(jié)果如圖 3-1 圖 3-1 所示:由圖 3-1 可見,在.biz 域名上兒乎 70%的網(wǎng)頁都是作弊網(wǎng)頁;在.us 域名上的作弊網(wǎng)頁比例也達(dá)到了 35%;而在.edu 域名上幾乎沒有作弊網(wǎng)頁。

【參考文獻(xiàn)】

相關(guān)期刊論文 前4條

1 閆永權(quán);張大方;;基于頻繁的Markov鏈預(yù)測模型[J];計算機(jī)應(yīng)用研究;2007年03期

2 何曉陽,吳強(qiáng),吳治蓉;HITS算法與PageRank算法比較分析[J];情報雜志;2004年02期

3 郭天印;Markov預(yù)測與決策的Excel實現(xiàn)[J];陜西工學(xué)院學(xué)報;2003年01期

4 戚華春,黃德才,鄭月鋒;具有時間反饋的PageRank改進(jìn)算法[J];浙江工業(yè)大學(xué)學(xué)報;2005年03期



本文編號:2756605

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2756605.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶f616f***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com