天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于鏈接權(quán)重的垃圾網(wǎng)頁檢測(cè)算法研究

發(fā)布時(shí)間:2020-09-10 08:26
   隨著計(jì)算機(jī)的發(fā)展,人們與互聯(lián)網(wǎng)的聯(lián)系日益密切,與此同時(shí),垃圾網(wǎng)頁層出不窮,欺騙搜索引擎,影響用戶的上網(wǎng)體驗(yàn),成為影響互聯(lián)網(wǎng)環(huán)境的一大因素。介紹了垃圾網(wǎng)頁的概念,探究了垃圾網(wǎng)頁常用的作弊手段與檢測(cè)方法,垃圾網(wǎng)頁常通過內(nèi)容作弊與鏈接作弊以提高自身在搜索引擎中的重要性,現(xiàn)有算法可分為基于內(nèi)容的檢測(cè)算法與基于鏈接的檢測(cè)算法以及其他。對(duì)于基于鏈接的垃圾網(wǎng)頁檢測(cè)算法,提出了一種改進(jìn)算法。首先分析了現(xiàn)有算法的一些不足,網(wǎng)頁在傳播評(píng)分時(shí)以出度或入度平均分配分?jǐn)?shù),未有效處理垃圾網(wǎng)頁通過各種方法指向高評(píng)分網(wǎng)頁或被高評(píng)分網(wǎng)頁指向的情況。針對(duì)這些不足,為每個(gè)鏈接賦予了一定權(quán)重,使得網(wǎng)頁在傳播分?jǐn)?shù)時(shí)與鏈接權(quán)重相關(guān),權(quán)重越大的鏈接所能傳播的分?jǐn)?shù)越高。出鏈作弊是指垃圾網(wǎng)頁通過指向大量高評(píng)分網(wǎng)頁以提升分?jǐn)?shù),但這一行為會(huì)得到區(qū)分識(shí)別。入鏈作弊是指垃圾網(wǎng)頁通過將高評(píng)分網(wǎng)頁指向自身,以獲得來自高評(píng)分網(wǎng)頁的分?jǐn)?shù),提出的算法使得高評(píng)分網(wǎng)頁鏈接到低評(píng)分網(wǎng)頁時(shí)也能受低評(píng)分網(wǎng)頁影響導(dǎo)致自身評(píng)分下降。最后證明了所提出算法的收斂性。基于WEBSPAM-UK2006與WEBSPAM-UK2007數(shù)據(jù)集的實(shí)驗(yàn),在不同實(shí)驗(yàn)指標(biāo)下對(duì)比了PageRank,TrustRank以及Trust-Distrust Rank算法,結(jié)果表明提出的垃圾網(wǎng)頁檢測(cè)算法能有效地降低垃圾網(wǎng)頁在全部網(wǎng)頁中的排名,提高垃圾網(wǎng)頁的檢測(cè)效果。
【學(xué)位單位】:華中科技大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位年份】:2019
【中圖分類】:TP393.092
【部分圖文】:

垃圾,網(wǎng)頁,量桶,網(wǎng)數(shù)


圖 4.1 UK2006 Spam Factor頁數(shù)量桶結(jié)果如表 4.3 所示。表 4.3 UK2006 每個(gè)桶的垃圾網(wǎng)頁數(shù)量桶垃圾網(wǎng)數(shù)量LinkWeightRank PageRank TrustRank T1 0 15 0 2 0 33 0 3 2 114 3 4 0 155 2 5 0 49 15 6 4 52 38 7 10 65 63 8 11 34 98 9 23 71 72 10 35 60 91 11 88 69 126 12 113 65 130 13 125 96 157

垃圾,網(wǎng)頁


32圖 4.2 UK2006 每個(gè)桶的垃圾網(wǎng)頁數(shù)量從圖 4.2 中可以看到,在 1-4 桶中,LinkWeightRank、TrustRank、T-Rank 的垃圾網(wǎng)頁數(shù)量均較少,基本接近 0,而 PageRank 的垃圾網(wǎng)頁數(shù)量相對(duì)較多,即使在數(shù)量最少的 1 號(hào)桶也有 15 個(gè)垃圾網(wǎng)頁。從第 5 桶開始,LinkWeightRank 與 TrustRank和 T-Rank 的差距開始增大,LinkWeightRank 在 5-14 桶依然保持最低的垃圾網(wǎng)頁數(shù)量

垃圾,網(wǎng)頁


1 0 15 0 2 0 48 0 3 2 162 3 4 2 317 5 5 2 366 20 16 6 418 58 47 16 483 121 18 27 517 219 19 50 588 291 210 85 648 382 311 173 717 508 412 286 782 638 513 411 878 795 714 525 984 953 815 739 1128 1149 1016 1000 1312 1302 1217 1236 1517 1449 1318 1343 1740 1624 1519 1592 1870 1831 1720 1924 1924 1924 19

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 程寬桐;算法分類及各種基本算法的比較與優(yōu)選(上)[J];齊魯珠壇;1996年04期

2 劉培;池忠軍;;算法歧視的倫理反思[J];自然辯證法通訊;2019年10期

3 孫建麗;;算法自動(dòng)化決策風(fēng)險(xiǎn)的法律規(guī)制研究[J];法治研究;2019年04期

4 吳珍珍;;基于分類規(guī)則算法對(duì)存款意愿傾向的研究[J];石河子科技;2018年02期

5 唐璐楊;唐小妹;李柏渝;劉小匯;;多源融合導(dǎo)航系統(tǒng)的融合算法綜述[J];全球定位系統(tǒng);2018年03期

6 周祉含;;西方新聞傳播學(xué)的算法研究綜述[J];新聞愛好者;2019年04期

7 趙春杰;;算法共謀的規(guī)制思路[J];市場(chǎng)周刊;2019年07期

8 金爽;;基于標(biāo)簽傳播的社區(qū)發(fā)現(xiàn)算法研究與應(yīng)用[J];電腦迷;2018年01期

9 孫建麗;;試論算法的法律保護(hù)模式[J];電子知識(shí)產(chǎn)權(quán);2019年06期

10 程寬桐;算法分類及各種基本算法的比較與優(yōu)選(下)[J];齊魯珠壇;1996年05期

相關(guān)會(huì)議論文 前1條

1 李鐵山;張錦;王東;陳波;;傳感器網(wǎng)絡(luò)中容錯(cuò)路由算法分類研究[A];全國第16屆計(jì)算機(jī)科學(xué)與技術(shù)應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集[C];2004年

相關(guān)博士學(xué)位論文 前7條

1 高陽;基于局部擴(kuò)展的重疊社區(qū)發(fā)現(xiàn)算法研究[D];哈爾濱工業(yè)大學(xué);2019年

2 賈潔茹;跨攝像機(jī)行人再識(shí)別中度量學(xué)習(xí)算法研究[D];北京交通大學(xué);2019年

3 翟婷婷;面向流數(shù)據(jù)分類的在線學(xué)習(xí)算法研究[D];南京大學(xué);2018年

4 段沛博;分布式約束優(yōu)化算法的研究與應(yīng)用[D];東北大學(xué);2017年

5 羅春備;面向多尺度復(fù)雜場(chǎng)景的高效電磁仿真算法研究[D];浙江大學(xué);2019年

6 邵彥超;油氣井安全生產(chǎn)監(jiān)控?cái)?shù)據(jù)預(yù)測(cè)預(yù)警系統(tǒng)及算法研究[D];北京郵電大學(xué);2016年

7 劉瓊;鄉(xiāng)村道路環(huán)境下農(nóng)業(yè)機(jī)器人導(dǎo)航避障算法研究[D];西北農(nóng)林科技大學(xué);2017年

相關(guān)碩士學(xué)位論文 前10條

1 王強(qiáng)強(qiáng);基于特征篩選腦電睡眠分期算法研究[D];重慶郵電大學(xué);2019年

2 王們;有序?qū)W習(xí)算法及其在成績預(yù)測(cè)中的應(yīng)用[D];南京師范大學(xué);2019年

3 朱小祥;基于社會(huì)網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)算法研究[D];南京航空航天大學(xué);2019年

4 王樂;基于DT-SVM的校園霸凌檢測(cè)算法[D];哈爾濱工業(yè)大學(xué);2019年

5 項(xiàng)耀軍;基于深度學(xué)習(xí)的商標(biāo)檢測(cè)算法研究[D];哈爾濱工業(yè)大學(xué);2018年

6 楊子奇;面向大規(guī)模數(shù)據(jù)分類問題的監(jiān)督學(xué)習(xí)算法研究與并行應(yīng)用[D];哈爾濱工業(yè)大學(xué);2018年

7 謝天;基于圖的偏標(biāo)記學(xué)習(xí)算法研究[D];戰(zhàn)略支援部隊(duì)信息工程大學(xué);2019年

8 肖萍;大規(guī)模MIMO系統(tǒng)的低復(fù)雜度檢測(cè)算法研究[D];西安電子科技大學(xué);2019年

9 周姜煒;基于鏈接權(quán)重的垃圾網(wǎng)頁檢測(cè)算法研究[D];華中科技大學(xué);2019年

10 李明洋;基于密度聚類算法的若干改進(jìn)及應(yīng)用研究[D];吉林財(cái)經(jīng)大學(xué);2019年



本文編號(hào):2815603

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2815603.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5d15d***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com