垃圾網(wǎng)頁檢測的關(guān)鍵技術(shù)研究
本文關(guān)鍵詞:垃圾網(wǎng)頁檢測的關(guān)鍵技術(shù)研究
更多相關(guān)文章: 垃圾網(wǎng)頁檢測 非信任值排序算法 離群點挖掘 級聯(lián)檢測 多類特征
【摘要】:網(wǎng)頁作弊是指作弊者運用各種手段欺騙搜索引擎,使網(wǎng)頁在搜索結(jié)果中獲得高于其本身應(yīng)得排名的行為。垃圾網(wǎng)頁的泛濫嚴(yán)重危害了搜索引擎公司、合法網(wǎng)站和各類用戶的利益,因此研究垃圾網(wǎng)頁檢測技術(shù)已成為一項艱巨而重要的任務(wù)。針對鏈接作弊,排序算法是一種有效手段。但由于Web中存在由正常網(wǎng)頁指向垃圾網(wǎng)頁的鏈接,導(dǎo)致排序算法(Anti-TrustRank等)檢測性能降低,且多數(shù)排序算法沒有考慮網(wǎng)頁內(nèi)容特性,因此本文改進(jìn)Anti-TrustRank和加權(quán)非信任值排序(Weighted Anti-TrustRank, WATR)算法,提出了一種主題相似度和鏈接權(quán)重相結(jié)合,共同調(diào)節(jié)網(wǎng)頁非信任值傳播的排序算法,即結(jié)合主題與鏈接的非信任排序(Distrust Rank based on Topic and Link integration,TLDR)。其中,主題相似度權(quán)重運用隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型計算,鏈接權(quán)重根據(jù)鏈接結(jié)構(gòu)計算。實驗結(jié)果表明,與Anti-TrustRank和WATR相比,TLDR算法能使網(wǎng)頁得到更合理的非信任值,檢測性能有明顯的提高。針對內(nèi)容和鏈接作弊,本文從Web信息源質(zhì)量、Web內(nèi)容質(zhì)量和Web應(yīng)用質(zhì)量三個子維度量化了網(wǎng)頁質(zhì)量,從危害度特性和主題特性兩方面量化了語義特征,并與內(nèi)容和鏈接特征共同構(gòu)建了區(qū)分度高的特征集。此外,分類算法常用來解決垃圾網(wǎng)頁檢測問題,但分類算法性能易受數(shù)據(jù)分布不均衡的影響,而離群點挖掘算法正適用于不均衡的情況。因此本文采用基于熵的離群點挖掘(Entropy-based Outlier Mining, EOM)算法,并設(shè)計了級聯(lián)檢測框架,將檢測分為內(nèi)容特性檢測、鏈接特性檢測和語義特性檢測三級進(jìn)行。通過多組對比實驗表明,本文的質(zhì)量和語義特征能有效提高檢測性能,EOM級聯(lián)檢測框架檢測性能較高,且在數(shù)據(jù)分布不均衡的情況下相對于分類算法更具優(yōu)勢。
【關(guān)鍵詞】:垃圾網(wǎng)頁檢測 非信任值排序算法 離群點挖掘 級聯(lián)檢測 多類特征
【學(xué)位授予單位】:西南交通大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2016
【分類號】:TP393.092
【目錄】:
- 摘要6-7
- Abstract7-10
- 第1章 緒論10-16
- 1.1 研究背景和意義10
- 1.2 國內(nèi)外研究現(xiàn)狀10-14
- 1.3 論文的研究內(nèi)容和組織結(jié)構(gòu)14-16
- 1.3.1 論文的主要研究內(nèi)容14-15
- 1.3.2 論文的各章節(jié)內(nèi)容安排15-16
- 第2章 垃圾網(wǎng)頁檢測的相關(guān)技術(shù)16-26
- 2.1 基于內(nèi)容和鏈接作弊的垃圾網(wǎng)頁16-19
- 2.1.1 基于內(nèi)容作弊的垃圾網(wǎng)頁16-17
- 2.1.2 基于鏈接作弊的垃圾網(wǎng)頁17-19
- 2.2 垃圾網(wǎng)頁檢測技術(shù)19-25
- 2.2.1 排序檢測19-21
- 2.2.2 分類檢測21-24
- 2.2.3 離群點挖掘24-25
- 2.3 本章小結(jié)25-26
- 第3章 針對鏈接作弊的垃圾網(wǎng)頁排序檢測26-38
- 3.1 非信任值的傳播原理26-27
- 3.2 隱含狄利克雷分配模型(Latent Dirichlet Allocation,LDA)27-28
- 3.3 主題相似度權(quán)重28-29
- 3.4 鏈接權(quán)重與計算示例29-30
- 3.5 種子集選取30
- 3.6 結(jié)合主題相似度與鏈接權(quán)重的排序算法30-32
- 3.7 排序檢測實驗32-36
- 3.7.1 數(shù)據(jù)集33
- 3.7.2 參數(shù)設(shè)置與評價指標(biāo)33-34
- 3.7.3 實驗結(jié)果與分析34-36
- 3.8 本章小結(jié)36-38
- 第4章 基于離群點挖掘的垃圾網(wǎng)頁級聯(lián)檢測機制38-51
- 4.1 級聯(lián)檢測框架38
- 4.2 特征提取38-42
- 4.2.1 內(nèi)容和鏈接特征39
- 4.2.2 質(zhì)量特征39-40
- 4.2.3 語義特征40-42
- 4.3 基于熵的離群點挖掘算法的級聯(lián)檢測42-49
- 4.3.1 信息熵43
- 4.3.2 基于熵的離散化43-44
- 4.3.3 基于最小熵交換的檢測方法44-46
- 4.3.4 基于熵的排序46-48
- 4.3.5 級聯(lián)檢測48-49
- 4.4 本章小結(jié)49-51
- 第5章 基于離群點挖掘的垃圾網(wǎng)頁的級聯(lián)檢測實驗51-58
- 5.1 數(shù)據(jù)準(zhǔn)備與評價指標(biāo)51-52
- 5.2 實驗結(jié)果與分析52-57
- 5.2.1 實驗一 基于熵的離群點挖掘算法級聯(lián)檢測結(jié)果53-54
- 5.2.2 實驗二 各類特征對比結(jié)果54-55
- 5.2.3 實驗三 基于熵的離群點挖掘算法與分類算法對比結(jié)果55-56
- 5.2.4 實驗四 基于熵的離群點挖掘算法的級聯(lián)檢測的交叉驗證結(jié)果56-57
- 5.3 本章小結(jié)57-58
- 總結(jié)與展望58-60
- 1 總結(jié)58
- 2 展望58-60
- 致謝60-61
- 參考文獻(xiàn)61-66
- 攻讀碩士學(xué)位期間發(fā)表的論文66
【相似文獻(xiàn)】
中國期刊全文數(shù)據(jù)庫 前10條
1 朱松巖;;網(wǎng)頁設(shè)計之特性分析[J];山東省農(nóng)業(yè)管理干部學(xué)院學(xué)報;2009年03期
2 安琳;;國外網(wǎng)頁信息存檔項目及相關(guān)問題研究[J];圖書館建設(shè);2009年12期
3 蔣桂梅;;網(wǎng)頁設(shè)計的藝術(shù)性[J];電腦知識與技術(shù);2010年05期
4 龍正義;;網(wǎng)頁長期保存的策略與方法研究[J];檔案管理;2010年03期
5 李志義;梁士金;;國內(nèi)網(wǎng)頁去重技術(shù)研究:現(xiàn)狀與總結(jié)[J];圖書情報工作;2011年07期
6 王爍;;美國網(wǎng)頁歸檔項目——Internet Archive發(fā)展研究[J];蘭臺世界;2012年17期
7 栗勇兵;韓平;董啟雄;;網(wǎng)頁信息自動提取的設(shè)計與實現(xiàn)[J];計算機光盤軟件與應(yīng)用;2012年18期
8 何立波;周世波;;網(wǎng)頁設(shè)計中的藝術(shù)研究[J];考試周刊;2011年25期
9 秦永平;網(wǎng)頁信息共享技術(shù)[J];計算機應(yīng)用;2000年02期
10 項鎮(zhèn);網(wǎng)頁設(shè)計新概念[J];江西教育學(xué)院學(xué)報(自然科學(xué));2001年06期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 吳建軍;;談網(wǎng)頁設(shè)計的藝術(shù)性表現(xiàn)[A];經(jīng)天緯地——全國測繪科技信息網(wǎng)中南分網(wǎng)第十九次學(xué)術(shù)交流會優(yōu)秀論文選編[C];2005年
2 韓近強;趙靜;楊冬青;唐世渭;姚小波;;基于領(lǐng)域知識的網(wǎng)頁篩選系統(tǒng)[A];第十九屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2002年
3 昝紅英;蘇玉梅;孫斌;俞士汶;;基于淺層分析的網(wǎng)頁相關(guān)度研究[A];語言計算與基于內(nèi)容的文本處理——全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集[C];2003年
4 孫靜;劉正捷;奚小玲;王慧;;幫助盲人理解網(wǎng)頁信息的一種網(wǎng)頁結(jié)構(gòu)劃分方法[A];第一屆建立和諧人機環(huán)境聯(lián)合學(xué)術(shù)會議(HHME2005)論文集[C];2005年
5 曹淮;晁丁丁;;3D元素在網(wǎng)頁信息傳達(dá)中的應(yīng)用研究[A];2006年中國機械工程學(xué)會年會暨中國工程院機械與運載工程學(xué)部首屆年會論文集[C];2006年
6 唐超;劉辰;楊正球;;使用多層迭代分析和分類網(wǎng)頁文檔的方法[A];2007北京地區(qū)高校研究生學(xué)術(shù)交流會通信與信息技術(shù)會議論文集(上冊)[C];2008年
7 馬驍;王曉龍;王軒;卜永忠;;基于網(wǎng)頁信息結(jié)構(gòu)的網(wǎng)頁體裁聚類分析[A];第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集(上)[C];2008年
8 羅陽;季鐸;張桂平;王瑩瑩;;面向單一網(wǎng)頁的雙語資源挖掘方法[A];第六屆全國信息檢索學(xué)術(shù)會議論文集[C];2010年
9 于滿泉;譚松波;許洪波;;網(wǎng)頁內(nèi)部結(jié)構(gòu)挖掘技術(shù)研究[A];NCIRCS2004第一屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集[C];2004年
10 王宇;黃煒;肖艷芹;任建立;李天柱;;ORBASE用于基于內(nèi)容的Web查詢[A];第十七屆全國數(shù)據(jù)庫學(xué)術(shù)會議論文集(技術(shù)報告篇)[C];2000年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 本報記者 曾居仁 通訊員 郝金榮;貴州“萬村千鄉(xiāng)”網(wǎng)頁工程開辟為農(nóng)服務(wù)新渠道[N];中國氣象報;2012年
2 壯壯;批量保存網(wǎng)頁信息[N];電腦報;2004年
3 羅震宇 嚴(yán)小斌;一種新型WEB開發(fā)技術(shù)的探討[N];中國冶金報;2011年
4 錢鵬;網(wǎng)盡Web頁中的好東東[N];電腦報;2004年
5 星之海洋;邁出網(wǎng)頁制作的第一步[N];電腦報;2004年
6 河南 張金貴;FrontPage2000組件詳解(四)[N];電腦報;2001年
7 楓爾;網(wǎng)站瀏覽提速的五大秘方[N];中國證券報;2004年
8 飄零劍客;網(wǎng)絡(luò)監(jiān)控利器——AnyView[N];中國電腦教育報;2004年
9 八戒;眨眼之間 答案立現(xiàn)[N];電腦報;2013年
10 ;網(wǎng)絡(luò)應(yīng)用 天龍八“步” 申請上網(wǎng)賬號[N];電腦報;2002年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 陳潔;基于概念融合的網(wǎng)頁篩選技術(shù)研究[D];北京郵電大學(xué);2013年
2 龔昌盛;基于語義標(biāo)注的網(wǎng)頁廣告加載模型研究[D];武漢大學(xué);2010年
3 孫建濤;Web挖掘中的降維和分類方法研究[D];清華大學(xué);2005年
4 黃華軍;網(wǎng)頁信息隱藏與隱秘信息檢測研究[D];湖南大學(xué);2007年
5 徐晴陽;基于關(guān)系子群發(fā)現(xiàn)算法的聚焦爬行技術(shù)[D];吉林大學(xué);2008年
6 曹魯慧;Web個人信息集成問題研究[D];山東大學(xué);2012年
7 劉馨月;Web挖掘中的鏈接分析與話題檢測研究[D];大連理工大學(xué);2012年
8 羅娜;基于本體的主題爬行技術(shù)研究[D];吉林大學(xué);2009年
9 張勇實;基于鏈接相似性分析的WEB結(jié)構(gòu)挖掘方法研究[D];哈爾濱工程大學(xué);2012年
10 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學(xué);2006年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 敖志敏;基于網(wǎng)頁相似度的搜索算法改進(jìn)的研究[D];上海師范大學(xué);2015年
2 楊尋;地域文化的視覺元素在旅游網(wǎng)頁設(shè)計中的應(yīng)用研究[D];西南交通大學(xué);2015年
3 張W,
本文編號:600402
本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/600402.html