天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于段落指紋的大規(guī)模近似網(wǎng)頁檢測算法研究

發(fā)布時間:2019-09-19 13:48
【摘要】:隨著信息技術(shù)的飛躍式發(fā)展,互聯(lián)網(wǎng)進入了一個信息爆炸的時代,搜索引擎成為了人們獲取信息最主要的途徑。然而,互聯(lián)網(wǎng)上存在很多近似網(wǎng)頁,一方面加重了用戶從中尋找有價值信息的負擔,另一方面,為近似網(wǎng)頁建立索引消耗了大量不必要的存儲和計算資源,進而影響整個搜索引擎的質(zhì)量和性能?梢,對網(wǎng)頁進行近似檢測不僅能夠提高索引效率,節(jié)約存儲資源,同時能夠顯著地提升搜索引擎的用戶體驗。 本文首先對近似網(wǎng)頁檢測的研究現(xiàn)狀做出綜述,并對現(xiàn)有算法做出深入分析。 隨后,提出了一種基于加權(quán)DOM樹的網(wǎng)頁正文提取算法,通過實驗驗證了該算法在各類網(wǎng)頁集上均獲得高的正文提取準確率,并將其應(yīng)用于本文的近似網(wǎng)頁檢測算法。 接著,提出了一種基于段落指紋的近似網(wǎng)頁檢測算法,該算法充分利用了中文語言的語法結(jié)構(gòu)、文章主題語義和HTML標簽語義,實驗數(shù)據(jù)表明,本文算法能夠獲得高的準確率和召回率。實現(xiàn)了三種已有的優(yōu)秀近似網(wǎng)頁檢測算法,實驗數(shù)據(jù)表明,本文算法在準確率、召回率、效率和指紋占用的存儲資源這些關(guān)鍵方面均有優(yōu)勢。 最后,基于MapReduce計算模型,對本文近似網(wǎng)頁檢測算法的并行化做出了深入研究,給出了詳細的并行化設(shè)計方案,并在Hadoop分布式平臺上實現(xiàn)了該方案。在不同的Hadoop集群規(guī)模下進行實驗,數(shù)據(jù)表明,本文算法經(jīng)過并行化設(shè)計后,效率得到了顯著提升,很好地突破了單機處理的資源瓶頸,是一種能夠適用于海量數(shù)據(jù)規(guī)模的且實際可行的方案。
【圖文】:

互聯(lián)網(wǎng)站,統(tǒng)計數(shù)據(jù),網(wǎng)頁


頁雖然結(jié)構(gòu)不盡相同,但是正文內(nèi)容卻都是重復的。搜索引擎的搜索返回結(jié)果中存在大量近似網(wǎng)頁不僅加重了人們?yōu)g覽和篩選信息的負擔,而且占用了大量不必要的存儲源,降低了索引效率,嚴重影響了搜索引擎的質(zhì)量和性能。因此,在網(wǎng)頁抓取后,須要首先對近似網(wǎng)頁進行檢測,并去除存在近似的網(wǎng)頁,,進而提高索引效率與搜索引擎的用戶體驗。這就需要有效的大規(guī)模近似網(wǎng)頁檢測算法,快速準確地發(fā)現(xiàn)近似網(wǎng)頁。1.1研究背景近年來,互聯(lián)網(wǎng)技術(shù)得到迅猛的發(fā)展,越來越明顯地改變著人們的生活,同時顛覆了傳統(tǒng)的信息產(chǎn)生與傳播方式,使信息處理進入了一個嶄新的時代。根據(jù)Neteraft最新統(tǒng)計[,l,截至2011年11月,互聯(lián)網(wǎng)上共有525,998,433個站點,站點數(shù)量比上一個月增長了4.3%,比2010年同期增長了約110.85%,可見互聯(lián)網(wǎng)規(guī)模的發(fā)展是空前的。圖1給出了從2003年至2011年的互聯(lián)網(wǎng)站點數(shù)量增長趨勢。若按照Netcraft估計的平均每個站點擁有273個網(wǎng)頁標準進行計算,則目前互聯(lián)網(wǎng)上網(wǎng)頁的數(shù)量約為1,435億。600,000,000

網(wǎng)頁,主要步驟,檢測算法,指紋


3.計算特征項的指紋,對特征項進行壓縮或降維處理以方便存儲和檢索。4.基于特征指紋計算相似度,判定原始網(wǎng)頁是否近似。對以上四個主要步驟的直觀描述如圖2.1所示。網(wǎng)網(wǎng)頁預處理理理對正文進行特特特生成特征指紋紋紋基于特征指紋紋征 征征 征提取 取取 取取計算相似度 度網(wǎng)頁正文庫網(wǎng)頁指紋庫近似網(wǎng)頁圖2.1近似網(wǎng)頁檢測算法主要步驟其中第一步是近似網(wǎng)頁檢測的一項前置工作,準確的正文提取是進行近似檢測的重要前提,一般應(yīng)用中作為獨立于近似檢測算法之外的模塊,本文將在第3章中詳細說明。8
【學位授予單位】:南京理工大學
【學位級別】:碩士
【學位授予年份】:2012
【分類號】:TP393.092

【參考文獻】

相關(guān)期刊論文 前5條

1 何友全;徐澄;徐小樂;唐華姣;;一種基于統(tǒng)計學特征和DOM樹的網(wǎng)頁去噪技術(shù)[J];重慶理工大學學報(自然科學版);2011年01期

2 樊勇;鄭家恒;;基于主題的網(wǎng)頁去重[J];電腦開發(fā)與應(yīng)用;2008年04期

3 王建勇,謝正茂,雷鳴,李曉明;近似鏡像網(wǎng)頁檢測算法的研究與評價[J];電子學報;2000年S1期

4 歐健文,董守斌,蔡斌;模板化網(wǎng)頁主題信息的提取方法[J];清華大學學報(自然科學版);2005年S1期

5 曹玉娟;牛振東;趙X;彭學平;;基于概念和語義網(wǎng)絡(luò)的近似網(wǎng)頁檢測算法[J];軟件學報;2011年08期



本文編號:2538171

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2538171.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶cc3a8***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com