Rabin指紋去重算法在搜索引擎中的應用
本文選題:Rabin指紋方法 切入點:搜索引擎 出處:《計算機系統(tǒng)應用》2015年07期 論文類型:期刊論文
【摘要】:針對搜索引擎在海量數(shù)據(jù)中搜索速度慢,占用存儲空間大,對重復的網(wǎng)頁去重性差的現(xiàn)狀,提出一種基于Rabin指紋算法的去重方法,不僅對搜索到的URL地址進行去重,還對非重復URL地址對應的網(wǎng)頁內容進行相似和相同的去重,試驗表明能有效地提高搜索速度、節(jié)省存儲空間,增強搜索的精度.
[Abstract]:In view of the slow search speed and large storage space of search engines in mass data, and the poor deduplication of repeated web pages, a new method based on Rabin fingerprint algorithm is proposed, which not only removes the URL addresses that are searched. The results show that the search speed can be improved effectively, the storage space can be saved, and the search accuracy can be enhanced.
【作者單位】: 四川文理學院計算機學院;
【基金】:國家檔案局項目(2014-X-65)
【分類號】:TP391.3
【參考文獻】
相關期刊論文 前3條
1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結構、算法和策略[J];電子學報;2002年S1期
2 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計算機應用;2008年S2期
3 孫有軍;張大興;;海量圖片文件存儲去重技術研究[J];計算機應用與軟件;2014年04期
【共引文獻】
相關期刊論文 前10條
1 張麗敏;;垂直搜索引擎的主題爬蟲策略[J];電腦知識與技術;2010年15期
2 劉世濤;;簡析搜索引擎中網(wǎng)絡爬蟲的搜索策略[J];阜陽師范學院學報(自然科學版);2006年03期
3 許笑;張偉哲;張宏莉;方濱興;;廣域網(wǎng)分布式爬蟲中的Agent協(xié)同與Web劃分研究[J];高技術通訊;2010年03期
4 張洪斌;危勝軍;;基于超圖的并行信息采集系統(tǒng)任務劃分方法[J];廣西師范大學學報(自然科學版);2008年01期
5 謝垂益;鐘紅君;;Rabin指紋算法在重復數(shù)據(jù)檢測中的應用研究[J];電腦知識與技術;2013年21期
6 張皓;王玉龍;;一種網(wǎng)站分析系統(tǒng)的設計方案[J];電信網(wǎng)技術;2013年10期
7 孟祥乾;葉允明;鄧斌;;基于流水線負載平衡模型的并行爬蟲研究[J];計算機工程;2009年02期
8 白鶴;湯迪斌;王勁林;;分布式多主題網(wǎng)絡爬蟲系統(tǒng)的研究與實現(xiàn)[J];計算機工程;2009年19期
9 張林才;梁正友;王紅霞;;基于ProActive的P-Spider1.0改進[J];計算機工程;2010年17期
10 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計算機應用;2008年S2期
相關會議論文 前3條
1 樸星海;趙鐵軍;鄭德權;張迪;;面向Blog的網(wǎng)絡爬行器設計與實現(xiàn)[A];中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文集[C];2006年
2 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設計與實現(xiàn)[A];少數(shù)民族青年自然語言處理技術研究與進展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識庫建設聯(lián)合學術研討會論文集[C];2010年
3 黃初指;;網(wǎng)絡爬蟲在電力廣域網(wǎng)信息收集中的應用[A];2008電力行業(yè)信息化年會會議論文集[C];2008年
相關博士學位論文 前3條
1 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測系統(tǒng)研究[D];北京郵電大學;2011年
2 王輝;基于質心具有增量性質的主題爬行[D];吉林大學;2007年
3 宗校軍;中文網(wǎng)頁定題采集及分類研究[D];華中科技大學;2006年
相關碩士學位論文 前10條
1 趙翔;網(wǎng)站信息按需采集系統(tǒng)中爬蟲子系統(tǒng)的設計與實現(xiàn)[D];復旦大學;2011年
2 魏一帆;分布式信息采集系統(tǒng)Web劃分技術研究[D];哈爾濱工業(yè)大學;2010年
3 王磊;基于Web數(shù)據(jù)挖掘的搜索引擎設計與實現(xiàn)[D];解放軍信息工程大學;2010年
4 孫守興;基于可擴展哈希算法的并行爬蟲動態(tài)負載均衡實現(xiàn)[D];哈爾濱工業(yè)大學;2010年
5 楊頌;面向電子商務網(wǎng)站的增量爬蟲設計與實現(xiàn)[D];湖南大學;2010年
6 吳東華;Web信息獲取技術研究[D];南京理工大學;2004年
7 劉賓;基于移動Agent的主題搜索引擎研究[D];上海海事大學;2006年
8 趙欽;并行爬行器的架構與優(yōu)化策略[D];北京工業(yè)大學;2006年
9 徐金雷;專業(yè)搜索引擎的排序算法研究[D];南京師范大學;2007年
10 張維維;搜索引擎的研究與實現(xiàn)[D];長春理工大學;2008年
【二級參考文獻】
相關期刊論文 前4條
1 葉允明,于水,馬范援,宋暉,張嶺;分布式Web Crawler的研究:結構、算法和策略[J];電子學報;2002年S1期
2 楊天奇;周曄;;一種增量式并行Web信息采集方法[J];計算機工程;2006年20期
3 周立柱,林玲;聚焦爬蟲技術研究綜述[J];計算機應用;2005年09期
4 馬成前;毛許光;;網(wǎng)頁查重算法Shingling和Simhash研究[J];計算機與數(shù)字工程;2009年01期
【相似文獻】
相關期刊論文 前2條
1 梁正友;張林才;;基于Rabin指紋方法的URL去重算法[J];計算機應用;2008年S2期
2 ;[J];;年期
,本文編號:1566832
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1566832.html