天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

網(wǎng)絡(luò)爬蟲的優(yōu)化策略探略

發(fā)布時(shí)間:2019-01-19 16:56
【摘要】:網(wǎng)絡(luò)爬蟲對(duì)網(wǎng)頁的抓取與優(yōu)化策略直接影響到網(wǎng)頁采集的廣度、深度,以及網(wǎng)頁預(yù)處理的數(shù)量和搜索引擎的質(zhì)量。搜索引擎的設(shè)計(jì)應(yīng)在充分考慮網(wǎng)頁遍歷策略的同時(shí),還應(yīng)加強(qiáng)對(duì)網(wǎng)絡(luò)爬蟲優(yōu)化策略的研究。本文從主題、優(yōu)先采集、不重復(fù)采集、網(wǎng)頁重訪、分布式抓取等方面提出了網(wǎng)絡(luò)爬蟲的五大優(yōu)化策略,對(duì)網(wǎng)絡(luò)爬蟲的設(shè)計(jì)有一定的指導(dǎo)和啟迪作用。
[Abstract]:The crawler's strategy of web page capture and optimization has a direct impact on the breadth and depth of web page collection, the quantity of web page preprocessing and the quality of search engine. The design of search engine should not only fully consider the strategy of web page traversal, but also strengthen the research of web crawler optimization strategy. In this paper, five optimization strategies of web crawler are put forward from the aspects of theme, priority collection, non-repetition collection, page revisiting and distributed crawling, which can guide and enlighten the design of web crawler.
【作者單位】: 華南師范大學(xué)經(jīng)濟(jì)與管理學(xué)院;
【分類號(hào)】:TP391.3

【參考文獻(xiàn)】

相關(guān)期刊論文 前8條

1 孫立偉;何國輝;吳禮發(fā);;網(wǎng)絡(luò)爬蟲技術(shù)的研究[J];電腦知識(shí)與技術(shù);2010年15期

2 周德懋;李舟軍;;高性能網(wǎng)絡(luò)爬蟲:研究綜述[J];計(jì)算機(jī)科學(xué);2009年08期

3 周立柱,林玲;聚焦爬蟲技術(shù)研究綜述[J];計(jì)算機(jī)應(yīng)用;2005年09期

4 劉金紅;陸余良;;主題網(wǎng)絡(luò)爬蟲研究綜述[J];計(jì)算機(jī)應(yīng)用研究;2007年10期

5 姚樹宇,趙少東;一種使用分布式技術(shù)的搜索引擎[J];計(jì)算機(jī)應(yīng)用與軟件;2005年10期

6 楊貞;杜習(xí)英;;基于本體的主題爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];科技情報(bào)開發(fā)與經(jīng)濟(jì);2008年02期

7 王冬;雷景生;李壯;;基于PageRank的頁面排序改進(jìn)算法[J];計(jì)算機(jī)工程與設(shè)計(jì);2008年22期

8 郭鴻;;一種基于文本內(nèi)容的HITS改進(jìn)算法[J];計(jì)算機(jī)系統(tǒng)應(yīng)用;2009年09期

相關(guān)博士學(xué)位論文 前1條

1 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

【共引文獻(xiàn)】

相關(guān)期刊論文 前10條

1 王正;陸余良;劉金紅;施凡;;基于Lucene的互聯(lián)網(wǎng)文獻(xiàn)信息檢索系統(tǒng)的研究[J];安徽大學(xué)學(xué)報(bào)(自然科學(xué)版);2009年05期

2 孫素芬;羅長壽;張峻峰;于峰;張樹亮;;農(nóng)業(yè)信息資源整合系統(tǒng)研究與應(yīng)用[J];安徽農(nóng)業(yè)科學(xué);2007年22期

3 汪斌;張?jiān)苽?劉健;陳晶;;一種面向農(nóng)業(yè)信息主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)[J];安徽農(nóng)業(yè)科學(xué);2009年20期

4 廉捷;劉云;;網(wǎng)絡(luò)輿情中的信息預(yù)處理與自動(dòng)摘要算法[J];北京交通大學(xué)學(xué)報(bào);2010年05期

5 任斌;毛應(yīng)爽;;基于本體的主動(dòng)學(xué)習(xí)主題爬行的研究與實(shí)現(xiàn)[J];長春工程學(xué)院學(xué)報(bào)(自然科學(xué)版);2011年01期

6 于成龍;于洪波;;網(wǎng)絡(luò)爬蟲技術(shù)研究[J];東莞理工學(xué)院學(xué)報(bào);2011年03期

7 武昊;廖安平;何超英;侯東陽;;基于主題相關(guān)度的地理信息Web服務(wù)爬蟲研究[J];地理與地理信息科學(xué);2012年02期

8 毛曉蛟;;搜索引擎中網(wǎng)絡(luò)蜘蛛的研究與實(shí)現(xiàn)[J];電腦編程技巧與維護(hù);2010年18期

9 張超;閆宏印;;多線程網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦開發(fā)與應(yīng)用;2012年06期

10 唐波;;網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2009年11期

相關(guān)會(huì)議論文 前6條

1 吳晨生;劉彥君;張魯冀;董曉晴;;科普搜索的研究與實(shí)現(xiàn)[A];數(shù)字博物館研究與實(shí)踐(2009)[C];2010年

2 王棟;陳勇;徐建良;;基于預(yù)測(cè)的BitTorrent種子評(píng)估方法[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年

3 劉兵;胡學(xué)鋼;;基于多鏈接分析的主題爬蟲設(shè)計(jì)實(shí)現(xiàn)[A];全國第20屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集(上冊(cè))[C];2009年

4 戴玉剛;;藏文網(wǎng)頁采集技術(shù)研究[A];民族語言文字信息技術(shù)研究——第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì)論文集[C];2007年

5 韓子揚(yáng);李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學(xué)學(xué)術(shù)年會(huì)論文集[C];2012年

6 韓子揚(yáng);李貴;李征宇;王鳳英;;基于分布式結(jié)構(gòu)的Deep Web結(jié)構(gòu)化數(shù)據(jù)抽取系統(tǒng)[A];第九屆沈陽科學(xué)學(xué)術(shù)年會(huì)論文集(信息科學(xué)與工程技術(shù)分冊(cè))[C];2012年

相關(guān)博士學(xué)位論文 前10條

1 吳羽;面向時(shí)間敏感對(duì)象的垂直搜索引擎關(guān)鍵技術(shù)研究[D];浙江大學(xué);2011年

2 鄧斌;B2C在線評(píng)論中的客戶知識(shí)管理研究[D];電子科技大學(xué);2010年

3 張翔;文本挖掘技術(shù)研究及其在綜合風(fēng)險(xiǎn)信息網(wǎng)絡(luò)中的應(yīng)用[D];西北大學(xué);2011年

4 王肅;基于多Agent的突發(fā)事件信息智能監(jiān)測(cè)系統(tǒng)研究[D];北京郵電大學(xué);2011年

5 田俊華;基于本體知識(shí)庫的教學(xué)資源自動(dòng)采集技術(shù)研究[D];南京師范大學(xué);2011年

6 王文成;基于局部特征分析的人臉表情識(shí)別問題研究[D];山東大學(xué);2011年

7 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

8 陳竹敏;面向垂直搜索引擎的主題爬行技術(shù)研究[D];山東大學(xué);2008年

9 王英;Deep Web數(shù)據(jù)集成關(guān)鍵技術(shù)研究[D];吉林大學(xué);2010年

10 萬源;基于語義統(tǒng)計(jì)分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D];武漢理工大學(xué);2012年

相關(guān)碩士學(xué)位論文 前10條

1 岳廣飛;基于二次搜索的搜索引擎技術(shù)研究[D];山東科技大學(xué);2010年

2 呂芳芳;基于查詢擴(kuò)展的垂直搜索研究[D];山東科技大學(xué);2010年

3 翁巖青;網(wǎng)頁抓取策略研究[D];哈爾濱工程大學(xué);2010年

4 蔡宇虹;基于主題的元搜索引擎關(guān)鍵技術(shù)研究[D];哈爾濱工程大學(xué);2010年

5 史煒;個(gè)性化搜索引擎的研究與設(shè)計(jì)[D];電子科技大學(xué);2010年

6 丁寶瓊;網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];解放軍信息工程大學(xué);2009年

7 沙有闖;基于Web文本挖掘的網(wǎng)絡(luò)口碑監(jiān)測(cè)系統(tǒng)研究[D];安徽大學(xué);2010年

8 陳可欽;基于垂直搜索引擎的主題爬蟲算法的研究[D];中南林業(yè)科技大學(xué);2009年

9 張卓;基于分層需求的領(lǐng)域本體構(gòu)建及語義標(biāo)注方法研究[D];東北財(cái)經(jīng)大學(xué);2010年

10 楊曉丹;基于Lucene的主題搜索引擎模板的設(shè)計(jì)與實(shí)現(xiàn)[D];浙江工商大學(xué);2011年

【二級(jí)參考文獻(xiàn)】

相關(guān)期刊論文 前10條

1 燕輝,葉震,董澤浩,高柯俊;報(bào)文摘要算法MD5分析[J];合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版);2002年01期

2 荊濤,左萬利;基于可視布局信息的網(wǎng)頁噪音去除算法[J];華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版);2004年S1期

3 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計(jì)算機(jī)研究與發(fā)展;2004年01期

4 張三峰;吳國新;;一種面向動(dòng)態(tài)異構(gòu)網(wǎng)絡(luò)的容錯(cuò)非對(duì)稱DHT方法[J];計(jì)算機(jī)研究與發(fā)展;2007年06期

5 李曉亞;赫楓齡;左萬利;;基于網(wǎng)頁分塊技術(shù)主題爬行器的實(shí)現(xiàn)[J];吉林大學(xué)學(xué)報(bào)(理學(xué)版);2007年06期

6 余錦,史樹明;分布式網(wǎng)頁排序算法及其傳輸模式分析[J];計(jì)算機(jī)工程與應(yīng)用;2004年29期

7 萬源;萬方;王大震;;一種并行Crawler系統(tǒng)中的URL分配算法設(shè)計(jì)[J];計(jì)算機(jī)工程與應(yīng)用;2006年S1期

8 周雪忠;吳朝暉;;文本知識(shí)發(fā)現(xiàn):基于信息抽取的文本挖掘[J];計(jì)算機(jī)科學(xué);2003年01期

9 李盛韜;余智華;程學(xué)旗;白碩;;Web信息采集研究進(jìn)展[J];計(jì)算機(jī)科學(xué);2003年02期

10 肖詩源,葉俊,劉賢德;一種基于Agent的分布式搜索引擎[J];計(jì)算機(jī)工程;2002年07期

相關(guān)博士學(xué)位論文 前1條

1 彭濤;面向?qū)I(yè)搜索引擎的主題爬行技術(shù)研究[D];吉林大學(xué);2007年

【相似文獻(xiàn)】

相關(guān)期刊論文 前10條

1 賀財(cái)平;覃事剛;劉建勛;;Web服務(wù)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];計(jì)算機(jī)應(yīng)用與軟件;2011年01期

2 劉磊安;符志強(qiáng);;基于Lucene.net網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2010年08期

3 劉潔清;吳京慧;;面向主題的個(gè)人實(shí)時(shí)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J];現(xiàn)代圖書情報(bào)技術(shù);2006年05期

4 王軍;彭建;;網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計(jì)研究[J];科技信息(學(xué)術(shù)研究);2007年27期

5 費(fèi)巍;;淺議搜索引擎優(yōu)化[J];圖書館理論與實(shí)踐;2008年03期

6 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期

7 何志文;郭利剛;;搜索引擎技術(shù)在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測(cè)系統(tǒng)中的應(yīng)用[J];廣播與電視技術(shù);2009年03期

8 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實(shí)現(xiàn)[J];大眾科技;2010年02期

9 石柯;周利兵;陶文兵;;基于移動(dòng)代理的MAISE爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版);2005年S1期

10 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J];電腦知識(shí)與技術(shù);2008年35期

相關(guān)會(huì)議論文 前10條

1 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實(shí)現(xiàn)[A];2010年全國開放式分布與并行計(jì)算機(jī)學(xué)術(shù)會(huì)議論文集[C];2010年

2 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計(jì)算機(jī)技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會(huì)議論文集[C];2010年

3 彭軻;廖聞劍;;淺析搜索引擎[A];中國通信學(xué)會(huì)第五屆學(xué)術(shù)年會(huì)論文集[C];2008年

4 李丹;;如何利用搜索引擎查找中醫(yī)藥信息[A];中國中醫(yī)藥信息研究會(huì)第二屆理事大會(huì)暨學(xué)術(shù)交流會(huì)議論文匯編[C];2003年

5 鄧長壽;郭景峰;楊焱林;鄧安遠(yuǎn);;下一代Web搜索引擎初探[A];第十八屆全國數(shù)據(jù)庫學(xué)術(shù)會(huì)議論文集(研究報(bào)告篇)[C];2001年

6 維尼拉·木沙江;吐爾洪·吾司曼;;維、哈、柯文搜索引擎中網(wǎng)頁爬行器的設(shè)計(jì)與實(shí)現(xiàn)[A];少數(shù)民族青年自然語言處理技術(shù)研究與進(jìn)展——第三屆全國少數(shù)民族青年自然語言信息處理、第二屆全國多語言知識(shí)庫建設(shè)聯(lián)合學(xué)術(shù)研討會(huì)論文集[C];2010年

7 陶冶;劉建勛;唐明董;;基于Map/Reduce的分布式Web服務(wù)搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[A];CCF NCSC 2011——第二屆中國計(jì)算機(jī)學(xué)會(huì)服務(wù)計(jì)算學(xué)術(shù)會(huì)議論文集[C];2011年

8 湯薇;曾艷;;構(gòu)建校園網(wǎng)搜索引擎必要性分析[A];廣西計(jì)算機(jī)學(xué)會(huì)2008年年會(huì)論文集[C];2008年

9 王凱;劉代志;李東旭;齊瑋;;地球物理環(huán)境情報(bào)搜集系統(tǒng)研究[A];國家安全地球物理叢書(四)——地球物理環(huán)境探測(cè)和目標(biāo)信息獲取與處理[C];2008年

10 姚樹宇;趙少東;;一種使用分布式技術(shù)的搜索引擎[A];2005年全國開放式分布與并行計(jì)算學(xué)術(shù)會(huì)議論文集[C];2005年

相關(guān)重要報(bào)紙文章 前10條

1 李一鑫;搜索排名的紅與黑[N];財(cái)經(jīng)時(shí)報(bào);2007年

2 周文林;搜狗3.0能否撼動(dòng)搜索市場(chǎng)[N];經(jīng)濟(jì)參考報(bào);2007年

3 惠正一;比爾·蓋茨:微軟不怕Google[N];第一財(cái)經(jīng)日?qǐng)?bào);2005年

4 賽迪顧問股份有限公司互聯(lián)網(wǎng)與電子商務(wù)咨詢中心 常燕杰;搜索,,還是門戶[N];中國計(jì)算機(jī)報(bào);2005年

5 陳珊;浙江移動(dòng)推出手機(jī)搜索引擎服務(wù)[N];人民郵電;2005年

6 趙法忠;搜索引擎還需悠著點(diǎn)[N];中國經(jīng)營報(bào);2005年

7 金朝力;搜索引擎火拼搜索質(zhì)量[N];北京商報(bào);2006年

8 本報(bào)記者  趙曉輝 孟昭麗;搜索引擎駛?cè)搿氨茱L(fēng)港”[N];中國證券報(bào);2006年

9 孫t;搜索引擎驚喜侵權(quán)官司止于“避風(fēng)港”?[N];第一財(cái)經(jīng)日?qǐng)?bào);2006年

10 姜蕊;問天下誰識(shí)搜索?[N];中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào);2006年

相關(guān)博士學(xué)位論文 前10條

1 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年

2 岑榮偉;基于用戶行為分析的搜索引擎評(píng)價(jià)研究[D];清華大學(xué);2010年

3 蘇君華;面向搜索引擎的技術(shù)接受模型研究[D];南京大學(xué);2011年

4 劉佐達(dá);分布協(xié)作式搜索引擎模型及算法研究[D];清華大學(xué);2011年

5 陳旭毅;基于索引云的企業(yè)搜索引擎實(shí)現(xiàn)研究[D];武漢大學(xué);2011年

6 郭眈;中文互聯(lián)網(wǎng)視頻搜索引擎系統(tǒng)策略研究[D];北京交通大學(xué);2012年

7 王昤璞;基于用戶體驗(yàn)的互聯(lián)網(wǎng)搜索引擎醫(yī)學(xué)信息檢索可用性評(píng)估研究[D];吉林大學(xué);2010年

8 李莎莎;面向搜索引擎的自然語言處理關(guān)鍵技術(shù)研究[D];國防科學(xué)技術(shù)大學(xué);2011年

9 白玉琪;空間信息搜索引擎研究[D];中國科學(xué)院研究生院(遙感應(yīng)用研究所);2003年

10 費(fèi)巍;搜索引擎檢索功能的性能評(píng)價(jià)研究[D];武漢大學(xué);2010年

相關(guān)碩士學(xué)位論文 前10條

1 梁萍;搜索引擎中網(wǎng)絡(luò)爬蟲及結(jié)果聚類的研究與實(shí)現(xiàn)[D];中國科學(xué)技術(shù)大學(xué);2011年

2 夏亮;主題搜索引擎網(wǎng)絡(luò)爬蟲搜索策略的研究與實(shí)現(xiàn)[D];北京化工大學(xué);2010年

3 龔勇;搜索引擎中網(wǎng)絡(luò)爬蟲的研究[D];武漢理工大學(xué);2010年

4 李春生;基于WEB信息采集的分布式網(wǎng)絡(luò)爬蟲搜索引擎的研究[D];吉林大學(xué);2009年

5 歐建斌;基于Web挖掘與信息分類的個(gè)性化搜索引擎研究[D];暨南大學(xué);2010年

6 徐財(cái)應(yīng);基于Lucene的搜索引擎技術(shù)的研究與改進(jìn)[D];長春理工大學(xué);2010年

7 劉妮娜;Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究[D];浙江大學(xué);2005年

8 蘇旋;分布式網(wǎng)絡(luò)爬蟲技術(shù)的研究與實(shí)現(xiàn)[D];哈爾濱工業(yè)大學(xué);2006年

9 劉青偉;搜索引擎中的Pagerank排序算法研究分析[D];電子科技大學(xué);2010年

10 薛云;Internet上元搜索引擎的研究與設(shè)計(jì)[D];太原理工大學(xué);2003年



本文編號(hào):2411556

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2411556.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶1f22c***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com