網(wǎng)絡(luò)爬蟲在搜索引擎應(yīng)用中的問題及對策
本文關(guān)鍵詞:網(wǎng)絡(luò)爬蟲在搜索引擎應(yīng)用中的問題及對策
更多相關(guān)文章: 網(wǎng)絡(luò)爬蟲 數(shù)據(jù)傳輸 URL策略 搜索引擎
【摘要】:本文以網(wǎng)絡(luò)爬蟲的分類以及其特點出發(fā),探討了當前網(wǎng)絡(luò)爬蟲在搜索引擎應(yīng)用中的問題,比如搜索URL定位過程中的數(shù)據(jù)下載效率較低,出現(xiàn)下載過程中的CPU閑置,URL搜索策略不合理導(dǎo)致了URL重復(fù)等問題,并以此為依托,提出了相關(guān)策略,包括在數(shù)據(jù)傳輸過程中采用gzip/deflate壓縮編碼傳輸,異步非阻塞下載,提升CPU利用率以及規(guī)范化URL提取策略等,以此來提升網(wǎng)絡(luò)爬蟲在搜索引擎中的效率.
【作者單位】: 集寧師范學(xué)院;
【分類號】:TP391.3
【正文快照】: 1引言在談網(wǎng)絡(luò)爬蟲之前,先了解電腦“機器人”,電腦機器人,其本質(zhì)軟件程序,該程序以計算機,網(wǎng)絡(luò)為依托,無限循環(huán)的地執(zhí)行網(wǎng)絡(luò)任務(wù).如以網(wǎng)絡(luò)為依托的搜索引擎程序,在收集信息時,它就像一條爬蟲穿梭在網(wǎng)絡(luò)之中,根據(jù)用戶所提供的關(guān)鍵字信息,自動篩選重要信息,我們將專門用于搜索
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年35期
2 周巍巍;;網(wǎng)絡(luò)爬蟲網(wǎng)頁庫智能更新策略分析與研究[J];電腦知識與技術(shù);2010年31期
3 何志文;郭利剛;;搜索引擎技術(shù)在互聯(lián)網(wǎng)音視頻節(jié)目監(jiān)測系統(tǒng)中的應(yīng)用[J];廣播與電視技術(shù);2009年03期
4 石柯;周利兵;陶文兵;;基于移動代理的MAISE爬蟲的設(shè)計與實現(xiàn)[J];華中科技大學(xué)學(xué)報(自然科學(xué)版);2005年S1期
5 賀財平;覃事剛;劉建勛;;Web服務(wù)搜索引擎的設(shè)計與實現(xiàn)[J];計算機應(yīng)用與軟件;2011年01期
6 王軍;彭建;;網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計研究[J];科技信息(學(xué)術(shù)研究);2007年27期
【共引文獻】
中國期刊全文數(shù)據(jù)庫 前9條
1 王春梅;;基于Bloom Filter的網(wǎng)絡(luò)爬蟲URL消重算法研究[J];產(chǎn)業(yè)與科技論壇;2011年18期
2 曹忠;趙文靜;;一種優(yōu)化的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J];電腦知識與技術(shù);2008年35期
3 唐勇;;網(wǎng)絡(luò)論壇爬蟲的設(shè)計[J];電腦知識與技術(shù);2012年03期
4 劉晨鳴;馮海亮;李小蘭;;一種基于協(xié)議的互聯(lián)網(wǎng)音視頻識別方法[J];廣播電視信息;2009年12期
5 胡蓉;劉建勛;;Web服務(wù)搜索引擎的WSRank方法研究[J];計算機工程與科學(xué);2011年04期
6 王莉;;基于ASP.NET搜索引擎模型的實現(xiàn)[J];計算機與現(xiàn)代化;2011年11期
7 王沐心;;門戶網(wǎng)站保密檢查系統(tǒng)[J];計算機與現(xiàn)代化;2013年10期
8 黃輝;馮欣艷;;搜索引擎流量模型分析與測試[J];現(xiàn)代計算機(專業(yè)版);2012年04期
9 王杰;趙傳杰;黃華勇;;知識視角下?lián)魟τ?xùn)練比賽決策支持系統(tǒng)構(gòu)建及應(yīng)用[J];中國體育科技;2013年03期
中國重要會議論文全文數(shù)據(jù)庫 前2條
1 馮細光;劉建勛;;開放Web服務(wù)測試平臺的設(shè)計與實現(xiàn)[A];第18屆全國多媒體學(xué)術(shù)會議(NCMT2009)、第5屆全國人機交互學(xué)術(shù)會議(CHCI2009)、第5屆全國普適計算學(xué)術(shù)會議(PCC2009)論文集[C];2009年
2 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 林捷;主題網(wǎng)絡(luò)爬蟲的研究和實現(xiàn)[D];武漢理工大學(xué);2011年
2 趙艷;基于網(wǎng)絡(luò)爬蟲的跨站腳本漏洞動態(tài)檢測技術(shù)研究[D];西南交通大學(xué);2011年
3 宋婷;基于SVM的網(wǎng)絡(luò)爬蟲檢測研究與實現(xiàn)[D];天津大學(xué);2010年
4 王國才;基于本體的微內(nèi)容聚合與查詢技術(shù)[D];合肥工業(yè)大學(xué);2009年
5 鄧岳貴;基于非常快速退火搜索算法的主題爬蟲研究與實現(xiàn)[D];江西理工大學(xué);2009年
6 李春生;基于WEB信息采集的分布式網(wǎng)絡(luò)爬蟲搜索引擎的研究[D];吉林大學(xué);2009年
7 陳再興;全功能檢索系統(tǒng)搜索引擎設(shè)計[D];湖北工業(yè)大學(xué);2009年
8 斯鵬;網(wǎng)站內(nèi)容安全管理平臺的設(shè)計與實現(xiàn)[D];北京交通大學(xué);2010年
9 張航;主題爬蟲的實現(xiàn)及其關(guān)鍵技術(shù)研究[D];武漢理工大學(xué);2010年
10 陳麗萍;校園BBS輿情數(shù)據(jù)收集與提取系統(tǒng)的設(shè)計與實現(xiàn)[D];華中科技大學(xué);2009年
【二級參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 沈文勤,李慶超,邵志清;搜索引擎的漸增式爬行和備份式更新模式[J];華東理工大學(xué)學(xué)報;2004年03期
2 劉林,汪濤,樊孝忠;主題爬蟲的解決方案[J];華南理工大學(xué)學(xué)報(自然科學(xué)版);2004年S1期
3 朱淼良,邱瑜;移動代理系統(tǒng)綜述[J];計算機研究與發(fā)展;2001年01期
4 張冠群,陶先平,李新,馮新宇,呂建;Mogent系統(tǒng)遷移機制的設(shè)計和實現(xiàn)[J];計算機研究與發(fā)展;2001年09期
5 張敏,高劍峰,馬少平;基于鏈接描述文本及其上下文的Web信息檢索[J];計算機研究與發(fā)展;2004年01期
6 劉錦德,張云勇;一個實用的移動Agent系統(tǒng)(Aglet)的綜述[J];計算機應(yīng)用;2001年S1期
7 劉暢,張輝;一種應(yīng)用于搜索引擎的索引結(jié)構(gòu)研究[J];計算機與數(shù)字工程;2005年09期
8 呂韓飛,王申康;一種重要性與時新性結(jié)合的網(wǎng)頁更新策略[J];計算機應(yīng)用研究;2005年11期
9 王軍;彭建;;網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)設(shè)計研究[J];科技信息(學(xué)術(shù)研究);2007年27期
10 蔣宗禮;趙欽;肖華;王蕊;;高性能并行爬行器[J];計算機工程與設(shè)計;2006年24期
【相似文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 王舜燕;李蕾;吳兵華;;基于ID3分類算法的深度網(wǎng)絡(luò)爬蟲設(shè)計[J];現(xiàn)代圖書情報技術(shù);2008年06期
2 詹恒飛;楊岳湘;方宏;;Nutch分布式網(wǎng)絡(luò)爬蟲研究與優(yōu)化[J];計算機科學(xué)與探索;2011年01期
3 王芳;陳海建;;深入解析Web主題爬蟲的關(guān)鍵性原理[J];微型電腦應(yīng)用;2011年07期
4 劉潔清;吳京慧;;面向主題的個人實時搜索引擎的設(shè)計與實現(xiàn)[J];現(xiàn)代圖書情報技術(shù);2006年05期
5 彭軻;廖聞劍;;基于瀏覽器服務(wù)的網(wǎng)絡(luò)爬蟲[J];硅谷;2009年04期
6 王星;劉李敦;;基于移動代理(Agent)的智能爬蟲系統(tǒng)的設(shè)計和實現(xiàn)[J];科技資訊;2007年28期
7 趙靖華;;網(wǎng)絡(luò)性能指標預(yù)測法指導(dǎo)任務(wù)分配的分布式網(wǎng)頁信息獲取技術(shù)[J];通化師范學(xué)院學(xué)報;2008年10期
8 鄒海亮;孫莉;;可定制的聚焦網(wǎng)絡(luò)爬蟲[J];電子科技;2009年01期
9 陶榮;陳燕;;基于Lucene小型搜索引擎的研究與實現(xiàn)[J];大眾科技;2010年02期
10 曾文;湛騰西;;網(wǎng)絡(luò)視頻爬蟲系統(tǒng)的設(shè)計與實現(xiàn)[J];中國科技信息;2010年15期
中國重要會議論文全文數(shù)據(jù)庫 前10條
1 陳海生;;淺析XML技術(shù)在網(wǎng)絡(luò)信息交換中的應(yīng)用[A];2006年全國LED顯示技術(shù)應(yīng)用及產(chǎn)業(yè)發(fā)展研討會論文集[C];2006年
2 韋振錦;方華;成春艷;;三層結(jié)構(gòu)在醫(yī)保數(shù)據(jù)傳輸中的應(yīng)用[A];廣西計算機學(xué)會2007年年會論文集[C];2007年
3 陸寶華;王曉宇;;用戶數(shù)據(jù)應(yīng)分屬性保護[A];全國計算機安全學(xué)術(shù)交流會論文集(第二十四卷)[C];2009年
4 李楠;谷利澤;鈕心忻;;用于XSS掃描的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[A];2010年全國通信安全學(xué)術(shù)會議論文集[C];2010年
5 徐劍;柯貴明;;網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[A];全國第21屆計算機技術(shù)與應(yīng)用學(xué)術(shù)會議(CACIS·2010)暨全國第2屆安全關(guān)鍵技術(shù)與應(yīng)用學(xué)術(shù)會議論文集[C];2010年
6 齊洪方;;協(xié)同設(shè)計中的應(yīng)用共享技術(shù)研究[A];2009年促進中部崛起專家論壇暨第五屆湖北科技論壇——裝備制造產(chǎn)業(yè)發(fā)展論壇論文集(上)[C];2009年
7 吳兵;朱學(xué)明;;Zeiss電子水準儀DINI12的應(yīng)用心得及其應(yīng)用程序的開發(fā)[A];'2005數(shù)字江蘇論壇電子政務(wù)與地理信息技術(shù)論文專輯[C];2005年
8 鄒永斌;陳興蜀;王文賢;;一個高性能Web資源收集系統(tǒng)的設(shè)計與實現(xiàn)[A];2008'中國信息技術(shù)與應(yīng)用學(xué)術(shù)論壇論文集(二)[C];2008年
9 張軍;于浩;內(nèi)野寬治;;UGC中產(chǎn)品評論信息的挖掘[A];內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C];2007年
10 劉凡平;高艷華;于炯;張偉;;基于關(guān)鍵決策方法的站內(nèi)搜索研究與實現(xiàn)[A];2010年全國開放式分布與并行計算機學(xué)術(shù)會議論文集[C];2010年
中國重要報紙全文數(shù)據(jù)庫 前10條
1 ;東方通天津高速公路聯(lián)網(wǎng)收費系統(tǒng)[N];計算機世界;2006年
2 信息工程大學(xué)測繪學(xué)院 陳波;數(shù)字水利 3S來支撐[N];中國計算機報;2005年
3 樂天邋編譯;SaaS適用于中小企業(yè)嗎?[N];計算機世界;2008年
4 本報記者 侯繼勇;西安外包光纜直通美國[N];21世紀經(jīng)濟報道;2006年
5 楊國燕;“優(yōu)”勝劣敗[N];網(wǎng)絡(luò)世界;2006年
6 張戈;當方案商遇到RFID[N];電腦商報;2008年
7 陳學(xué)樺;6000萬美元[N];河南日報;2007年
8 Spectra Logic公司;安全高效的可移動存儲介質(zhì)數(shù)據(jù)加密技術(shù)[N];中國計算機報;2007年
9 《計算機世界》方案評析實驗室;SOA解決方案橫向評述[N];計算機世界;2006年
10 本報記者 葉健;從信息中提煉企業(yè)競爭力[N];遼寧日報;2007年
中國博士學(xué)位論文全文數(shù)據(jù)庫 前5條
1 劉瑰;面向海量信息處理領(lǐng)域的數(shù)據(jù)網(wǎng)格及其關(guān)鍵技術(shù)研究[D];解放軍信息工程大學(xué);2009年
2 王總輝;高可擴分布式交互仿真支撐平臺的研究和實現(xiàn)[D];浙江大學(xué);2007年
3 王衛(wèi)亞;基于無線傳感網(wǎng)絡(luò)的高速公路惡劣氣象監(jiān)測及交通控制模型研究[D];長安大學(xué);2008年
4 閆偉國;網(wǎng)絡(luò)化制造模式下DNC關(guān)鍵技術(shù)研究[D];大連理工大學(xué);2003年
5 李群;主題搜索引擎聚類算法的研究[D];北京林業(yè)大學(xué);2011年
中國碩士學(xué)位論文全文數(shù)據(jù)庫 前10條
1 趙茉莉;網(wǎng)絡(luò)爬蟲系統(tǒng)的研究與實現(xiàn)[D];電子科技大學(xué);2013年
2 金梅;網(wǎng)絡(luò)爬蟲性能提升與功能拓展的研究與實現(xiàn)[D];吉林大學(xué);2012年
3 芮虎;比價購物平臺中網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[D];華東理工大學(xué);2013年
4 龔秋艷;并行網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)[D];華東師范大學(xué);2010年
5 張大偉;基于動態(tài)概念圖的主題網(wǎng)絡(luò)爬蟲的設(shè)計與分析[D];遼寧科技大學(xué);2013年
6 黃曉鵬;基于網(wǎng)絡(luò)爬蟲技術(shù)的內(nèi)容探測系統(tǒng)設(shè)計與實現(xiàn)[D];北京郵電大學(xué);2010年
7 王毅桐;分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實現(xiàn)[D];電子科技大學(xué);2012年
8 么士宇;基于分布式計算的網(wǎng)絡(luò)爬蟲技術(shù)研究[D];大連海事大學(xué);2011年
9 王洪威;主題網(wǎng)絡(luò)爬蟲的分析與設(shè)計[D];北京郵電大學(xué);2013年
10 譚宗英;物聯(lián)網(wǎng)石油測井數(shù)據(jù)傳輸與控制系統(tǒng)設(shè)計[D];西安電子科技大學(xué);2011年
,本文編號:1298146
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1298146.html