面向垂直搜索的主題爬蟲爬行策略的研究與實(shí)現(xiàn)

發(fā)布時(shí)間：2020-08-01 07:50

【摘要】：現(xiàn)如今,越來越多的組織機(jī)構(gòu)或者個(gè)人通過垂直搜索引擎收集和搜索某一特定領(lǐng)域的內(nèi)容。但是,多數(shù)垂直搜索引擎的數(shù)據(jù)主要采用定向抓取解析的方式,比如pyspider,或者通過URL鏈接分析抓取大量數(shù)據(jù),然后判斷與主題相關(guān)性,有效抓取率低；垂直搜索引擎的重訪策略滿足不了對(duì)信息時(shí)效性的需求；此外,多數(shù)垂直搜索引擎沒有考慮所關(guān)注領(lǐng)域的特征值隨時(shí)間變化；爬蟲系統(tǒng)也應(yīng)該具有躲避反爬蟲機(jī)制的能力,以獲得更多數(shù)據(jù)。本文重點(diǎn)針對(duì)垂直搜索引擎的數(shù)據(jù)抓取和數(shù)據(jù)分類,設(shè)提出了一個(gè)高效的基于支持向量機(jī)算法的網(wǎng)頁分類模型,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)新型的基于索引網(wǎng)頁的分布式可擴(kuò)展主題爬蟲系統(tǒng)。本文主要貢獻(xiàn)如下： 1.優(yōu)化爬行策略是優(yōu)化爬蟲效率的最有效方式。本文提出加入索引網(wǎng)頁的URL樹形結(jié)構(gòu),根據(jù)網(wǎng)頁主題在URL鏈接之間的傳遞關(guān)系,通過索引網(wǎng)頁給出更準(zhǔn)確的預(yù)測相關(guān)性,減少不必要的爬取。 2.本文提出了索引網(wǎng)頁的辨識(shí)方法,提取擁有較高鏈接度和導(dǎo)航性質(zhì)的索引網(wǎng)頁,保持高頻爬取,優(yōu)化網(wǎng)頁重訪策略,及時(shí)獲得最新的消息,保證消息時(shí)效性。 3.判斷頁面相關(guān)性最有效的途徑是頁面分類,這也是垂直搜索引擎的關(guān)鍵所在。本文針對(duì)SVM算法提出了帶反饋機(jī)制的網(wǎng)頁分類流程,保證主題的表示并不偏移主題本身；同時(shí)對(duì)跨領(lǐng)域網(wǎng)頁的重點(diǎn)分析抓取,給出較高的優(yōu)先級(jí),有助于垂直搜索引擎拓寬爬取范圍,獲得更多有效的信息。 4.設(shè)計(jì)了一個(gè)新型的基于消息系統(tǒng)的分布式主題爬蟲系統(tǒng),減少組件間的耦合關(guān)系,使該系統(tǒng)可以更方便地實(shí)現(xiàn)對(duì)網(wǎng)頁下載程序和解析程序的擴(kuò)展,滿足垂直搜索引擎的彈性需求。最后設(shè)計(jì)實(shí)現(xiàn)該爬蟲系統(tǒng),對(duì)分類效果進(jìn)行測試,并針對(duì)該系統(tǒng)的設(shè)計(jì)給出優(yōu)缺點(diǎn)的評(píng)價(jià)。
【學(xué)位授予單位】：北京郵電大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2015
【分類號(hào)】：TP391.3
【圖文】：

系統(tǒng)數(shù)據(jù),拓展性,定制功能,源系統(tǒng)

圖2-3 Scrapy爬蟲系統(tǒng)數(shù)據(jù)流丨^9】前，^u源的爬蟲項(xiàng)0很多，比如Scrapyfi9】和Nutch[2G】。Nutch其實(shí)是一個(gè)開源的va實(shí)現(xiàn)的搜索引擎，其中Crawler組件是Nutch中的爬蟲系統(tǒng)。Scrapy是一個(gè)^uthon實(shí)現(xiàn)的爬蟲系統(tǒng)，擁有更多的定制功能。Scrapy在易用性，拓展性等方而具體實(shí)現(xiàn)，NB因其作為^u源系統(tǒng)，rll Python實(shí)現(xiàn)，豐富的文檔，眾多的Conttibutors，結(jié)構(gòu)也較為完善。apy 包柄 Scrapy Engine，Scheduler, Downloader，Spiders, Item Pipeline \rt\li-\'c1 ) Scrapy Engine主要負(fù)責(zé)控制數(shù)據(jù)流的流向和相應(yīng)事件的觸發(fā)。2 ) Scheduler作為調(diào)度器，主要執(zhí)行URL有效性判斷和入隊(duì)操作。3 ) Spiders用于解析網(wǎng)頁，提取items，即鏈接，title等；Spiders中每一個(gè)Spider理一個(gè)或者多個(gè)特定的網(wǎng)站。4) Item Pipeline負(fù)責(zé)處理被spider提取出來的item，進(jìn)行持久化存儲(chǔ)等操作。5) Downloader 負(fù)責(zé) request 請(qǐng)求和接收 response丨丨、arpy 提供了 Downloader middlewares 和 Spider middlewares 兩個(gè)中間件用于插入

個(gè)人主頁,形式,網(wǎng)頁,索引

學(xué)工程碩士學(xué)位論文文介紹的URL樹中可以添加索引網(wǎng)頁的節(jié)點(diǎn)，具體添加方法見3.1.4節(jié)。索引網(wǎng)頁識(shí)別Web2.0時(shí)代的發(fā)展，當(dāng)前網(wǎng)絡(luò)環(huán)境下，信息的提供者主要包括機(jī)構(gòu)，組織模型。機(jī)構(gòu)一般通過直接構(gòu)建站點(diǎn)的方式展示信息，組織則一般是通過論壇信息，個(gè)人主要通過博客和一些個(gè)人站點(diǎn)展示信息。因此，本節(jié)主要考慮三式的索引網(wǎng)頁：論壇模式，博客模式和主站模式。網(wǎng)頁主要由鋪文本構(gòu)成，比如論壇的主頁，文本信息不太長，但是文本都有的網(wǎng)頁。索引網(wǎng)頁主要有兩個(gè)特點(diǎn)一個(gè)是鏈接特點(diǎn)，一個(gè)是內(nèi)容特點(diǎn)。特點(diǎn)是指：（1)鏈接數(shù)量較多，（2)鏈接指向當(dāng)前域名下的子網(wǎng)頁。特點(diǎn)則是指：（1)文本較短，（2)有效鏈接的錨文本可能會(huì)有關(guān)鍵詞相關(guān)。Ku- ： 7:? V. f-' ^ Hh ■■ 七子w 土：科i ? ？ i:

模式圖,主站,中國農(nóng)業(yè),首頁

最多的區(qū)域視為正文文本區(qū)域。對(duì)比圖4-9，4-10，4-11也可以得出索引網(wǎng)頁和普通網(wǎng)頁在行塊維度上的區(qū)別。行塊維度上的計(jì)算可以基本上較完整地區(qū)分索引網(wǎng)頁和內(nèi)容頁。利用第三章中的公式計(jì)算，在人工搜集的200張索引網(wǎng)頁中，可以識(shí)別的索引網(wǎng)頁數(shù)量為174，識(shí)別率達(dá)到87%。部分沒有識(shí)別出的目錄網(wǎng)頁中都會(huì)有干擾成分，比如在http://www.discuz.net/forum-2-l.html網(wǎng)頁中，該論壇的每一張網(wǎng)頁之前都有一大段文本介紹論壇規(guī)則，導(dǎo)致識(shí)別錯(cuò)誤。網(wǎng)頁解析的主要代碼流程如下：#lines對(duì)應(yīng)每行的長度lines = tuple(self.plain_text.split('\n'))len_per_lines = [len(re.sub(r*\s+*, ?’

【參考文獻(xiàn)】

相關(guān)期刊論文前5條

1 徐文龍;姚立紅;潘理;倪佑生;;基于TSVM的網(wǎng)絡(luò)入侵檢測研究[J];計(jì)算機(jī)工程;2006年18期

2 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計(jì)算機(jī)工程;2010年06期

3 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

4 王晨陽;;一種NAT端口映射保持的自適應(yīng)算法[J];科學(xué)技術(shù)與工程;2010年34期

5 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期

本文編號(hào)：2777181

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2777181.html

上一篇：基于雙數(shù)組Trie的高效索引結(jié)構(gòu)及其并行化的研究
下一篇：含高比例風(fēng)電的電力系統(tǒng)連鎖故障風(fēng)險(xiǎn)評(píng)估

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

面向垂直搜索的主題爬蟲爬行策略的研究與實(shí)現(xiàn)