天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

面向垂直搜索的主題爬蟲爬行策略的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2020-08-01 07:50
【摘要】:現(xiàn)如今,越來越多的組織機(jī)構(gòu)或者個(gè)人通過垂直搜索引擎收集和搜索某一特定領(lǐng)域的內(nèi)容。但是,多數(shù)垂直搜索引擎的數(shù)據(jù)主要采用定向抓取解析的方式,比如pyspider,或者通過URL鏈接分析抓取大量數(shù)據(jù),然后判斷與主題相關(guān)性,有效抓取率低;垂直搜索引擎的重訪策略滿足不了對(duì)信息時(shí)效性的需求;此外,多數(shù)垂直搜索引擎沒有考慮所關(guān)注領(lǐng)域的特征值隨時(shí)間變化;爬蟲系統(tǒng)也應(yīng)該具有躲避反爬蟲機(jī)制的能力,以獲得更多數(shù)據(jù)。 本文重點(diǎn)針對(duì)垂直搜索引擎的數(shù)據(jù)抓取和數(shù)據(jù)分類,設(shè)提出了一個(gè)高效的基于支持向量機(jī)算法的網(wǎng)頁分類模型,設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)新型的基于索引網(wǎng)頁的分布式可擴(kuò)展主題爬蟲系統(tǒng)。本文主要貢獻(xiàn)如下: 1.優(yōu)化爬行策略是優(yōu)化爬蟲效率的最有效方式。本文提出加入索引網(wǎng)頁的URL樹形結(jié)構(gòu),根據(jù)網(wǎng)頁主題在URL鏈接之間的傳遞關(guān)系,通過索引網(wǎng)頁給出更準(zhǔn)確的預(yù)測相關(guān)性,減少不必要的爬取。 2.本文提出了索引網(wǎng)頁的辨識(shí)方法,提取擁有較高鏈接度和導(dǎo)航性質(zhì)的索引網(wǎng)頁,保持高頻爬取,優(yōu)化網(wǎng)頁重訪策略,及時(shí)獲得最新的消息,保證消息時(shí)效性。 3.判斷頁面相關(guān)性最有效的途徑是頁面分類,這也是垂直搜索引擎的關(guān)鍵所在。本文針對(duì)SVM算法提出了帶反饋機(jī)制的網(wǎng)頁分類流程,保證主題的表示并不偏移主題本身;同時(shí)對(duì)跨領(lǐng)域網(wǎng)頁的重點(diǎn)分析抓取,給出較高的優(yōu)先級(jí),有助于垂直搜索引擎拓寬爬取范圍,獲得更多有效的信息。 4.設(shè)計(jì)了一個(gè)新型的基于消息系統(tǒng)的分布式主題爬蟲系統(tǒng),減少組件間的耦合關(guān)系,使該系統(tǒng)可以更方便地實(shí)現(xiàn)對(duì)網(wǎng)頁下載程序和解析程序的擴(kuò)展,滿足垂直搜索引擎的彈性需求。 最后設(shè)計(jì)實(shí)現(xiàn)該爬蟲系統(tǒng),對(duì)分類效果進(jìn)行測試,并針對(duì)該系統(tǒng)的設(shè)計(jì)給出優(yōu)缺點(diǎn)的評(píng)價(jià)。
【學(xué)位授予單位】:北京郵電大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2015
【分類號(hào)】:TP391.3
【圖文】:

系統(tǒng)數(shù)據(jù),拓展性,定制功能,源系統(tǒng)


圖2-3 Scrapy爬蟲系統(tǒng)數(shù)據(jù)流丨^9】前,^u源的爬蟲項(xiàng)0很多,比如Scrapyfi9】和Nutch[2G】。Nutch其實(shí)是一個(gè)開源的va實(shí)現(xiàn)的搜索引擎,其中Crawler組件是Nutch中的爬蟲系統(tǒng)。Scrapy是一個(gè)^uthon實(shí)現(xiàn)的爬蟲系統(tǒng),擁有更多的定制功能。Scrapy在易用性,拓展性等方而具體實(shí)現(xiàn),NB因其作為^u源系統(tǒng),rll Python實(shí)現(xiàn),豐富的文檔,眾多的Conttibutors,結(jié)構(gòu)也較為完善。apy 包柄 Scrapy Engine,Scheduler, Downloader,Spiders, Item Pipeline \rt\li-\'c1 ) Scrapy Engine主要負(fù)責(zé)控制數(shù)據(jù)流的流向和相應(yīng)事件的觸發(fā)。2 ) Scheduler作為調(diào)度器,主要執(zhí)行URL有效性判斷和入隊(duì)操作。3 ) Spiders用于解析網(wǎng)頁,提取items,即鏈接,title等;Spiders中每一個(gè)Spider理一個(gè)或者多個(gè)特定的網(wǎng)站。4) Item Pipeline負(fù)責(zé)處理被spider提取出來的item,進(jìn)行持久化存儲(chǔ)等操作。5) Downloader 負(fù)責(zé) request 請(qǐng)求和接收 response丨丨、arpy 提供了 Downloader middlewares 和 Spider middlewares 兩個(gè)中間件用于插入

個(gè)人主頁,形式,網(wǎng)頁,索引


學(xué)工程碩士學(xué)位論文文介紹的URL樹中可以添加索引網(wǎng)頁的節(jié)點(diǎn),具體添加方法見3.1.4節(jié)。索引網(wǎng)頁識(shí)別Web2.0時(shí)代的發(fā)展,當(dāng)前網(wǎng)絡(luò)環(huán)境下,信息的提供者主要包括機(jī)構(gòu),組織模型。機(jī)構(gòu)一般通過直接構(gòu)建站點(diǎn)的方式展示信息,組織則一般是通過論壇信息,個(gè)人主要通過博客和一些個(gè)人站點(diǎn)展示信息。因此,本節(jié)主要考慮三式的索引網(wǎng)頁:論壇模式,博客模式和主站模式。網(wǎng)頁主要由鋪文本構(gòu)成,比如論壇的主頁,文本信息不太長,但是文本都有的網(wǎng)頁。索引網(wǎng)頁主要有兩個(gè)特點(diǎn)一個(gè)是鏈接特點(diǎn),一個(gè)是內(nèi)容特點(diǎn)。特點(diǎn)是指:(1)鏈接數(shù)量較多,(2)鏈接指向當(dāng)前域名下的子網(wǎng)頁。特點(diǎn)則是指:(1)文本較短,(2)有效鏈接的錨文本可能會(huì)有關(guān)鍵詞相關(guān)。Ku- : 7:? V. f-' ^ Hh ■■ 七子w 土 :科i ? ? i:

模式圖,主站,中國農(nóng)業(yè),首頁


最多的區(qū)域視為正文文本區(qū)域。對(duì)比圖4-9,4-10,4-11也可以得出索引網(wǎng)頁和普通網(wǎng)頁在行塊維度上的區(qū)別。行塊維度上的計(jì)算可以基本上較完整地區(qū)分索引網(wǎng)頁和內(nèi)容頁。利用第三章中的公式計(jì)算,在人工搜集的200張索引網(wǎng)頁中,可以識(shí)別的索引網(wǎng)頁數(shù)量為174,識(shí)別率達(dá)到87%。部分沒有識(shí)別出的目錄網(wǎng)頁中都會(huì)有干擾成分,比如在http://www.discuz.net/forum-2-l.html網(wǎng)頁中,該論壇的每一張網(wǎng)頁之前都有一大段文本介紹論壇規(guī)則,導(dǎo)致識(shí)別錯(cuò)誤。網(wǎng)頁解析的主要代碼流程如下:#lines對(duì)應(yīng)每行的長度lines = tuple(self.plain_text.split('\n'))len_per_lines = [len(re.sub(r*\s+*, ?’

【參考文獻(xiàn)】

相關(guān)期刊論文 前5條

1 徐文龍;姚立紅;潘理;倪佑生;;基于TSVM的網(wǎng)絡(luò)入侵檢測研究[J];計(jì)算機(jī)工程;2006年18期

2 王利;劉宗田;王燕華;廖濤;;基于內(nèi)容相似度的網(wǎng)頁正文提取[J];計(jì)算機(jī)工程;2010年06期

3 黃玲;陳龍;;基于網(wǎng)頁分塊的正文信息提取方法[J];計(jì)算機(jī)應(yīng)用;2008年S2期

4 王晨陽;;一種NAT端口映射保持的自適應(yīng)算法[J];科學(xué)技術(shù)與工程;2010年34期

5 孫承杰,關(guān)毅;基于統(tǒng)計(jì)的網(wǎng)頁正文信息抽取方法的研究[J];中文信息學(xué)報(bào);2004年05期



本文編號(hào):2777181

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2777181.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶17dcf***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com