天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 搜索引擎論文 >

大規(guī)模垂直搜索方法的研究與實(shí)現(xiàn)

發(fā)布時(shí)間:2021-01-26 01:05
  隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,Web中每天都會(huì)產(chǎn)生大量的網(wǎng)頁(yè),這些網(wǎng)頁(yè)內(nèi)容千差萬(wàn)別。面對(duì)海量的Web網(wǎng)頁(yè)信息資源,搜索引擎作為信息獲取的重要工具,越來(lái)越難以提供精確地查詢服務(wù)。因此,提供與某特定領(lǐng)域主題相關(guān)、為用戶提供更加及時(shí)、準(zhǔn)確的查詢服務(wù)的垂直搜索引擎應(yīng)運(yùn)而生。主題爬蟲是垂直搜索引擎的核心模塊,負(fù)責(zé)對(duì)Web網(wǎng)頁(yè)進(jìn)行垂直搜索,將主題相關(guān)的網(wǎng)頁(yè)存儲(chǔ)到本地,供垂直搜索引擎建立索引和為用戶提供查詢服務(wù)。在大規(guī)模垂直搜索時(shí),如何準(zhǔn)確地判斷一個(gè)網(wǎng)頁(yè)是否主題相關(guān)、以什么樣的搜索策略搜索Web網(wǎng)頁(yè),是垂直搜索的兩個(gè)關(guān)鍵問(wèn)題。基于網(wǎng)頁(yè)內(nèi)容的搜索策略將整個(gè)網(wǎng)頁(yè)內(nèi)容作為主題判別的關(guān)鍵因素,容易受到網(wǎng)頁(yè)中包含的廣告、圖片和Flash動(dòng)畫等“噪音”信息的干擾,導(dǎo)致判別的準(zhǔn)確率很低。此外,如果主題爬蟲只從主題相關(guān)的頁(yè)面中提取鏈接,往往容易忽略一些有價(jià)值的導(dǎo)航型網(wǎng)頁(yè)中包含的目標(biāo)主題鏈接。本文針對(duì)這些問(wèn)題進(jìn)行研究,重點(diǎn)集中在主題爬蟲的搜索策略和頁(yè)面鏈接的價(jià)值評(píng)估上,提出基于網(wǎng)頁(yè)特征加權(quán)的主題判別算法和基于塊提取的鏈接價(jià)值評(píng)估方法。論文的主要工作和創(chuàng)新點(diǎn)如下:(1)提出一種網(wǎng)頁(yè)特征加權(quán)的主題判別算法。通過(guò)對(duì)HTML網(wǎng)頁(yè)標(biāo)簽... 

【文章來(lái)源】:北京交通大學(xué)北京市 211工程院校 教育部直屬院校

【文章頁(yè)數(shù)】:81 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

大規(guī)模垂直搜索方法的研究與實(shí)現(xiàn)


圖2-2搜索引擎體系結(jié)構(gòu)框圖??Fig?2-2?The?architecture?diagram?of?Search?engine??6??

工作流程圖,通用網(wǎng)絡(luò),隊(duì)列,工作流程圖


獲取網(wǎng)頁(yè)信息,實(shí)現(xiàn)信息覆蓋的最大化。一般情況下,為了提高爬蟲的搜索效率,??搜索引擎會(huì)采用多個(gè)爬蟲程序同時(shí)進(jìn)行網(wǎng)頁(yè)抓取的工作。通用網(wǎng)絡(luò)爬蟲的工作流??程大致如圖2-3所示:??(開(kāi)始)????初始種子URL??????I???URL?網(wǎng)頁(yè)下載??1?|???|解析網(wǎng)頁(yè)獲取新的鏈接URL并添??加到待爬去URL隊(duì)列中??I??網(wǎng)頁(yè)存儲(chǔ)??————??Yes??C結(jié);)??圖2-3通用網(wǎng)絡(luò)爬蟲工作流程圖??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用網(wǎng)絡(luò)爬蟲在信息抓取的過(guò)程中,一般會(huì)維護(hù)一個(gè)待訪問(wèn)URL隊(duì)列集合和??一個(gè)己訪問(wèn)URL隊(duì)列集合。待訪問(wèn)的URL隊(duì)列集合中開(kāi)始存放的是初始訪問(wèn)鏈??接URL。通用爬蟲的網(wǎng)頁(yè)搜索過(guò)程中,從待訪問(wèn)URL隊(duì)列集合中獲取初始鏈接??URL,然后向?qū)?yīng)服務(wù)器發(fā)送HTTP請(qǐng)求,服務(wù)器將作出HTTP響應(yīng),返回其對(duì)??應(yīng)的網(wǎng)頁(yè)。然后通用網(wǎng)絡(luò)爬蟲解析頁(yè)面獲取鏈接URL,將未訪問(wèn)過(guò)的URL放入到??待訪問(wèn)URL隊(duì)列集合中,將己訪問(wèn)過(guò)的URL放入到己訪問(wèn)URL隊(duì)列集合中,最??后將網(wǎng)頁(yè)按照指定的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中,循環(huán)上述操作直到待訪??問(wèn)URL隊(duì)列集合為空或者達(dá)到指定的結(jié)束條件。通用網(wǎng)絡(luò)爬蟲的具體體系結(jié)構(gòu)如??圖2-4所示:??9??

工作流程圖,通用網(wǎng)絡(luò),體系結(jié)構(gòu),隊(duì)列


獲取網(wǎng)頁(yè)信息,實(shí)現(xiàn)信息覆蓋的最大化。一般情況下,為了提高爬蟲的搜索效率,??搜索引擎會(huì)采用多個(gè)爬蟲程序同時(shí)進(jìn)行網(wǎng)頁(yè)抓取的工作。通用網(wǎng)絡(luò)爬蟲的工作流??程大致如圖2-3所示:??(開(kāi)始)????初始種子URL??????I???URL?網(wǎng)頁(yè)下載??1?|???|解析網(wǎng)頁(yè)獲取新的鏈接URL并添??加到待爬去URL隊(duì)列中??I??網(wǎng)頁(yè)存儲(chǔ)??————??Yes??C結(jié);)??圖2-3通用網(wǎng)絡(luò)爬蟲工作流程圖??Fig?2-3?The?work?flow?chart?of?Web?crawler??通用網(wǎng)絡(luò)爬蟲在信息抓取的過(guò)程中,一般會(huì)維護(hù)一個(gè)待訪問(wèn)URL隊(duì)列集合和??一個(gè)己訪問(wèn)URL隊(duì)列集合。待訪問(wèn)的URL隊(duì)列集合中開(kāi)始存放的是初始訪問(wèn)鏈??接URL。通用爬蟲的網(wǎng)頁(yè)搜索過(guò)程中,從待訪問(wèn)URL隊(duì)列集合中獲取初始鏈接??URL,然后向?qū)?yīng)服務(wù)器發(fā)送HTTP請(qǐng)求,服務(wù)器將作出HTTP響應(yīng),返回其對(duì)??應(yīng)的網(wǎng)頁(yè)。然后通用網(wǎng)絡(luò)爬蟲解析頁(yè)面獲取鏈接URL,將未訪問(wèn)過(guò)的URL放入到??待訪問(wèn)URL隊(duì)列集合中,將己訪問(wèn)過(guò)的URL放入到己訪問(wèn)URL隊(duì)列集合中,最??后將網(wǎng)頁(yè)按照指定的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到網(wǎng)頁(yè)數(shù)據(jù)庫(kù)中,循環(huán)上述操作直到待訪??問(wèn)URL隊(duì)列集合為空或者達(dá)到指定的結(jié)束條件。通用網(wǎng)絡(luò)爬蟲的具體體系結(jié)構(gòu)如??圖2-4所示:??9??


本文編號(hào):3000208

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3000208.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶5f60f***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com