一種針對(duì)Deep Web深層數(shù)據(jù)獲取的網(wǎng)絡(luò)爬蟲設(shè)計(jì)與實(shí)現(xiàn)
本文選題:網(wǎng)絡(luò)爬蟲 + Deep; 參考:《華中師范大學(xué)》2013年碩士論文
【摘要】:當(dāng)今的信息時(shí)代,互聯(lián)網(wǎng)中的信息不斷快速增長(zhǎng),存儲(chǔ)數(shù)據(jù)非常容易,但是想從中找到有用的信息卻越來越難。通用搜索引擎的出現(xiàn)為這一問題提供了解決方案。 網(wǎng)絡(luò)中有一部分?jǐn)?shù)據(jù)信息是存放在各網(wǎng)站站點(diǎn)數(shù)據(jù)庫(kù)中的,這部分?jǐn)?shù)據(jù)信息不能通過網(wǎng)頁(yè)中的鏈接直接獲取,而需要用戶手動(dòng)填寫網(wǎng)站查詢表單,提交查詢命令才能訪問,這些數(shù)據(jù)被稱為Deep Web數(shù)據(jù)。Deep Web數(shù)據(jù)與其他網(wǎng)站靜態(tài)頁(yè)面中提供的信息相比,專業(yè)性更強(qiáng),數(shù)據(jù)量更大,對(duì)用戶而言,更具利用有價(jià)值。通用搜索引擎在進(jìn)行網(wǎng)絡(luò)信息爬取時(shí),無法爬取到Deep Web數(shù)據(jù),這對(duì)搜索引擎用戶而言,能夠獲得的有價(jià)值的信息有限。 E時(shí)代辛亥革命搜索引擎是一個(gè)為辛亥革命歷史事件的研究者提供檢索服務(wù)的垂直搜素引擎,網(wǎng)絡(luò)爬蟲子系統(tǒng)的研制就是該引擎必須解決的關(guān)鍵系統(tǒng)之一。本文在通用搜索引擎的基礎(chǔ)上,通過對(duì)Deep Web數(shù)據(jù)結(jié)構(gòu)特點(diǎn)進(jìn)行分析,針對(duì)Deep Web數(shù)據(jù)源的檢測(cè)和獲取提供了一套實(shí)現(xiàn)方案,解決了其中2個(gè)主要問題,即: 1.對(duì)Deep Web數(shù)據(jù)查詢接口的節(jié)點(diǎn)特征進(jìn)行分析,建立節(jié)點(diǎn)特征庫(kù)。網(wǎng)絡(luò)爬蟲在獲取到新的頁(yè)面時(shí),利用節(jié)點(diǎn)特征庫(kù)比對(duì)當(dāng)前網(wǎng)頁(yè)的節(jié)點(diǎn)特征,尋找當(dāng)前網(wǎng)頁(yè)中包含Deep Web數(shù)據(jù)源的可能性,以此實(shí)現(xiàn)爬蟲進(jìn)行數(shù)據(jù)爬取時(shí),自動(dòng)發(fā)現(xiàn)Deep Web數(shù)據(jù)并將相關(guān)信息記錄至文件中。 2.爬蟲能夠讀取Deep Web文件,拼裝Deep Web數(shù)據(jù)源的查詢請(qǐng)求,獲取站點(diǎn)返回信息;通過頁(yè)面相似度的計(jì)算,為查詢結(jié)果頁(yè)面尋找一個(gè)“同類網(wǎng)頁(yè)”;通過對(duì)查詢結(jié)果頁(yè)面和其“同類網(wǎng)頁(yè)”進(jìn)行結(jié)構(gòu)特征分析,從查詢結(jié)果頁(yè)面中提取出查詢結(jié)果鏈接和分頁(yè)鏈接,舍棄導(dǎo)航鏈接和廣告鏈接等。 研究和實(shí)驗(yàn)表明,Deep Web數(shù)據(jù)源的檢測(cè)和獲取模型能夠比較好地發(fā)現(xiàn)站點(diǎn)頁(yè)面的查詢接口,較為準(zhǔn)確地抽取Deep Web查詢結(jié)果。
[Abstract]:In today's information age, the information in the Internet is growing rapidly, storing data is very easy, but finding useful information from it is more and more difficult. The emergence of general search engine provides a solution for this problem.
The network has a portion of the data is stored in the web site information in the database, this part of the data can not be obtained directly through the web page of the link, and require the user to manually fill in Web query form, submit query commands can be accessed, compared these data is called the information provided by the Deep Web.Deep data Web data and other static website in the page, more professional, more large amount of data, for users, more use value. The general search engine in web crawling, unable to take up Deep Web data, the search engine users, can obtain the valuable information.
The era of the E revolution is a search engine on the 1911 Revolution of historical events to provide search services in vertical search engine, one of the key system of network system is the development of climbing worm engine must be solved. In this paper, the general search engine, based on the structural characteristics of the Deep Web Deep Web for data analysis. The data source detection and acquisition provides a set of implementation scheme, solve 2 key problems, i.e.:
1. of the Deep Web query interface node feature analysis, set up the node feature database. Web crawler in access to the new page, using the node feature library than node features of the current web page, looking for the possibility of containing the Deep Web data source in the web page, so as to realize the crawler crawling, automatic discovery of Deep Web the data and relevant information will be recorded to a file.
2. crawlers can read the Deep Web file, assembled Deep Web data source query, access to the site to return information; by calculating the similarity to the query results page, page for a "similar" "; through the pages of search results and the" similar "to the analysis of structure features, extracted from the query results page query the link and paging link, abandon navigation links and advertising links.
Research and experiments show that the detection and acquisition model of Deep Web data source can find the query interface of site pages better, and extract the results of Deep Web more accurately.
【學(xué)位授予單位】:華中師范大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2013
【分類號(hào)】:TP391.3
【參考文獻(xiàn)】
相關(guān)期刊論文 前3條
1 王英;左祥麟;左萬(wàn)利;王鑫;;基于本體的Deep Web查詢接口集成[J];計(jì)算機(jī)研究與發(fā)展;2012年11期
2 趙悅陽(yáng);崔雷;;HITS算法在文本聚類結(jié)果類別描述中的應(yīng)用嘗試[J];情報(bào)理論與實(shí)踐;2013年03期
3 趙朋朋;崔志明;高嶺;仲華;;關(guān)于中國(guó)Deep Web的規(guī)模、分布和結(jié)構(gòu)[J];小型微型計(jì)算機(jī)系統(tǒng);2007年10期
相關(guān)博士學(xué)位論文 前1條
1 徐和祥;Deep Web集成中若干技術(shù)研究[D];復(fù)旦大學(xué);2008年
相關(guān)碩士學(xué)位論文 前8條
1 張仲祥;基于領(lǐng)域本體的Deep Web數(shù)據(jù)源聚焦技術(shù)研究[D];廣西師范大學(xué);2011年
2 彭正非;面向汽車行業(yè)的主題爬蟲研究與實(shí)現(xiàn)[D];華中科技大學(xué);2011年
3 黃雋毅;關(guān)于Web數(shù)據(jù)挖掘中HITS算法的研究[D];大連理工大學(xué);2004年
4 蔣超;面向人物簡(jiǎn)介的主題爬蟲設(shè)計(jì)與實(shí)現(xiàn)[D];吉林大學(xué);2012年
5 趙海澎;基于高斯核及PageRank的復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法研究[D];大連理工大學(xué);2012年
6 李雯鑫;基于領(lǐng)域本體的Deep Web接口集成與查詢轉(zhuǎn)換研究[D];遼寧大學(xué);2012年
7 謝月;網(wǎng)頁(yè)排序中PageRank算法和HITS算法的研究[D];電子科技大學(xué);2012年
8 李道申;基于本體的Deep Web數(shù)據(jù)集成方法研究[D];河南科技大學(xué);2012年
,本文編號(hào):1750690
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1750690.html