基于主題的網絡蜘蛛的設計與實現
發(fā)布時間:2017-04-02 22:03
本文關鍵詞:基于主題的網絡蜘蛛的設計與實現,由筆耕文化傳播整理發(fā)布。
【摘要】:在因特網飛快發(fā)展的當代,因特網上的信息像漫天的星宿不斷的發(fā)展、變化。搜索引擎也有所創(chuàng)新,不再成為固定的模式。無變化的搜索引擎會快速淘汰。由此,如何為用戶提供高質量的、全面的、更新迅速的信息搜索平臺成為了不可忽視的問題。有的搜索引擎具有很大程度上的局限性。所有的web信息被有些引擎企圖索引。繼而要為所有的主題提供查詢請求。比較而說,提供主題搜索的引擎只會鎖定與特定主題密切聯系的web區(qū)域,所以通過主題搜索的使用可以使內容更為深入。根據相應的信息回饋,使用主題搜索可相應縮短搜索周期。固主題搜索可以滿足用戶的搜索體驗。根據主題進行的搜索引擎如今成為了計算機科學和信息產業(yè)互相競爭的領域。作者在設計角度與實現可能性出發(fā),對和搜索引擎有關聯的技術作了較為詳細的分析與討論,首先對搜索引擎今后的發(fā)展情況和現在全球的搜索引擎現狀進行研究,然后在分析搜索引擎的工作原理,對其各部分主要功能進行評估。對兩個為題進行研究:網絡蜘蛛的搜索策略,頁面的主題關聯。對與主題相關的網絡蜘蛛的全面建立提出可行性建議。提出了網絡蜘蛛的設計程序的相應思路,從HTML頁面解析的概念著手,通過使用尊于搜索內容評價的搜索策略,設計相關問題,得到設計出使中小型網站專業(yè)網頁的信息獲取都適用的網絡蜘蛛,提出此網絡蜘蛛的爬行算法繼而使用java語言達成體系。另外,本文還針對URL重復和動態(tài)頁面內容兩大難題給出了解決方案。
【關鍵詞】:主題搜索 網絡蜘蛛 相關度計算
【學位授予單位】:黑龍江大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 中文摘要3-4
- ABSTRACT4-8
- 引言8-10
- 第1章 搜索引擎概述10-24
- 1.1 搜索引擎簡介10-19
- 1.1.1 搜索引擎的誕生13
- 1.1.2 搜索引擎的分類13-14
- 1.1.3 搜索引擎的原理14-17
- 1.1.4 搜索引擎發(fā)展趨勢17-19
- 1.2 主題型搜索引擎概述19-22
- 1.2.1 產生背景19-21
- 1.2.2 主題型搜索引擎21-22
- 1.3 主題搜索的研究與發(fā)展現況22
- 1.4 網絡蜘蛛22-23
- 1.5 本文的主要工作23-24
- 第2章 主題蜘蛛技術概述24-32
- 2.1 網絡蜘蛛簡介24-25
- 2.2 網絡蜘蛛關鍵技術25-26
- 2.3 主題蜘蛛的搜索策略26-28
- 2.3.1 基于內容評價的搜索策略26-27
- 2.3.2 基于鏈接結構評價的搜索策略27-28
- 2.4 主題相關度計算28-30
- 2.4.1 HTML鏈接標簽29
- 2.4.2 本文的主題相關度計算方法29-30
- 2.5 初始URL的選擇30-31
- 2.5.1 Web主題關聯模型30-31
- 2.5.2 初始URL的選擇方法31
- 2.6 本章小結31-32
- 第3章 頁面正文提取與中文分詞32-40
- 3.1 頁面正文提取技術32-37
- 3.1.1 HTML簡介32-33
- 3.1.2 HTML文檔標準化33-34
- 3.1.3 構造標簽樹34
- 3.1.4 HTML內容分塊技術34-35
- 3.1.5 正文塊提取35-36
- 3.1.6 正則表達式36-37
- 3.2 中文分詞簡介37-39
- 3.2.1 中文分詞常用算法38-39
- 3.3 本章小結39-40
- 第4章 基于主題的蜘蛛設計與實現40-60
- 4.1 數據庫主要表設計40-42
- 4.1.1 Link表40-41
- 4.1.2 Topic表41
- 4.1.3 Document表41-42
- 4.2 架構設計42-43
- 4.3 作業(yè)管理器43-44
- 4.4 線程管理器44-48
- 4.4.1 多線程技術44-46
- 4.4.2 線程管理器46-48
- 4.5 Spider類的實現48-50
- 4.6 重復檢測技術實現50-51
- 4.7 中文分詞技術實現51-57
- 4.7.1 詞典結構設計52-53
- 4.7.2 構建詞典53-54
- 4.7.3 切詞實現54-57
- 4.8 動態(tài)網頁內容獲得技術實現57-58
- 4.9 實驗效果58-59
- 4.10 本章小結59-60
- 第5章 主題蜘蛛性能分析60-62
- 5.1 主題蜘蛛的性能分析60-61
- 5.2 本章小結61-62
- 第6章 主題詞典62-65
- 6.1 主題詞典的建立62-63
- 6.2 主題詞典的維護63-64
- 6.3 本章小結64-65
- 結論65-66
- 參考文獻66-69
- 致謝69
【相似文獻】
中國期刊全文數據庫 前10條
1 于俊洋;李俊;;基于C#的網絡蜘蛛的設計和實現[J];中國教育信息化;2008年21期
2 陳瑜芳;何克右;;網絡蜘蛛的設計與實現[J];現代計算機(專業(yè)版);2009年11期
3 包桂燕;;網絡蜘蛛搜索策略評價[J];民營科技;2010年04期
4 潘欣;呂靜波;張素莉;;基于網絡蜘蛛的新詞自動發(fā)現算法研究[J];長春工程學院學報(自然科學版);2011年03期
5 李浩;蔣,
本文編號:283204
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/283204.html
教材專著