二手房的垂直搜索引擎的設計與實現
發(fā)布時間:2021-04-30 03:18
隨著互聯網的飛速發(fā)展以及大數據的到來,各個領域充斥著大量的信息。如何檢索出有用的信息成為了各領域的首要任務。因此,結合垂直搜索引擎技術開發(fā)出二手房的搜索引擎平臺成為了該領域的亟需解決的問題。主題網絡爬蟲策略融合了網頁采集、網頁分塊、主題相關度判定以及信息提取等技術。該策略在領域網頁采集方面有著明顯的優(yōu)勢,如具有很高的網絡資源利用率以及信息采集的準確率。本文在考慮網頁的相關度計算中,融合了鏈接所在的內容塊與主題的相似度,通過對鏈接的相似度與網頁內容的相似度的權重組合,來過濾與主題無關的網頁,同時鏈接與主題相似度也能夠降低爬蟲服務對無關鏈接的訪問量。本文結合全文檢索框架Lucene、分布式爬蟲框架以及HBase集群開發(fā)了一套二手房的垂直搜索引擎。該爬蟲框架實時抓取國內多個二手房網站數據,目前已經抓取的網頁庫達到千萬級的二手房數據,并存儲到HBase集群,可用于數據分析以及挖掘等。該搜索引擎融合了同義詞以及Rocchio相關反饋算法對原始查詢的擴展,進而優(yōu)化Lucene的默認查詢,并提供了域查詢以及模糊查詢等多樣化的功能。最后對二手房的垂直搜索引擎中的網絡爬蟲以及檢索模塊進行了功能測試,并與...
【文章來源】:西南交通大學四川省 211工程院校 教育部直屬院校
【文章頁數】:80 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內外研究現狀
1.3 主要內容和結構安排
第2章 垂直搜索引擎相關技術
2.1 搜索引擎工作原理
2.2 二手房的垂直搜索引擎的特點
2.2.1 垂直搜索引擎的特點
2.2.2 二手房信息的特點
2.3 網絡爬蟲技術
2.3.1 主題爬蟲架構
2.3.2 網絡爬蟲策略
2.4 中文分詞技術
2.4.1 中文分詞概述
2.4.2 中文分詞基本算法
2.5 非關系型數據庫HBase
2.5.1 HBase概述
2.5.2 HBase特性
2.5.3 HBase集群架構
2.6 全文檢索框架Lucene
2.6.1 Lucene概述
2.6.2 Lucene系統結構
2.6.3 Lucene索引
2.7 本章小結
第3章 二手房的主題網絡爬蟲策略設計
3.1 基于網頁內容的網絡爬蟲策略
3.1.1 Fish-Search算法
3.1.2 Shark-Search算法
3.2 內容塊相似度
3.2.1 網頁分塊技術
3.2.2 主題相似度算法
3.3 二手房的網絡爬蟲策略
3.3.1 鏈接以及網頁相似度算法
3.3.2 網絡爬蟲策略流程
3.3.3 爬蟲策略設計及分析
3.4 本章小結
第4章 基于Lucene檢索模型的查詢優(yōu)化
4.1 問題描述
4.2 Lucene檢索模型及評分算法
4.2.1 布爾檢索模型
4.2.2 向量空間檢索模型
4.2.3 默認評分算法
4.3 Rocchio算法模型
4.4 融合同義詞與Rocchio算法的查詢優(yōu)化
4.4.1 流程描述
4.4.2 評價原則與標準
4.4.3 實驗環(huán)境及數據集
4.4.4 實驗設計及分析
4.5 本章小結
第5章 二手房的垂直搜索引擎的設計與實現
5.1 二手房的垂直搜索引擎的功能和目標
5.2 二手房的垂直搜索引擎的整體設計
5.2.1 整體架構設計
5.2.2 系統數據流設計
5.2.3 分布式數據庫HBase架構以及表設計
5.3 網頁爬蟲模塊的設計與實現
5.3.1 分布式爬蟲框架JLiteSpider
5.3.2 爬蟲服務架構設計
5.3.3 網頁抓取
5.3.4 文檔解析與處理模塊
5.4 索引模塊的設計與實現
5.4.1 數據預處理
5.4.2 IKAnalyzer中文分詞器
5.4.3 索引構建
5.5 檢索模塊的設計與實現
5.5.1 檢索過程
5.5.2 查詢效果
5.6 本章小結
第6章 系統測試
6.1 開發(fā)環(huán)境
6.2 功能測試
6.2.1 網絡爬蟲測試
6.2.2 查詢模塊測試
總結與展望
致謝
參考文獻
攻讀碩士學位期間發(fā)表的論文及科研成果
本文編號:3168733
【文章來源】:西南交通大學四川省 211工程院校 教育部直屬院校
【文章頁數】:80 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第1章 緒論
1.1 研究背景和意義
1.2 國內外研究現狀
1.3 主要內容和結構安排
第2章 垂直搜索引擎相關技術
2.1 搜索引擎工作原理
2.2 二手房的垂直搜索引擎的特點
2.2.1 垂直搜索引擎的特點
2.2.2 二手房信息的特點
2.3 網絡爬蟲技術
2.3.1 主題爬蟲架構
2.3.2 網絡爬蟲策略
2.4 中文分詞技術
2.4.1 中文分詞概述
2.4.2 中文分詞基本算法
2.5 非關系型數據庫HBase
2.5.1 HBase概述
2.5.2 HBase特性
2.5.3 HBase集群架構
2.6 全文檢索框架Lucene
2.6.1 Lucene概述
2.6.2 Lucene系統結構
2.6.3 Lucene索引
2.7 本章小結
第3章 二手房的主題網絡爬蟲策略設計
3.1 基于網頁內容的網絡爬蟲策略
3.1.1 Fish-Search算法
3.1.2 Shark-Search算法
3.2 內容塊相似度
3.2.1 網頁分塊技術
3.2.2 主題相似度算法
3.3 二手房的網絡爬蟲策略
3.3.1 鏈接以及網頁相似度算法
3.3.2 網絡爬蟲策略流程
3.3.3 爬蟲策略設計及分析
3.4 本章小結
第4章 基于Lucene檢索模型的查詢優(yōu)化
4.1 問題描述
4.2 Lucene檢索模型及評分算法
4.2.1 布爾檢索模型
4.2.2 向量空間檢索模型
4.2.3 默認評分算法
4.3 Rocchio算法模型
4.4 融合同義詞與Rocchio算法的查詢優(yōu)化
4.4.1 流程描述
4.4.2 評價原則與標準
4.4.3 實驗環(huán)境及數據集
4.4.4 實驗設計及分析
4.5 本章小結
第5章 二手房的垂直搜索引擎的設計與實現
5.1 二手房的垂直搜索引擎的功能和目標
5.2 二手房的垂直搜索引擎的整體設計
5.2.1 整體架構設計
5.2.2 系統數據流設計
5.2.3 分布式數據庫HBase架構以及表設計
5.3 網頁爬蟲模塊的設計與實現
5.3.1 分布式爬蟲框架JLiteSpider
5.3.2 爬蟲服務架構設計
5.3.3 網頁抓取
5.3.4 文檔解析與處理模塊
5.4 索引模塊的設計與實現
5.4.1 數據預處理
5.4.2 IKAnalyzer中文分詞器
5.4.3 索引構建
5.5 檢索模塊的設計與實現
5.5.1 檢索過程
5.5.2 查詢效果
5.6 本章小結
第6章 系統測試
6.1 開發(fā)環(huán)境
6.2 功能測試
6.2.1 網絡爬蟲測試
6.2.2 查詢模塊測試
總結與展望
致謝
參考文獻
攻讀碩士學位期間發(fā)表的論文及科研成果
本文編號:3168733
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3168733.html