位置服務信息集成與搜索系統(tǒng)的研究與實現(xiàn)
發(fā)布時間:2020-06-01 21:57
【摘要】:隨著互聯(lián)網(wǎng)的發(fā)展,尤其是移動互聯(lián)網(wǎng)技術日新月異的近10年間,基于位置的服務信息越來越多且越來越重要,如租房、家政、商家、酒店等服務信息。基本上生活中與衣食住行息息相關的服務信息都可以發(fā)布在互聯(lián)網(wǎng)上,并且越來越多的信息會附帶有位置坐標。如何將這些服務信息進行采集、分析、存儲并以用戶為中心提供個性化的搜索服務成為現(xiàn)實亟需解決的問題。本文實現(xiàn)了位置服務信息分別從互聯(lián)網(wǎng)和用戶的采集,并對采集的數(shù)據(jù)進行分析、存儲和索引,實現(xiàn)了對服務信息的個性化搜索,讓用戶精確、便捷、個性化地搜索獲取所需的服務信息。本文主要工作如下:1.針對從互聯(lián)網(wǎng)垂直領域站點采集位置服務信息過程中目標站點較強的反爬蟲策略,為提高需求數(shù)據(jù)的采集效率,設計、開發(fā)并實現(xiàn)了一個基于客戶端-服務器模式的爬蟲模型。服務器端負責動態(tài)控制任務URL的生產(chǎn)、調(diào)度以及對采集結(jié)果的收集,客戶端程序定時主動請求任務URL并采集所需數(shù)據(jù)?蛻舳嗽O計了動態(tài)改變采集設置以達到最優(yōu)采集效率的策略,服務器根據(jù)客戶端消費任務的效率動態(tài)生產(chǎn)適量的任務URL。任務的生產(chǎn)、調(diào)度與采集結(jié)果的收集是通過設置監(jiān)聽、一系列定時任務及一張任務表配合完成。任務表狀態(tài)字段精確控制采集任務的狀態(tài),以確保數(shù)據(jù)采集的時效性及完整性。通過采集測試和與其他爬蟲的對比,驗證了設計的任務生產(chǎn)與調(diào)度策略以及客戶端采集設置動態(tài)調(diào)節(jié)策略的實用性。該模型實現(xiàn)了讓更多、更廣泛的節(jié)點為數(shù)據(jù)采集需求服務,達到了預期可觀的采集效率。2.為了讓可以提供個性化服務的用戶便捷地發(fā)布各類帶有位置坐標的服務信息,設計、開發(fā)了從用戶采集位置服務信息模塊的后臺程序與移動端APP。后臺程序基于Java Web分層架構使用SSM框架搭建,設計了與數(shù)據(jù)采集業(yè)務相關的接口程序。移動端基于Android Studio開發(fā)環(huán)境應用百度地圖SDK設計組件及界面,實現(xiàn)了從提供服務的用戶采集不同類別的位置服務信息。位置信息獲取設計有地圖定位、選點獲取坐標和坐標與地址信息相互轉(zhuǎn)換功能;新增店鋪和服務信息模塊設計有服務類別提示,類別信息由類別編碼表維護;同時,實現(xiàn)移動端拍照和相冊選取獲取圖片數(shù)據(jù)與后臺程序交互。3.為了讓用戶能夠通過搜索框一次性、便捷地輸入個性化查詢信息并快速、精確地獲取所需的查詢結(jié)果,設計、實現(xiàn)了一個位置服務信息個性化搜索引擎。首先,按生產(chǎn)環(huán)境配置要求搭建了Elasticsearch分布式集群。之后,對集成的位置服務信息按一定規(guī)則構建了領域詞庫和詞匯分級權重表。領域詞庫用于提高索引與查詢數(shù)據(jù)的準確度。詞匯分級權重表用于在構建查詢語句時賦予該表中出現(xiàn)的關鍵字對應權重,以增加相關度評分。前端設計有查詢信息輸入提示規(guī)則以便讓用戶一次性、便捷地輸入查詢信息。后臺程序按規(guī)則對查詢信息析取詞匯并根據(jù)詞匯級別構造索引庫查詢語句搜索文檔。最后,通過示例驗證,該搜索引擎實現(xiàn)了讓用戶一次性、便捷地輸入查詢信息并快速、精確地響應給用戶所需的查詢結(jié)果。
【圖文】:
位置服務信息集成與搜索系統(tǒng)的研究與實現(xiàn)(Python,NET,,Java,Ruby 等)的 API 和基于 HTTP 的 RESTfulAPI 與外部進行交互。同時,其提供了高效的聚合分析功能[19]。目前國內(nèi)外很多公司在使用 ElasticSearch 作為應用的搜索引擎框架[17]。維基百科使用 ElasticSearch 進行全文搜索并突出顯示查詢詞。英國衛(wèi)報使用 ElasticSearch 處理訪客日志,以便公眾對不同文章的回復實時反饋給各位編輯。GitHub 核心架構由 Solr 轉(zhuǎn)向Elasticsearch 來檢索超過 1300 億行代碼[20]。截至 2018 年 9 月全球部分搜索引擎框架使用流行趨勢圖[21],如圖 1.1 所示。
圖1.2位置服務信息集成與搜索系統(tǒng)總體組織結(jié)構圖
【學位授予單位】:蘭州理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.09;TP391.3
本文編號:2692125
【圖文】:
位置服務信息集成與搜索系統(tǒng)的研究與實現(xiàn)(Python,NET,,Java,Ruby 等)的 API 和基于 HTTP 的 RESTfulAPI 與外部進行交互。同時,其提供了高效的聚合分析功能[19]。目前國內(nèi)外很多公司在使用 ElasticSearch 作為應用的搜索引擎框架[17]。維基百科使用 ElasticSearch 進行全文搜索并突出顯示查詢詞。英國衛(wèi)報使用 ElasticSearch 處理訪客日志,以便公眾對不同文章的回復實時反饋給各位編輯。GitHub 核心架構由 Solr 轉(zhuǎn)向Elasticsearch 來檢索超過 1300 億行代碼[20]。截至 2018 年 9 月全球部分搜索引擎框架使用流行趨勢圖[21],如圖 1.1 所示。
圖1.2位置服務信息集成與搜索系統(tǒng)總體組織結(jié)構圖
【學位授予單位】:蘭州理工大學
【學位級別】:碩士
【學位授予年份】:2019
【分類號】:TP393.09;TP391.3
【參考文獻】
相關期刊論文 前5條
1 張艷輝;劉培玉;;基于互信息的微博新詞發(fā)現(xiàn)算法[J];科技視界;2015年15期
2 唐娜;肖鸝;;信息檢索技術的研究[J];湖北科技學院學報;2015年05期
3 吳吉義;李文娟;黃劍平;章劍林;陳德人;;移動互聯(lián)網(wǎng)研究綜述[J];中國科學:信息科學;2015年01期
4 李明;劉晉;;基于關聯(lián)規(guī)則的新詞發(fā)現(xiàn)技術研究[J];科技與企業(yè);2012年09期
5 胡軍偉;秦奕青;張偉;;正則表達式在Web信息抽取中的應用[J];北京信息科技大學學報(自然科學版);2011年06期
本文編號:2692125
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2692125.html
最近更新
教材專著