天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

基于Lucene的云平臺學(xué)術(shù)搜索引擎

發(fā)布時間:2017-06-07 04:04

  本文關(guān)鍵詞:基于Lucene的云平臺學(xué)術(shù)搜索引擎,由筆耕文化傳播整理發(fā)布。


【摘要】:隨著全球互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)信息總量正在迅猛增長。以Google、百度為代表的通用搜索引擎成為人們獲取互聯(lián)網(wǎng)信息的重要入口。然而此類大型搜索引擎卻不能完全應(yīng)對面向?qū)I(yè)領(lǐng)域的檢索需求,垂直搜索引擎的出現(xiàn)滿足了這類需求。本文針對互聯(lián)網(wǎng)上存在的海量學(xué)術(shù)文獻(xiàn)數(shù)據(jù),在Apache Lucene全文檢索工具庫的基礎(chǔ)上,提出了一種基于MooseFS云存儲平臺的垂直搜索引擎設(shè)計實現(xiàn)方案。該方案專注于互聯(lián)網(wǎng)海量學(xué)術(shù)文獻(xiàn)的信息檢索服務(wù),檢索結(jié)果整合多個網(wǎng)站的文獻(xiàn)數(shù)據(jù),具備較高的準(zhǔn)確性與全面性。使用云存儲平臺進(jìn)行索引存儲,能夠提高存儲可擴(kuò)展性,保證了系統(tǒng)面對大規(guī)模數(shù)據(jù)的檢索處理能力。本文研究內(nèi)容主要包括:設(shè)計實現(xiàn)高可定制性和高爬取性能的多線程定向網(wǎng)絡(luò)爬蟲,用于論文數(shù)據(jù)的定向爬取工作。研究全文檢索技術(shù)及全文檢索工具庫Apache Lucene的實現(xiàn)原理,并在此基礎(chǔ)上進(jìn)行二次開發(fā),完成論文數(shù)據(jù)檢索系統(tǒng)設(shè)計與實現(xiàn)。研究分布式數(shù)據(jù)庫集群和分布式緩存集群技術(shù),設(shè)計實現(xiàn)基于一致性哈希的數(shù)據(jù)庫分片集群方案和基于Redis的LRU分布式緩存方案。研究MooseFS云存儲平臺原理與架構(gòu),使用MooseFS云存儲平臺構(gòu)建Lucene索引存儲平臺。結(jié)合上述多種方法提出基于Lucene的云平臺學(xué)術(shù)搜索引擎解決方案。本文提出的垂直搜索引擎技術(shù)框架及其云存儲平臺實現(xiàn)方案,實現(xiàn)了多個學(xué)術(shù)數(shù)據(jù)庫數(shù)據(jù)的整合檢索,能夠有效提高用戶對互聯(lián)網(wǎng)上的海量文獻(xiàn)信息的檢索效率,具有重要的理論意義與現(xiàn)實意義。
【關(guān)鍵詞】:垂直搜索引擎 信息檢索 網(wǎng)絡(luò)爬蟲 云平臺
【學(xué)位授予單位】:北京工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2015
【分類號】:TP391.3;TP393.09

  本文關(guān)鍵詞:基于Lucene的云平臺學(xué)術(shù)搜索引擎,,由筆耕文化傳播整理發(fā)布。



本文編號:428112

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/guanlilunwen/ydhl/428112.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶c7002***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com