天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于solr下的搜索引擎核心技術(shù)研究與應(yīng)用

發(fā)布時間:2021-11-12 10:36
  文章對基于solr技術(shù)對某種搜索引擎技術(shù)核心系統(tǒng)進(jìn)行進(jìn)行了開發(fā),從功能模塊、信息抽取模塊、索引模塊三個方面進(jìn)行了分析與構(gòu)建;搭建了solr搜索引擎技術(shù)的開發(fā)環(huán)境以及索引模塊的工作模式,進(jìn)一步解析了當(dāng)前搜索引擎工作的不足之處,為提高搜索引擎的工作性能指出了方向和方法。 

【文章來源】:電子制作. 2020,(14)

【文章頁數(shù)】:3 頁

【部分圖文】:

基于solr下的搜索引擎核心技術(shù)研究與應(yīng)用


網(wǎng)頁抓取模塊類圖

類圖,類圖,模塊,信息


網(wǎng)頁抓取模塊是信息抽取模塊的基礎(chǔ),信息抽取模塊通過抽取網(wǎng)頁抓取模塊的頁面內(nèi)容,并將其存儲到數(shù)據(jù)庫,信息抽取模塊流類圖如圖3所示。解析文件類以列表的形式返回頁面庫中獲取頁面庫中所有網(wǎng)頁的類,返回頁面庫的網(wǎng)頁文件將以列表的形式進(jìn)行。Pares文件利用率是用來計算每一個頁面相對應(yīng)的網(wǎng)址;連接實用程序類是抽象出來負(fù)責(zé)與數(shù)據(jù)庫連接,此操作用到了數(shù)據(jù)庫連接池,在一定程度上減少了對數(shù)據(jù)庫的連接次數(shù);信息處理程序包含注射數(shù)據(jù)庫核心方法,它先調(diào)用解析文件類的獲取所有文件,以列表文件的形式返回所有的網(wǎng)頁文件,接著調(diào)用解析文件類的獲取絕對的統(tǒng)一資源定位地址得到每一個文件對應(yīng)的網(wǎng)址,之后調(diào)用JoyDoc獲得文件的網(wǎng)頁內(nèi)容和網(wǎng)頁標(biāo)題等[4]。最后通過連接到的通數(shù)據(jù)庫進(jìn)行連接和插入操作,然后進(jìn)行存儲,所有的連接類都以單列模式出現(xiàn)。

類圖,類圖,模塊,索引


索引模塊包括兩部分:調(diào)用建立索引類、定時器。定時器會定時的調(diào)用對數(shù)據(jù)庫中的內(nèi)容建立索引,其流程類圖如圖4所示。Java之后的時間任務(wù)就是就是調(diào)用任務(wù),它繼承重寫了運行的方法,實現(xiàn)了將網(wǎng)頁內(nèi)容插入到數(shù)據(jù)庫中,該方法調(diào)用信息管理員的實例注射數(shù)據(jù)庫的方法。該模塊的主類是調(diào)用Solr,它包含一個計時器對象,該計時器對象定時運行任務(wù)實例的運行方法,運用周期和開始時間由開始時間和循環(huán)時間制定。

【參考文獻(xiàn)】:
期刊論文
[1]基于物聯(lián)網(wǎng)技術(shù)的搜索引擎技術(shù)研究[J]. 唐亞純.  計算機產(chǎn)品與流通. 2020(06)
[2]基于Solr的標(biāo)準(zhǔn)信息檢索技術(shù)及其優(yōu)化[J]. 于曉明,史勝楠,甘克勤.  科學(xué)技術(shù)與工程. 2020(04)
[3]百度公司搜索引擎技術(shù)的專利分析[J]. 李,.  中國發(fā)明與專利. 2019(04)
[4]基于Solr的低成本企業(yè)數(shù)據(jù)采集分析與設(shè)計[J]. 蘇亞濤.  呼倫貝爾學(xué)院學(xué)報. 2018(04)
[5]基于Heritrix與Solr的就業(yè)主題搜索引擎的研究與優(yōu)化[J]. 鄭燕娥,鄭志明.  齊齊哈爾大學(xué)學(xué)報(自然科學(xué)版). 2018(04)



本文編號:3490741

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3490741.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶62dc0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com