基于Solr的分布式實(shí)時全文檢索系統(tǒng)的設(shè)計與實(shí)現(xiàn)
發(fā)布時間:2021-07-07 09:14
伴隨著信息技術(shù)的快速發(fā)展,越來越多的企業(yè)建立了自己的信息平臺或者網(wǎng)站。當(dāng)企業(yè)內(nèi)的數(shù)據(jù)量不斷增長時,使用數(shù)據(jù)庫提供的檢索功能將嚴(yán)重影響搜索效率,要想使用數(shù)據(jù)庫提供的檢索能力實(shí)現(xiàn)和搜索引擎(百度、Google)類似的檢索效率是不可能的。這就需要使用搜索引擎中使用的全文檢索技術(shù),怎樣把全文檢索應(yīng)用嵌入在企業(yè)的系統(tǒng)中,并提供高效的檢索服務(wù)是許多企業(yè)需要解決的主要問題。企業(yè)往往需要系統(tǒng)有較強(qiáng)的性能和擴(kuò)展能力,而且根據(jù)企業(yè)對信息的實(shí)時性要求較高的特點(diǎn),因此一個分布式實(shí)時全文檢索系統(tǒng)可以很好的解決上述問題。本文首先介紹分布式和全文檢索系統(tǒng),并詳細(xì)說明了全文檢索中的核心技術(shù)和Lucene (Apache軟件基金會的一個子項(xiàng)目),Lucene是一個開放源代碼的全文檢索引擎工具包。在對Lucene深入了解之后,經(jīng)過對其相關(guān)項(xiàng)目分析,最終選擇使用其子項(xiàng)目Solr作為開發(fā)分布式實(shí)時全文檢索系統(tǒng)的核心技術(shù)。Solr是Apache軟件基金會基于Lucene開發(fā)的企業(yè)級搜索應(yīng)用服務(wù)器,它所提供的客戶端接口可以方便實(shí)現(xiàn)分布式應(yīng)用,作為一個開放源代碼的項(xiàng)目和其本身就是為企業(yè)應(yīng)用而開發(fā)的,因此非常適合企業(yè)使用。在文中詳細(xì)...
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 研究背景及意義
1.2 論文的主要內(nèi)容及組織結(jié)構(gòu)
1.2.1 論文研究內(nèi)容
1.2.2 論文結(jié)構(gòu)
第二章 分布式與全文檢索系統(tǒng)簡介
2.1 分布式系統(tǒng)簡介
2.2 全文檢索系統(tǒng)的含義
2.3 Lucene簡介
2.3.1 Lucene核心包
2.3.2 Lucene索引結(jié)構(gòu)
2.4 全文檢索系統(tǒng)的結(jié)構(gòu)
2.5 全文檢索系統(tǒng)的核心技術(shù)
2.5.1 索引技術(shù)
2.5.2 檢索技術(shù)
2.5.3 壓縮技術(shù)
2.6 檢索結(jié)果質(zhì)量的評價
2.7 分布式全文檢索系統(tǒng)簡介
2.8 本章小結(jié)
第三章 分布式Solr分析研究
3.1 Solr簡介
3.2 Solr的系統(tǒng)架構(gòu)與特點(diǎn)
3.2.1 Solr的架構(gòu)
3.2.2 Solr的特點(diǎn)
3.3 Solr服務(wù)的搭建
3.3.1 準(zhǔn)備工作
3.3.2 Solr安裝
3.3.3 中文分詞組件選擇
3.3.4 Solr中文分詞組件添加
3.3.5 Solr其他配置
3.4 Solrj客戶端編程簡介
3.5 Solr分布式應(yīng)用研究
3.6 本章小結(jié)
第四章 分布式實(shí)時全文檢索系統(tǒng)設(shè)計
4.1 系統(tǒng)需求分析
4.2 系統(tǒng)開發(fā)環(huán)境與設(shè)計目標(biāo)
4.3 系統(tǒng)總體設(shè)計
4.4 系統(tǒng)詳細(xì)設(shè)計
4.4.1 數(shù)據(jù)庫設(shè)計
4.4.2 搜索服務(wù)器分布式集群設(shè)計
4.4.3 分布式創(chuàng)建索引設(shè)計
4.4.4 分布式檢索設(shè)計
4.5 分布式全文檢索系統(tǒng)模型設(shè)計
4.6 本章小結(jié)
第五章 分布式實(shí)時全文檢索系統(tǒng)實(shí)現(xiàn)與性能測試
5.1 分布式實(shí)時全文檢索系統(tǒng)實(shí)現(xiàn)
5.1.1 數(shù)據(jù)庫訪問實(shí)現(xiàn)
5.1.2 分布式創(chuàng)建索引實(shí)現(xiàn)
5.1.3 分布式檢索實(shí)現(xiàn)
5.1.4 用戶模塊實(shí)現(xiàn)
5.2 系統(tǒng)運(yùn)行截圖
5.3 索引性能測試
5.3.1 索引吞吐量測試
5.3.2 多用戶并發(fā)操作測試
5.4 搜索時延測試
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]使用Solr為大數(shù)據(jù)庫搭建搜索引擎[J]. 霍慶,劉培植. 軟件. 2011(06)
[2]基于分面搜索引擎Solr的機(jī)構(gòu)知識庫訪問統(tǒng)計[J]. 姚曉娜,祝忠明. 現(xiàn)代圖書情報技術(shù). 2011(Z1)
[3]關(guān)于Lucene索引工具的性能優(yōu)化研究[J]. 張春燕,劉發(fā)升. 計算機(jī)技術(shù)與發(fā)展. 2011(05)
[4]基于Lucene的分布式并行索引[J]. 唐華姣,何友全,徐小樂,徐澄. 計算機(jī)技術(shù)與發(fā)展. 2011(02)
[5]分布式計算環(huán)境下的動態(tài)可信度評估模型[J]. 朱友文,黃劉生,陳國良,楊威. 計算機(jī)學(xué)報. 2011(01)
[6]分布式密文全文檢索系統(tǒng)設(shè)計及安全性研究[J]. 霍林,潘英花,王力,黃俊文. 廣西大學(xué)學(xué)報(自然科學(xué)版). 2010(06)
[7]大規(guī)模集群中一種自適應(yīng)可擴(kuò)展的RPC超時機(jī)制[J]. 錢迎進(jìn),肖儂,金士堯. 軟件學(xué)報. 2010(12)
[8]基于Lucene.Net的分布式全文檢索系統(tǒng)[J]. 譚文堂,賀明科,李阜. 計算機(jī)應(yīng)用與軟件. 2009(09)
[9]基于內(nèi)容過濾的個性化搜索算法[J]. 曾春,邢春曉,周立柱. 軟件學(xué)報. 2003(05)
[10]分布式實(shí)時系統(tǒng)的容錯調(diào)度算法[J]. 秦嘯,龐麗萍,韓宗芬,李勝利. 計算機(jī)學(xué)報. 2000(10)
碩士論文
[1]半結(jié)構(gòu)化網(wǎng)頁的信息抽取技術(shù)研究[D]. 祝美蓮.中國石油大學(xué) 2011
[2]主題搜索引擎的關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 孫軒.武漢理工大學(xué) 2010
[3]基于lucene中文全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D]. 劉鶯迎.鄭州大學(xué) 2009
[4]基于Lucene的企業(yè)搜索引擎[D]. 王波.北京郵電大學(xué) 2009
[5]基于Lucene的搜索引擎的設(shè)計和優(yōu)化[D]. 李沛環(huán).吉林大學(xué) 2008
[6]搜索引擎中索引技術(shù)研究與實(shí)現(xiàn)[D]. 吳寶貴.西安電子科技大學(xué) 2008
[7]大規(guī)模分布式全文搜索系統(tǒng)的研究與設(shè)計[D]. 余錦.清華大學(xué) 2004
[8]中文智能搜索引擎[D]. 陳鑫.四川大學(xué) 2004
本文編號:3269364
【文章來源】:云南大學(xué)云南省 211工程院校
【文章頁數(shù)】:62 頁
【學(xué)位級別】:碩士
【文章目錄】:
摘要
Abstract
目錄
第一章 緒論
1.1 研究背景及意義
1.2 論文的主要內(nèi)容及組織結(jié)構(gòu)
1.2.1 論文研究內(nèi)容
1.2.2 論文結(jié)構(gòu)
第二章 分布式與全文檢索系統(tǒng)簡介
2.1 分布式系統(tǒng)簡介
2.2 全文檢索系統(tǒng)的含義
2.3 Lucene簡介
2.3.1 Lucene核心包
2.3.2 Lucene索引結(jié)構(gòu)
2.4 全文檢索系統(tǒng)的結(jié)構(gòu)
2.5 全文檢索系統(tǒng)的核心技術(shù)
2.5.1 索引技術(shù)
2.5.2 檢索技術(shù)
2.5.3 壓縮技術(shù)
2.6 檢索結(jié)果質(zhì)量的評價
2.7 分布式全文檢索系統(tǒng)簡介
2.8 本章小結(jié)
第三章 分布式Solr分析研究
3.1 Solr簡介
3.2 Solr的系統(tǒng)架構(gòu)與特點(diǎn)
3.2.1 Solr的架構(gòu)
3.2.2 Solr的特點(diǎn)
3.3 Solr服務(wù)的搭建
3.3.1 準(zhǔn)備工作
3.3.2 Solr安裝
3.3.3 中文分詞組件選擇
3.3.4 Solr中文分詞組件添加
3.3.5 Solr其他配置
3.4 Solrj客戶端編程簡介
3.5 Solr分布式應(yīng)用研究
3.6 本章小結(jié)
第四章 分布式實(shí)時全文檢索系統(tǒng)設(shè)計
4.1 系統(tǒng)需求分析
4.2 系統(tǒng)開發(fā)環(huán)境與設(shè)計目標(biāo)
4.3 系統(tǒng)總體設(shè)計
4.4 系統(tǒng)詳細(xì)設(shè)計
4.4.1 數(shù)據(jù)庫設(shè)計
4.4.2 搜索服務(wù)器分布式集群設(shè)計
4.4.3 分布式創(chuàng)建索引設(shè)計
4.4.4 分布式檢索設(shè)計
4.5 分布式全文檢索系統(tǒng)模型設(shè)計
4.6 本章小結(jié)
第五章 分布式實(shí)時全文檢索系統(tǒng)實(shí)現(xiàn)與性能測試
5.1 分布式實(shí)時全文檢索系統(tǒng)實(shí)現(xiàn)
5.1.1 數(shù)據(jù)庫訪問實(shí)現(xiàn)
5.1.2 分布式創(chuàng)建索引實(shí)現(xiàn)
5.1.3 分布式檢索實(shí)現(xiàn)
5.1.4 用戶模塊實(shí)現(xiàn)
5.2 系統(tǒng)運(yùn)行截圖
5.3 索引性能測試
5.3.1 索引吞吐量測試
5.3.2 多用戶并發(fā)操作測試
5.4 搜索時延測試
5.5 本章小結(jié)
第六章 總結(jié)與展望
6.1 總結(jié)
6.2 展望
參考文獻(xiàn)
致謝
【參考文獻(xiàn)】:
期刊論文
[1]使用Solr為大數(shù)據(jù)庫搭建搜索引擎[J]. 霍慶,劉培植. 軟件. 2011(06)
[2]基于分面搜索引擎Solr的機(jī)構(gòu)知識庫訪問統(tǒng)計[J]. 姚曉娜,祝忠明. 現(xiàn)代圖書情報技術(shù). 2011(Z1)
[3]關(guān)于Lucene索引工具的性能優(yōu)化研究[J]. 張春燕,劉發(fā)升. 計算機(jī)技術(shù)與發(fā)展. 2011(05)
[4]基于Lucene的分布式并行索引[J]. 唐華姣,何友全,徐小樂,徐澄. 計算機(jī)技術(shù)與發(fā)展. 2011(02)
[5]分布式計算環(huán)境下的動態(tài)可信度評估模型[J]. 朱友文,黃劉生,陳國良,楊威. 計算機(jī)學(xué)報. 2011(01)
[6]分布式密文全文檢索系統(tǒng)設(shè)計及安全性研究[J]. 霍林,潘英花,王力,黃俊文. 廣西大學(xué)學(xué)報(自然科學(xué)版). 2010(06)
[7]大規(guī)模集群中一種自適應(yīng)可擴(kuò)展的RPC超時機(jī)制[J]. 錢迎進(jìn),肖儂,金士堯. 軟件學(xué)報. 2010(12)
[8]基于Lucene.Net的分布式全文檢索系統(tǒng)[J]. 譚文堂,賀明科,李阜. 計算機(jī)應(yīng)用與軟件. 2009(09)
[9]基于內(nèi)容過濾的個性化搜索算法[J]. 曾春,邢春曉,周立柱. 軟件學(xué)報. 2003(05)
[10]分布式實(shí)時系統(tǒng)的容錯調(diào)度算法[J]. 秦嘯,龐麗萍,韓宗芬,李勝利. 計算機(jī)學(xué)報. 2000(10)
碩士論文
[1]半結(jié)構(gòu)化網(wǎng)頁的信息抽取技術(shù)研究[D]. 祝美蓮.中國石油大學(xué) 2011
[2]主題搜索引擎的關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D]. 孫軒.武漢理工大學(xué) 2010
[3]基于lucene中文全文檢索系統(tǒng)的研究與實(shí)現(xiàn)[D]. 劉鶯迎.鄭州大學(xué) 2009
[4]基于Lucene的企業(yè)搜索引擎[D]. 王波.北京郵電大學(xué) 2009
[5]基于Lucene的搜索引擎的設(shè)計和優(yōu)化[D]. 李沛環(huán).吉林大學(xué) 2008
[6]搜索引擎中索引技術(shù)研究與實(shí)現(xiàn)[D]. 吳寶貴.西安電子科技大學(xué) 2008
[7]大規(guī)模分布式全文搜索系統(tǒng)的研究與設(shè)計[D]. 余錦.清華大學(xué) 2004
[8]中文智能搜索引擎[D]. 陳鑫.四川大學(xué) 2004
本文編號:3269364
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/3269364.html
最近更新
教材專著