基于Solr的海量數(shù)據(jù)并行索引及搜索緩存研究
發(fā)布時間:2017-12-20 23:25
本文關(guān)鍵詞:基于Solr的海量數(shù)據(jù)并行索引及搜索緩存研究 出處:《華中師范大學》2016年碩士論文 論文類型:學位論文
更多相關(guān)文章: 搜索引擎 Solr 并行索引 分級緩存 詞語相似度
【摘要】:隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,企業(yè)信息化程度不斷提高,各個行業(yè)內(nèi)的數(shù)據(jù)信息急劇增長,而且信息的存在形式也越來越多樣。這也使得如何使用戶能夠快速、精確的從企業(yè)的海量數(shù)據(jù)中找出所需要的關(guān)鍵信息變得越來越重要,而解決這一個問題的關(guān)鍵就是搜索引擎技術(shù)。隨著開源企業(yè)級搜索應用服務器Solr的出現(xiàn),越來越多的企業(yè)開始構(gòu)建以此為基礎(chǔ)的海量數(shù)據(jù)搜索服務系統(tǒng)。傳統(tǒng)的搜索方式是使用文本數(shù)據(jù)庫,雖然文本數(shù)據(jù)庫和搜索引擎的技術(shù)基礎(chǔ)都是全文檢索技術(shù),但是文本數(shù)據(jù)庫在處理海量數(shù)據(jù)方面的能力無法跟搜索引擎相媲美。搜索引擎采用服務器集群和分布式計算的策略,能夠處理較大的數(shù)據(jù)量。在海量數(shù)據(jù)的背景下,如何更好地利用開源Solr搜索引擎服務器搭建起快速高效的搜索引擎也成為重要的研究課題之一本文針對這種需求,在基于Solr搜索引擎服務器的基礎(chǔ)上,進行海量數(shù)據(jù)搜索服務的研究。本文首先分析搜索引擎服務器集群的運行特點,運用隨機過程中的排隊模型對集群系統(tǒng)的可用性進行分析。接著在可用性的基礎(chǔ)上深入研究搜索引擎的索引構(gòu)建和搜索索引兩個關(guān)鍵過程。索引構(gòu)建的過程是將文本轉(zhuǎn)化為能夠被搜索引擎搜索的索引文件。本文在分析的基礎(chǔ)上提出并行索引的方式,將文檔構(gòu)建索引過程中的部分串行操作并行化,并通過性能負載均衡的策略提高各節(jié)點的資源利用率,以應對海量數(shù)據(jù)構(gòu)建索引的場景,加速索引的構(gòu)建。對于搜索的過程,本文首先分析Solr的搜索過程,提出分級緩存模型。模型將頻繁搜索的熱點數(shù)據(jù)放置在緩存中,并對緩存數(shù)據(jù)進行分級,同時提出熱相關(guān)數(shù)據(jù)的概念,通過詞語相似度計算出與熱點數(shù)據(jù)相似的數(shù)據(jù),加載至緩存模型并進行分級操作。本文同時針對分級緩存模型提出了維護策略,充分利用緩存空間,最后改進傳統(tǒng)的緩存預熱算法,提高系統(tǒng)運行初期的緩存命中率。本文通過搭建搜索引擎服務器集群,對海量數(shù)據(jù)的索引構(gòu)建和搜索過程進行實驗研究。實驗結(jié)果表明,本文提出的并行索引和分級緩存模型能夠有效提升搜索引擎的索引構(gòu)建速度和請求響應速度。
【學位授予單位】:華中師范大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13;TP391.3
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前6條
1 付劍生;徐林龍;林文斌;;分布式全網(wǎng)職位搜索引擎的研究與實現(xiàn)[J];計算機技術(shù)與發(fā)展;2015年05期
2 郭永利;盧穎穎;;網(wǎng)絡搜索引擎的設(shè)計與實現(xiàn)[J];微型電腦應用;2014年04期
3 祝官文;王念濱;王紅濱;;基于主題和表單屬性的深層網(wǎng)絡數(shù)據(jù)源分類方法[J];電子學報;2013年02期
4 游彬;嚴岳松;孫英閣;劉靖;;基于HowNet的信息量計算語義相似度算法[J];計算機系統(tǒng)應用;2013年01期
5 何詠梅;毛云舸;;搜索引擎的發(fā)展現(xiàn)狀與趨勢研究[J];吉林省經(jīng)濟管理干部學院學報;2007年04期
6 秦春秀;趙捧未;劉懷亮;;詞語相似度計算研究[J];情報理論與實踐;2007年01期
,本文編號:1313810
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/1313810.html
最近更新
教材專著