基于Solr的電信搜索引擎的設計與實現(xiàn)
發(fā)布時間:2020-08-02 19:23
【摘要】:隨著通訊技術(shù)的發(fā)展和大數(shù)據(jù)的廣泛應用,電信企業(yè)的數(shù)據(jù)量迅猛增長。使用以往的搜索技術(shù)查詢信息速度慢、效率低,想要獲得有效信息猶如大海撈針。同時,由于業(yè)務擴張,需根據(jù)企業(yè)特點定制搜索引擎來滿足不同用戶角色的搜索需求。因此,如何快速、精準地查找信息,個性化搜索成為電信企業(yè)迫在眉睫的問題。本文針對電信企業(yè)提出企業(yè)搜索引擎的設計方案,根據(jù)電信數(shù)據(jù)異構(gòu)的特點進行有效抽取和檢索,同時實現(xiàn)個性化定制應用和搜索的可配置化。論文以電信業(yè)務具體需求為出發(fā)點,具有很好的應用價值。論文的主要研究工作包括:(1)研究電信企業(yè)搜索現(xiàn)狀,針對電信數(shù)據(jù)異構(gòu)、需求個性化等特點,給出設計目標、設計要求和系統(tǒng)需要實現(xiàn)的功能需求和非功能性需求。(2)研究分析企業(yè)搜索引擎的組成架構(gòu)、檢索原理和相關(guān)技術(shù),進行總體分析,給出系統(tǒng)的總體架構(gòu)、系統(tǒng)框架和數(shù)據(jù)庫邏輯結(jié)構(gòu)。將系統(tǒng)分為數(shù)據(jù)抽取、引擎服務、應用接口和可視化系統(tǒng)配置四個模塊。(3)設計并實現(xiàn)電信搜索引擎。數(shù)據(jù)抽取,針對多種數(shù)據(jù)源、數(shù)據(jù)類型設計并實現(xiàn)抽取程序,支持數(shù)據(jù)源增量和全量抽取、熱詞統(tǒng)計、詞庫同步等功能;引擎服務,修改開源的中文分詞器IKAnalyzer以兼容系統(tǒng)使用的Solr高版本,重寫Solr方法,可根據(jù)響應參數(shù)返回分詞結(jié)果或者進行詞庫導入;應用接口,設計實現(xiàn)六個業(yè)務接口,分離業(yè)務邏輯和Solr的引擎服務,提供用戶使用;可視化系統(tǒng)配置,提供可視化界面使用以便進行系統(tǒng)的維護、參數(shù)配置等日常工作。(4)實驗結(jié)果表明,該電信搜索引擎系統(tǒng)在功能上和性能上均滿足了電信企業(yè)的搜索需求,能夠為電信企業(yè)提供更有效的搜索服務。
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3
【圖文】:
搜索引擎索引擎是一種特殊的垂直搜索引擎[5]。比較常見的搜索引擎有兩種,一種是ogle、百度,主要通過定期使用“網(wǎng)絡爬蟲”抓取新的網(wǎng)站地址和信息,加入為搜索數(shù)據(jù)源,當用戶輸入關(guān)鍵字查找時,通用搜索引擎根據(jù)該關(guān)鍵字在索合的網(wǎng)站信息,則會將搜索結(jié)果按照匹配算法進行高低排序返回給用戶[6]。擎,主要針對特定行業(yè)互聯(lián)網(wǎng)網(wǎng)頁中特定信息內(nèi)容進行精準搜索,將網(wǎng)頁庫整合,定向、分字段抽取需要的數(shù)據(jù),處理后再以某種形式返回結(jié)果給用戶搜索引擎類似,企業(yè)搜索引擎根據(jù)特定內(nèi)容搜索、特定資源進行收集整合,但相對于垂直搜索引擎,企業(yè)搜索引擎更適用于企業(yè)。首先,在注重于查詢業(yè)搜索引擎還具有鮮明的業(yè)務特性[8],比如在企業(yè)搜索引擎在配置數(shù)據(jù)源時和標識號,使得在處理數(shù)據(jù)過程中能夠?qū)μ厥鈽I(yè)務的關(guān)鍵信息進行特殊處理務數(shù)據(jù)的準確性。其次,企業(yè)搜索引擎可以根據(jù)企業(yè)的具體需求而進行定制控制、接口功能開發(fā)等,使得企業(yè)的搜索效果實現(xiàn)最優(yōu)化。
第二章 相關(guān)技術(shù)索引創(chuàng)建是提取現(xiàn)實世界中所有非結(jié)構(gòu)化數(shù)據(jù),創(chuàng)建索引的過程。相對于順序掃描,全文檢創(chuàng)建索引的過程僅需開始的第一次,每次搜索時不用重新創(chuàng)建索引,僅搜索創(chuàng)建好的索引即可,順序掃描每次都要重頭開始,因此全文搜索相對于順序掃描有著一次索引,多次使用的優(yōu)勢。一索引創(chuàng)建過程有以下幾步:首先,準備待索引的原文檔(Document),分詞組件(Tokenizer)[8將傳來的原文檔去掉標符號和一些無意義的詞如中文“的”、“了”、“在”、英文“and”、“this”等,將文檔分成個個單獨的詞匯,這個過程被稱為分詞化(Tokenize),經(jīng)過分詞化后得到的結(jié)果稱為詞元(Token其次,將得到的詞元傳給語言處理組件(Linguistic Processor)來對詞元進行語言相關(guān)的處理,如文分詞處理切分,英文分詞處理大小寫、單詞轉(zhuǎn)變成詞根等。經(jīng)過語言處理后的結(jié)果稱為詞(Term再次,將得到的詞傳給索引組件(Indexer)。索引組件會將詞以倒排索引結(jié)構(gòu)存入索引庫中,倒索引結(jié)構(gòu)如圖 2-2 所示。
圖 2-3 搜索語法樹圖 2-4 語言處理后的語法樹三,搜索索引,得到符合語法樹的文檔。如上述例子,先找到在倒排索引表中包含“”、“hadoop”的文檔鏈表,然后對包含“solr”和“l(fā)earn”的鏈表進行合并操作,得lr”又包含“l(fā)earn”的文檔鏈表,最后將該鏈表與“hadoop”指向的文檔鏈表進行差操“hadoop”的文檔,最終,得到既包含“solr”又包含“l(fā)earn”而且不包含“hadoop”
本文編號:2778954
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:TP391.3
【圖文】:
搜索引擎索引擎是一種特殊的垂直搜索引擎[5]。比較常見的搜索引擎有兩種,一種是ogle、百度,主要通過定期使用“網(wǎng)絡爬蟲”抓取新的網(wǎng)站地址和信息,加入為搜索數(shù)據(jù)源,當用戶輸入關(guān)鍵字查找時,通用搜索引擎根據(jù)該關(guān)鍵字在索合的網(wǎng)站信息,則會將搜索結(jié)果按照匹配算法進行高低排序返回給用戶[6]。擎,主要針對特定行業(yè)互聯(lián)網(wǎng)網(wǎng)頁中特定信息內(nèi)容進行精準搜索,將網(wǎng)頁庫整合,定向、分字段抽取需要的數(shù)據(jù),處理后再以某種形式返回結(jié)果給用戶搜索引擎類似,企業(yè)搜索引擎根據(jù)特定內(nèi)容搜索、特定資源進行收集整合,但相對于垂直搜索引擎,企業(yè)搜索引擎更適用于企業(yè)。首先,在注重于查詢業(yè)搜索引擎還具有鮮明的業(yè)務特性[8],比如在企業(yè)搜索引擎在配置數(shù)據(jù)源時和標識號,使得在處理數(shù)據(jù)過程中能夠?qū)μ厥鈽I(yè)務的關(guān)鍵信息進行特殊處理務數(shù)據(jù)的準確性。其次,企業(yè)搜索引擎可以根據(jù)企業(yè)的具體需求而進行定制控制、接口功能開發(fā)等,使得企業(yè)的搜索效果實現(xiàn)最優(yōu)化。
第二章 相關(guān)技術(shù)索引創(chuàng)建是提取現(xiàn)實世界中所有非結(jié)構(gòu)化數(shù)據(jù),創(chuàng)建索引的過程。相對于順序掃描,全文檢創(chuàng)建索引的過程僅需開始的第一次,每次搜索時不用重新創(chuàng)建索引,僅搜索創(chuàng)建好的索引即可,順序掃描每次都要重頭開始,因此全文搜索相對于順序掃描有著一次索引,多次使用的優(yōu)勢。一索引創(chuàng)建過程有以下幾步:首先,準備待索引的原文檔(Document),分詞組件(Tokenizer)[8將傳來的原文檔去掉標符號和一些無意義的詞如中文“的”、“了”、“在”、英文“and”、“this”等,將文檔分成個個單獨的詞匯,這個過程被稱為分詞化(Tokenize),經(jīng)過分詞化后得到的結(jié)果稱為詞元(Token其次,將得到的詞元傳給語言處理組件(Linguistic Processor)來對詞元進行語言相關(guān)的處理,如文分詞處理切分,英文分詞處理大小寫、單詞轉(zhuǎn)變成詞根等。經(jīng)過語言處理后的結(jié)果稱為詞(Term再次,將得到的詞傳給索引組件(Indexer)。索引組件會將詞以倒排索引結(jié)構(gòu)存入索引庫中,倒索引結(jié)構(gòu)如圖 2-2 所示。
圖 2-3 搜索語法樹圖 2-4 語言處理后的語法樹三,搜索索引,得到符合語法樹的文檔。如上述例子,先找到在倒排索引表中包含“”、“hadoop”的文檔鏈表,然后對包含“solr”和“l(fā)earn”的鏈表進行合并操作,得lr”又包含“l(fā)earn”的文檔鏈表,最后將該鏈表與“hadoop”指向的文檔鏈表進行差操“hadoop”的文檔,最終,得到既包含“solr”又包含“l(fā)earn”而且不包含“hadoop”
【參考文獻】
相關(guān)期刊論文 前10條
1 時亞南;張?zhí)t;陳燕紅;郭斌;;大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的索引技術(shù)研究[J];計算機技術(shù)與發(fā)展;2014年12期
2 莫建文;鄭陽;首照宇;張順嵐;;改進的基于詞典的中文分詞方法[J];計算機工程與設計;2013年05期
3 劉曉婉;胡燕祝;艾新波;;開源中文分詞器在web搜索引擎中的應用[J];軟件;2013年03期
4 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機研究與發(fā)展;2013年01期
5 林翔;聶莉;;基于市場分析的電信搜索業(yè)務發(fā)展策略研究[J];廣東通信技術(shù);2012年06期
6 黃翼彪;;實現(xiàn)Lucene接口的中文分詞器的比較研究[J];科技信息;2012年12期
7 劉俊熙;盛宇;;垂直和通用搜索引擎的差異和案例分析[J];現(xiàn)代情報;2009年03期
8 鄧攀;劉功申;;一種高效的倒排索引存儲結(jié)構(gòu)[J];計算機工程與應用;2008年31期
9 馬穎儀;李利強;;中小型企業(yè)搜索引擎應用研究[J];科技信息;2008年30期
10 翟鳳文;赫楓齡;左萬利;;字典與統(tǒng)計相結(jié)合的中文分詞方法[J];小型微型計算機系統(tǒng);2006年09期
本文編號:2778954
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/2778954.html
最近更新
教材專著