聚類反饋式電網(wǎng)資源分布搜索引擎研究與實現(xiàn)
本文關鍵詞:聚類反饋式電網(wǎng)資源分布搜索引擎研究與實現(xiàn)
更多相關文章: 搜索引擎 分布式 Solr K-means 聚類反饋 企業(yè)級 電網(wǎng)
【摘要】:為應對當前企業(yè)信息規(guī)模的爆炸式膨脹和信息資源共享的普遍需求,企業(yè)級搜索引擎興起了。同互聯(lián)網(wǎng)搜索有很大不同,企業(yè)級搜索是為組織業(yè)務決策和運轉而服務的,因而需要保證信息的查全率和查準率。企業(yè)級搜索要應對的難題有: 第一:對于企業(yè)TB級的數(shù)據(jù),現(xiàn)有的集中式搜索引擎服務器難以滿足索引的存儲管理,需要多臺服務器分布式存儲索引;在多索引和檢索任務并發(fā)執(zhí)行的情況下,搜索引擎的性能急劇下降,須采用多臺服務器分擔任務保證工作效率。 第二:占企業(yè)信息資源總量80%以上的非結構化數(shù)據(jù)的數(shù)據(jù)量日趨增大,非結構化數(shù)據(jù)種類多且包含關系企業(yè)發(fā)展的重要信息,解決非結構化數(shù)據(jù)的檢索對企業(yè)至關重要。 第三:搜索領域準確性的要求越來越高,多數(shù)搜索引擎返回記錄眾多且不按主題分類顯示,用戶很難在線性排列的結果集中快捷、準確地發(fā)現(xiàn)信息。搜索結果聚類可以從一定程度上幫助用戶定位信息。 電網(wǎng)公司的信息化建設水平不斷提升,急需一個電網(wǎng)資源搜索引擎滿足人員查找數(shù)據(jù)信息。根據(jù)以上分析,借助分布式計算技術的優(yōu)勢,結合搜索引擎相關技術,設計并實現(xiàn)了一個能夠有效處理海量數(shù)據(jù),支持高并發(fā)任務且快速響應的電網(wǎng)資源分布式搜索引擎。另外,通過文本信息抽取和文本聚類技術,對檢索結果集聚類展示,聚類反饋模式便于用戶快速、準確定位文檔。本文主要工作內(nèi)容有: (1)基于電網(wǎng)專業(yè)詞庫,借助IKAnalyzer實現(xiàn)搜索引擎中文分詞,結合全文檢索技術和分布式計算,對搜索引擎的索引和檢索子系統(tǒng)分別建模分析。 (2)對K-means文本聚類算法在初始簇心選擇和K值確定方面進行了優(yōu)化。基于最遠距離選擇初始簇心;根據(jù)K的可能取值進行聚類,評價聚類結果聚類均值的總方差并在可能取值集中確定K。測試后證明改進的算法在實現(xiàn)文本集自適應聚類的同時聚類效果良好。 (3)從整體上架構電網(wǎng)資源庫搜索引擎,并對搜索引擎中的重要模塊給出設計方案。借助Solr基于ZooKeeper分布式部署SolrCloud,實現(xiàn)分布式搜索引擎的細節(jié)。負載均衡策略和每個分布式有效節(jié)點協(xié)同合作。搜索引擎服務器采用分布式索引及搜索的策略,實現(xiàn)了海量數(shù)據(jù)的并行索引,并且支持大數(shù)量用戶并發(fā)執(zhí)行搜索任務。 (4)完成搜索引擎的分布式部署,對索引和檢索性能進行測試,并通過搜索實例展示搜索引擎的檢索功能和結果集聚類反饋功能。
【關鍵詞】:搜索引擎 分布式 Solr K-means 聚類反饋 企業(yè)級 電網(wǎng)
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
- 摘要5-7
- Abstract7-12
- 第一章 緒論12-18
- 1.1 課題研究背景與意義12-13
- 1.2 搜索引擎簡介13-15
- 1.2.1 搜索引擎的發(fā)展與分類13-14
- 1.2.2 搜索引擎的體系結構14
- 1.2.3 當今搜索引擎重要的優(yōu)化方向14-15
- 1.3 搜索引擎優(yōu)化技術研究現(xiàn)狀15-16
- 1.3.1 分布式搜索引擎的研究15
- 1.3.2 文本聚類技術在搜索引擎中的應用15-16
- 1.4 論文主要創(chuàng)新點16-18
- 第二章 搜索引擎相關技術18-32
- 2.1 全文檢索技術18-22
- 2.1.1 反向索引技術19-20
- 2.1.2 檢索技術20-22
- 2.2 全文檢索技術的開源實現(xiàn)22-26
- 2.2.1 全文檢索工具包Lucene22
- 2.2.2 全文檢索服務器Solr22-23
- 2.2.3 分布式全文檢索服務器So1rCloud23-26
- 2.3 文本聚類26-30
- 2.3.1 聚類技術27
- 2.3.2 K-means聚類算法27-29
- 2.3.3 度量相似性29-30
- 2.4 本章小結30-32
- 第三章 搜索引擎建模及聚類反饋的算法改進32-46
- 3.1 索引及搜索建模32-35
- 3.1.1 基于電力行業(yè)詞庫中文分詞的實現(xiàn)32-33
- 3.1.2 企業(yè)文檔索引庫的建立33-34
- 3.1.3 搜索索引庫34-35
- 3.2 基于K-means的聚類反饋算法改進35-38
- 3.2.1 基于最遠距離的初始聚類中心選擇方法36-37
- 3.2.2 初始參數(shù)K的確定37-38
- 3.3 改進K-means算法的文本聚類性能測試38-44
- 3.3.1 文本內(nèi)容預處理設計39-41
- 3.3.2 實驗文本集41
- 3.3.3 聚類實驗分析41-44
- 3.4 標識聚類關鍵詞的提取44
- 3.5 本章小結44-46
- 第四章 電網(wǎng)資源庫搜索引擎設計46-52
- 4.1 電網(wǎng)資源庫搜索引擎架構46-47
- 4.2 分布式搜索引擎服務器設計47-50
- 4.2.1 Solr處理單元的設計47-48
- 4.2.2 分布式協(xié)調(diào)子系統(tǒng)設計48-49
- 4.2.3 SolrCloud服務器集群結構設計49-50
- 4.3 負載均衡設計50
- 4.4 檢索結果的聚類分析50-51
- 4.5 本章小結51-52
- 第五章 電網(wǎng)資源庫分布式搜索引擎的部署與性能測試52-64
- 5.1 部署電網(wǎng)資源庫搜索引擎52-53
- 5.1.1 ZooKeeper部署52
- 5.1.2 SolrCloud部署52-53
- 5.1.3 搜索引擎業(yè)務邏輯服務器部署53
- 5.2 搜索引擎索引和檢索性能測試53-59
- 5.2.1 測試環(huán)境54
- 5.2.2 測試系統(tǒng)的結構54-55
- 5.2.3 索引性能測試55-57
- 5.2.4 搜索性能測試57-59
- 5.3 搜索引擎檢索實例59-60
- 5.4 分類顯示搜索結果60-62
- 5.5 本章小結62-64
- 第六章 工作總結與展望64-66
- 6.1 工作總結64
- 6.2 工作展望64-66
- 致謝66-68
- 參考文獻68-72
- 附錄A:攻讀碩士學位期間參與項目及科研成果72
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 程志華;倪時龍;黃文思;龔賀;;企業(yè)級非結構化數(shù)據(jù)管理平臺研究及實踐[J];電力信息化;2012年03期
2 劉暢;;全文索引結構的研究[J];計算機光盤軟件與應用;2012年24期
3 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期
4 孫鐵利;劉延吉;;中文分詞技術的研究現(xiàn)狀與困難[J];信息技術;2009年07期
5 曾彪;;Solr學術索引應用顯身手[J];中國教育網(wǎng)絡;2010年10期
6 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實現(xiàn)[J];計算機與現(xiàn)代化;2012年11期
7 楊萍;李杰;;利用LoadRunner實現(xiàn)Web負載測試的自動化[J];計算機技術與發(fā)展;2007年01期
8 林碧英;趙銳;陳良臣;;基于Lucene的全文檢索引擎研究與應用[J];計算機技術與發(fā)展;2007年05期
9 劉敏娜;;基于向量空間模型的信息檢索技術研究[J];現(xiàn)代電子技術;2012年11期
10 鮮國建;趙瑞雪;;基于Solr的中文農(nóng)業(yè)期刊文摘檢索系統(tǒng)的構建研究[J];現(xiàn)代圖書情報技術;2011年06期
中國博士學位論文全文數(shù)據(jù)庫 前1條
1 周,
本文編號:823451
本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/823451.html