天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當前位置:主頁 > 科技論文 > 搜索引擎論文 >

聚類反饋式電網(wǎng)資源分布搜索引擎研究與實現(xiàn)

發(fā)布時間:2017-09-09 23:40

  本文關鍵詞:聚類反饋式電網(wǎng)資源分布搜索引擎研究與實現(xiàn)


  更多相關文章: 搜索引擎 分布式 Solr K-means 聚類反饋 企業(yè)級 電網(wǎng)


【摘要】:為應對當前企業(yè)信息規(guī)模的爆炸式膨脹和信息資源共享的普遍需求,企業(yè)級搜索引擎興起了。同互聯(lián)網(wǎng)搜索有很大不同,企業(yè)級搜索是為組織業(yè)務決策和運轉而服務的,因而需要保證信息的查全率和查準率。企業(yè)級搜索要應對的難題有: 第一:對于企業(yè)TB級的數(shù)據(jù),現(xiàn)有的集中式搜索引擎服務器難以滿足索引的存儲管理,需要多臺服務器分布式存儲索引;在多索引和檢索任務并發(fā)執(zhí)行的情況下,搜索引擎的性能急劇下降,須采用多臺服務器分擔任務保證工作效率。 第二:占企業(yè)信息資源總量80%以上的非結構化數(shù)據(jù)的數(shù)據(jù)量日趨增大,非結構化數(shù)據(jù)種類多且包含關系企業(yè)發(fā)展的重要信息,解決非結構化數(shù)據(jù)的檢索對企業(yè)至關重要。 第三:搜索領域準確性的要求越來越高,多數(shù)搜索引擎返回記錄眾多且不按主題分類顯示,用戶很難在線性排列的結果集中快捷、準確地發(fā)現(xiàn)信息。搜索結果聚類可以從一定程度上幫助用戶定位信息。 電網(wǎng)公司的信息化建設水平不斷提升,急需一個電網(wǎng)資源搜索引擎滿足人員查找數(shù)據(jù)信息。根據(jù)以上分析,借助分布式計算技術的優(yōu)勢,結合搜索引擎相關技術,設計并實現(xiàn)了一個能夠有效處理海量數(shù)據(jù),支持高并發(fā)任務且快速響應的電網(wǎng)資源分布式搜索引擎。另外,通過文本信息抽取和文本聚類技術,對檢索結果集聚類展示,聚類反饋模式便于用戶快速、準確定位文檔。本文主要工作內(nèi)容有: (1)基于電網(wǎng)專業(yè)詞庫,借助IKAnalyzer實現(xiàn)搜索引擎中文分詞,結合全文檢索技術和分布式計算,對搜索引擎的索引和檢索子系統(tǒng)分別建模分析。 (2)對K-means文本聚類算法在初始簇心選擇和K值確定方面進行了優(yōu)化。基于最遠距離選擇初始簇心;根據(jù)K的可能取值進行聚類,評價聚類結果聚類均值的總方差并在可能取值集中確定K。測試后證明改進的算法在實現(xiàn)文本集自適應聚類的同時聚類效果良好。 (3)從整體上架構電網(wǎng)資源庫搜索引擎,并對搜索引擎中的重要模塊給出設計方案。借助Solr基于ZooKeeper分布式部署SolrCloud,實現(xiàn)分布式搜索引擎的細節(jié)。負載均衡策略和每個分布式有效節(jié)點協(xié)同合作。搜索引擎服務器采用分布式索引及搜索的策略,實現(xiàn)了海量數(shù)據(jù)的并行索引,并且支持大數(shù)量用戶并發(fā)執(zhí)行搜索任務。 (4)完成搜索引擎的分布式部署,對索引和檢索性能進行測試,并通過搜索實例展示搜索引擎的檢索功能和結果集聚類反饋功能。
【關鍵詞】:搜索引擎 分布式 Solr K-means 聚類反饋 企業(yè)級 電網(wǎng)
【學位授予單位】:昆明理工大學
【學位級別】:碩士
【學位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要5-7
  • Abstract7-12
  • 第一章 緒論12-18
  • 1.1 課題研究背景與意義12-13
  • 1.2 搜索引擎簡介13-15
  • 1.2.1 搜索引擎的發(fā)展與分類13-14
  • 1.2.2 搜索引擎的體系結構14
  • 1.2.3 當今搜索引擎重要的優(yōu)化方向14-15
  • 1.3 搜索引擎優(yōu)化技術研究現(xiàn)狀15-16
  • 1.3.1 分布式搜索引擎的研究15
  • 1.3.2 文本聚類技術在搜索引擎中的應用15-16
  • 1.4 論文主要創(chuàng)新點16-18
  • 第二章 搜索引擎相關技術18-32
  • 2.1 全文檢索技術18-22
  • 2.1.1 反向索引技術19-20
  • 2.1.2 檢索技術20-22
  • 2.2 全文檢索技術的開源實現(xiàn)22-26
  • 2.2.1 全文檢索工具包Lucene22
  • 2.2.2 全文檢索服務器Solr22-23
  • 2.2.3 分布式全文檢索服務器So1rCloud23-26
  • 2.3 文本聚類26-30
  • 2.3.1 聚類技術27
  • 2.3.2 K-means聚類算法27-29
  • 2.3.3 度量相似性29-30
  • 2.4 本章小結30-32
  • 第三章 搜索引擎建模及聚類反饋的算法改進32-46
  • 3.1 索引及搜索建模32-35
  • 3.1.1 基于電力行業(yè)詞庫中文分詞的實現(xiàn)32-33
  • 3.1.2 企業(yè)文檔索引庫的建立33-34
  • 3.1.3 搜索索引庫34-35
  • 3.2 基于K-means的聚類反饋算法改進35-38
  • 3.2.1 基于最遠距離的初始聚類中心選擇方法36-37
  • 3.2.2 初始參數(shù)K的確定37-38
  • 3.3 改進K-means算法的文本聚類性能測試38-44
  • 3.3.1 文本內(nèi)容預處理設計39-41
  • 3.3.2 實驗文本集41
  • 3.3.3 聚類實驗分析41-44
  • 3.4 標識聚類關鍵詞的提取44
  • 3.5 本章小結44-46
  • 第四章 電網(wǎng)資源庫搜索引擎設計46-52
  • 4.1 電網(wǎng)資源庫搜索引擎架構46-47
  • 4.2 分布式搜索引擎服務器設計47-50
  • 4.2.1 Solr處理單元的設計47-48
  • 4.2.2 分布式協(xié)調(diào)子系統(tǒng)設計48-49
  • 4.2.3 SolrCloud服務器集群結構設計49-50
  • 4.3 負載均衡設計50
  • 4.4 檢索結果的聚類分析50-51
  • 4.5 本章小結51-52
  • 第五章 電網(wǎng)資源庫分布式搜索引擎的部署與性能測試52-64
  • 5.1 部署電網(wǎng)資源庫搜索引擎52-53
  • 5.1.1 ZooKeeper部署52
  • 5.1.2 SolrCloud部署52-53
  • 5.1.3 搜索引擎業(yè)務邏輯服務器部署53
  • 5.2 搜索引擎索引和檢索性能測試53-59
  • 5.2.1 測試環(huán)境54
  • 5.2.2 測試系統(tǒng)的結構54-55
  • 5.2.3 索引性能測試55-57
  • 5.2.4 搜索性能測試57-59
  • 5.3 搜索引擎檢索實例59-60
  • 5.4 分類顯示搜索結果60-62
  • 5.5 本章小結62-64
  • 第六章 工作總結與展望64-66
  • 6.1 工作總結64
  • 6.2 工作展望64-66
  • 致謝66-68
  • 參考文獻68-72
  • 附錄A:攻讀碩士學位期間參與項目及科研成果72

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 程志華;倪時龍;黃文思;龔賀;;企業(yè)級非結構化數(shù)據(jù)管理平臺研究及實踐[J];電力信息化;2012年03期

2 劉暢;;全文索引結構的研究[J];計算機光盤軟件與應用;2012年24期

3 鄭凱明;李義杰;;垂直搜索引擎及其應用價值[J];信息技術;2008年04期

4 孫鐵利;劉延吉;;中文分詞技術的研究現(xiàn)狀與困難[J];信息技術;2009年07期

5 曾彪;;Solr學術索引應用顯身手[J];中國教育網(wǎng)絡;2010年10期

6 李戴維;李寧;;基于Solr的分布式全文檢索系統(tǒng)的研究與實現(xiàn)[J];計算機與現(xiàn)代化;2012年11期

7 楊萍;李杰;;利用LoadRunner實現(xiàn)Web負載測試的自動化[J];計算機技術與發(fā)展;2007年01期

8 林碧英;趙銳;陳良臣;;基于Lucene的全文檢索引擎研究與應用[J];計算機技術與發(fā)展;2007年05期

9 劉敏娜;;基于向量空間模型的信息檢索技術研究[J];現(xiàn)代電子技術;2012年11期

10 鮮國建;趙瑞雪;;基于Solr的中文農(nóng)業(yè)期刊文摘檢索系統(tǒng)的構建研究[J];現(xiàn)代圖書情報技術;2011年06期

中國博士學位論文全文數(shù)據(jù)庫 前1條

1 周,

本文編號:823451


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/823451.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權申明:資料由用戶24f0c***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com