天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁 > 科技論文 > 搜索引擎論文 >

基于分布式架構(gòu)的海量文本信息檢索系統(tǒng)的設(shè)計與實現(xiàn)

發(fā)布時間:2017-05-16 11:20

  本文關(guān)鍵詞:基于分布式架構(gòu)的海量文本信息檢索系統(tǒng)的設(shè)計與實現(xiàn),由筆耕文化傳播整理發(fā)布。


【摘要】:隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)的使用越來越受到人們的關(guān)注,海量文本信息的組織和處理問題,是數(shù)據(jù)挖掘搜索引擎電信業(yè)務(wù)網(wǎng)絡(luò)安全網(wǎng)絡(luò)監(jiān)管網(wǎng)絡(luò)信息收集等領(lǐng)域所必然面臨的問題,網(wǎng)絡(luò)環(huán)境下產(chǎn)生的海量文本信息所具有的鮮明特點是需要全文檢索,數(shù)據(jù)產(chǎn)生速度快密度大規(guī)模大且不間斷如何存儲管理這類海量文本信息及完成快速檢索已經(jīng)成為當(dāng)前的一個重要課題而現(xiàn)在存儲管理技術(shù)往往適用于日積月累形成的海量信息,如何存儲管理持續(xù)高速的海量文本信息及快速檢索尚缺乏十分有效的技術(shù)手段 本課題來自于哈爾濱市大源恒晟通信技術(shù)有限公司的實際項目本課系統(tǒng)主要被應(yīng)用于公安網(wǎng)絡(luò)安全領(lǐng)域同時,該系統(tǒng)也可以應(yīng)用于幫助用戶獲取大量的個人感興趣的文本信息 本課題所研究的內(nèi)容,是在分析該類海量文本信息特點的基礎(chǔ)上,運用ORACLE10g并行數(shù)據(jù)庫分區(qū)表技術(shù)ROWID查詢技術(shù)ElasticSearch分布式架構(gòu)技術(shù)及多線程調(diào)度算法,從海量文本信息快速檢索這個特定應(yīng)用出發(fā),設(shè)計和實現(xiàn)一個將涉及海量數(shù)據(jù)加載入庫后,對海量文本信息進行數(shù)據(jù)存儲管理文本索引創(chuàng)建及存儲管理和文本信息檢索通過使用本課題設(shè)計和實現(xiàn)的海量文本信息檢索系統(tǒng),可以滿足用戶快速檢索文本信息的需求 在完成本課題的過程中,作者分析了海量文本信息存儲和訪問所需解決的問題基于本課題海量文本信息檢索系統(tǒng)的應(yīng)用領(lǐng)域,作者進行了業(yè)務(wù)場景的應(yīng)用描述,并以此歸納成為系統(tǒng)的原始需求最后,作者依據(jù)軟件開發(fā)生命周期,依次從需求分析系統(tǒng)設(shè)計和實現(xiàn)以及系統(tǒng)測試這幾個方面,詳細介紹了課題系統(tǒng)的設(shè)計和實現(xiàn) 在此過程中,,首先,本文使用用例模型分析和總結(jié)了系統(tǒng)的功能性需求然后,以此模型為基礎(chǔ)設(shè)計了整個系統(tǒng)的功能模塊和系統(tǒng)體系結(jié)構(gòu)作為這一部分的核心,針對系統(tǒng)的文本信息存儲文本索引創(chuàng)建工作引擎和Http檢索服務(wù)框架這兩個組件的設(shè)計和實現(xiàn),本文借助類圖時序圖流程圖模型對它們進行了重點的介紹
【關(guān)鍵詞】:分布式架構(gòu) 并行數(shù)據(jù)庫 分區(qū)表 文本索引 全文檢索
【學(xué)位授予單位】:哈爾濱工業(yè)大學(xué)
【學(xué)位級別】:碩士
【學(xué)位授予年份】:2014
【分類號】:TP391.3
【目錄】:
  • 摘要4-5
  • Abstract5-10
  • 第1章 緒論10-17
  • 1.1 課題來源與項目名稱10
  • 1.2 課題背景及研究的目的和意義10-11
  • 1.3 本課題相關(guān)的國內(nèi)外研究狀況11-15
  • 1.3.1 國內(nèi)搜索引擎現(xiàn)狀11-12
  • 1.3.2 搜索引擎技術(shù)12-14
  • 1.3.3 國外優(yōu)秀案例 ES14-15
  • 1.4 本文的主要研究內(nèi)容15-16
  • 1.5 本文組織結(jié)構(gòu)16-17
  • 第2章 系統(tǒng)需求分析及相關(guān)技術(shù)17-31
  • 2.1 系統(tǒng)需求描述17-18
  • 2.1.1 系統(tǒng)的應(yīng)用場景17
  • 2.1.2 系統(tǒng)目標范圍需求描述17-18
  • 2.1.3 提供服務(wù)方式需求描述18
  • 2.2 系統(tǒng)需求分析與建模18-21
  • 2.2.1 系統(tǒng)需求分析18-19
  • 2.2.2 系統(tǒng)功能性需求19-20
  • 2.2.3 系統(tǒng)非功能性需求20-21
  • 2.3 系統(tǒng)相關(guān)技術(shù)21-30
  • 2.3.1 并行數(shù)據(jù)庫技術(shù)21-23
  • 2.3.2 分區(qū)表技術(shù)23-24
  • 2.3.3 ROWID 概述24-26
  • 2.3.4 全文檢索技術(shù)26
  • 2.3.5 分布式架構(gòu) ES26-30
  • 2.4 本章小結(jié)30-31
  • 第3章 系統(tǒng)的總體設(shè)計31-38
  • 3.1 系統(tǒng)的架構(gòu)設(shè)計31-33
  • 3.2 系統(tǒng)功能模塊的設(shè)計33-34
  • 3.3 系統(tǒng)數(shù)據(jù)庫相關(guān)設(shè)計34-37
  • 3.3.1 數(shù)據(jù)表設(shè)計34-36
  • 3.3.2 存儲過程設(shè)計36
  • 3.3.3 分區(qū)索引設(shè)計36-37
  • 3.3.4 定時任務(wù)設(shè)計37
  • 3.4 本章小結(jié)37-38
  • 第4章 系統(tǒng)的詳細設(shè)計與實現(xiàn)38-60
  • 4.1 用戶管理模塊的設(shè)計與實現(xiàn)38-40
  • 4.1.1 用戶權(quán)限模塊38-40
  • 4.1.2 用戶管理模塊40
  • 4.2 數(shù)據(jù)抽取模塊的設(shè)計與實現(xiàn)40-42
  • 4.3 索引創(chuàng)建模塊的設(shè)計與實現(xiàn)42-48
  • 4.3.1 索引文件格式42
  • 4.3.2 相關(guān)性排序算法42-45
  • 4.3.3 索引創(chuàng)建模塊交互設(shè)計45-46
  • 4.3.4 索引創(chuàng)建模塊實現(xiàn)46-48
  • 4.4 索引刪除模塊的設(shè)計與實現(xiàn)48-49
  • 4.5 索引重構(gòu)模塊的設(shè)計與實現(xiàn)49-51
  • 4.6 索引檢索模塊的設(shè)計與實現(xiàn)51-56
  • 4.6.1 分詞器算法51-53
  • 4.6.2 索引檢索模塊交互設(shè)計53-55
  • 4.6.3 索引檢索模塊的實現(xiàn)55-56
  • 4.7 文本查詢模塊的設(shè)計與實現(xiàn)56-58
  • 4.8 表分區(qū)管理的設(shè)計與實現(xiàn)58-59
  • 4.9 本章小結(jié)59-60
  • 第5章 系統(tǒng)的測試60-79
  • 5.1 測試計劃60-62
  • 5.1.1 測試環(huán)境60-61
  • 5.1.2 測試工具61
  • 5.1.3 測試對象和范圍61-62
  • 5.1.4 測試技術(shù)與方法62
  • 5.2 系統(tǒng)測試62-78
  • 5.2.1 功能測試62-69
  • 5.2.2 性能測試69-78
  • 5.3 測試結(jié)論78
  • 5.4 本章小結(jié)78-79
  • 結(jié)論79-80
  • 參考文獻80-84
  • 致謝84-85
  • 個人簡歷85

【參考文獻】

中國期刊全文數(shù)據(jù)庫 前10條

1 陳俊陽;ORACLE索引的使用與優(yōu)化[J];電腦知識與技術(shù);2005年14期

2 史斌;;Oracle分布式數(shù)據(jù)庫及其實現(xiàn)[J];電腦知識與技術(shù);2011年26期

3 陳

本文編號:370712


資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/sousuoyinqinglunwen/370712.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶7bac0***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com