大規(guī)模語義數據存儲優(yōu)化方案研究與實現
發(fā)布時間:2024-03-16 04:56
隨著RDF數據的迅猛增長,RDF語義數據集總量已超過800億,作為W3C標準之一,RDF數據的應用愈加廣泛,涉及多種領域。面對大規(guī)模語義數據,傳統的搜索引擎在實時性方面能力不足,同時,基于搜索引擎直接獲取富含語義信息的知識集合面臨著很大挑戰(zhàn),因此,針對語義數據的管理,近年來涌現出不少RDF語義數據管理平臺,例如jena-tdb、gStore、RDF-3X等等。但由于語義數據的爆炸式增長,現有的主流RDF管理平臺主要面臨著面向大規(guī)模數據處理能力不足,語義查詢有效性較低等問題。本文提出了一種面向大規(guī)模語義數據知識圖譜分布式管理方案,通過最大網格構建索引,利用并行計算框架實現對知識圖譜高效地語義查詢。為提高對存儲空間的利用,本文提出采用哈希碼對語義數據編碼。為提高語義查詢的有效性,本文在RDF語義圖中挖掘最大網格,然后基于最大網格構建知識圖譜索引結構。為實現大規(guī)模語義數據的分布式管理,本文采用DBSCAN聚類算法實現分布式數據劃分,將整個RDF語義圖劃分為多個RDF語義子圖。本文采用BORDER邊界點檢測算法識別語義子圖邊界點,從而實現邊界點關系數據在多個節(jié)點中的存儲,滿足跨節(jié)點語義查詢的數...
【文章頁數】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景與意義
1.2 國內外研究現狀
1.2.1 國外研究現狀
1.2.2 國內研究現狀
1.3 論文工作內容
1.4 論文組織結構
第二章 數據管理基礎理論與技術
2.1 大規(guī)模RDF數據管理
2.1.1 基于關系的RDF數據管理方法
2.1.2 基于圖的RDF數據管理方法
2.2 大規(guī)模數據聚類
2.2.1 聚類分析概述
2.2.2 聚類算法分類
2.3 本章小結
第三章 基于最大網格的大規(guī)模數據索引構建方法
3.1 問題分析與解決方案
3.1.1 問題分析
3.1.2 解決方案
3.2 知識圖譜構建過程
3.2.1 哈希編碼
3.2.2 基于哈希碼的編碼模式
3.2.3 最大網格挖掘算法
3.2.4 知識圖譜索引構建
3.3 基于DBSCAN聚類算法的數據劃分
3.3.1 數據劃分方式選擇
3.3.2 聚類算法選擇
3.4 本章小結
第四章 基于分布式計算的大規(guī)模數據管理
4.1 跨節(jié)點數據冗余存儲
4.1.1 邊界點檢測算法
4.1.2 邊界點關系數據冗余存儲
4.2 基于CLARANS聚類算法的可達實體擴展
4.2.1 聚類算法選擇
4.2.2 聚類擴展可達實體
4.3 基于SPARQL查詢的查詢引擎構建
4.3.1 查詢場景分類
4.3.2 查詢模式構建
4.4 分布式解決方案
4.5 本章小結
第五章 實驗與結果分析
5.1 實驗準備工作
5.1.1 實驗環(huán)境
5.1.2 實驗數據集
5.1.3 實驗度量標準
5.2 實驗過程
5.2.1 基于哈希碼的語義數據編碼
5.2.2 基于最大網格挖掘算法的索引構建
5.2.3 基于DBSCAN聚類算法的數據劃分
5.2.4 基于CLARANS聚類算法的可達實體擴展
5.2.5 基于SPARQL查詢的語義數據查詢
5.3 實驗結果分析
5.4 本章小結
第六章 結束語
6.1 論文工作總結
6.2 后續(xù)工作展望
參考文獻
致謝
作者簡介
本文編號:3929146
【文章頁數】:77 頁
【學位級別】:碩士
【文章目錄】:
摘要
ABSTRACT
符號對照表
縮略語對照表
第一章 緒論
1.1 研究背景與意義
1.2 國內外研究現狀
1.2.1 國外研究現狀
1.2.2 國內研究現狀
1.3 論文工作內容
1.4 論文組織結構
第二章 數據管理基礎理論與技術
2.1 大規(guī)模RDF數據管理
2.1.1 基于關系的RDF數據管理方法
2.1.2 基于圖的RDF數據管理方法
2.2 大規(guī)模數據聚類
2.2.1 聚類分析概述
2.2.2 聚類算法分類
2.3 本章小結
第三章 基于最大網格的大規(guī)模數據索引構建方法
3.1 問題分析與解決方案
3.1.1 問題分析
3.1.2 解決方案
3.2 知識圖譜構建過程
3.2.1 哈希編碼
3.2.2 基于哈希碼的編碼模式
3.2.3 最大網格挖掘算法
3.2.4 知識圖譜索引構建
3.3 基于DBSCAN聚類算法的數據劃分
3.3.1 數據劃分方式選擇
3.3.2 聚類算法選擇
3.4 本章小結
第四章 基于分布式計算的大規(guī)模數據管理
4.1 跨節(jié)點數據冗余存儲
4.1.1 邊界點檢測算法
4.1.2 邊界點關系數據冗余存儲
4.2 基于CLARANS聚類算法的可達實體擴展
4.2.1 聚類算法選擇
4.2.2 聚類擴展可達實體
4.3 基于SPARQL查詢的查詢引擎構建
4.3.1 查詢場景分類
4.3.2 查詢模式構建
4.4 分布式解決方案
4.5 本章小結
第五章 實驗與結果分析
5.1 實驗準備工作
5.1.1 實驗環(huán)境
5.1.2 實驗數據集
5.1.3 實驗度量標準
5.2 實驗過程
5.2.1 基于哈希碼的語義數據編碼
5.2.2 基于最大網格挖掘算法的索引構建
5.2.3 基于DBSCAN聚類算法的數據劃分
5.2.4 基于CLARANS聚類算法的可達實體擴展
5.2.5 基于SPARQL查詢的語義數據查詢
5.3 實驗結果分析
5.4 本章小結
第六章 結束語
6.1 論文工作總結
6.2 后續(xù)工作展望
參考文獻
致謝
作者簡介
本文編號:3929146
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3929146.html