基于深度學習的科技數據復用研究
發(fā)布時間:2023-06-02 20:02
隨著計算機領域的發(fā)展,科技類數據的結構趨向于復雜,在數據整合的過程中,數據重復的比率日趨增高。數據復用技術是解決當前數據管理中節(jié)省存儲空間、提高數據利用率等問題的有效手段。本文依托“河北省科技攻關項目科技大數據標準化處理與應用系統(tǒng)研發(fā)”(172110113D)和“河北省科技創(chuàng)新大數據公共平臺”項目,提出了一種基于科技數據相似性分析的數據實體關聯映射復用方法。首先針對科技數據中不同數據集的數據維度進行分析,建立相似維度組對;在此基礎上進一步計算實體數據維度值相似率,進而建立數據實體之間的關聯映射關系,最后進行標準化并存儲,達到科技數據復用目的。論文的主要研究工作如下:(1)基于深度學習的科技數據相似維度組對的優(yōu)化分析建立了一種維度權重量化機制,對數據維度進行權重分析,篩選可復用維度。針對不同科技數據集的維度,進行相似度匹配分析,建立不同數據集之間的相似維度組對;運用深度學習算法進行訓練,獲得最優(yōu)相似維度組對。(2)科技數據實體關聯映射的構建與標準化根據數據集之間形成的相似維度組對,進行不同數據集之間的數據實體關聯映射分析。相對于傳統(tǒng)的以查詢中間結果為數據復用對象,本文從數據實體之間建立的...
【文章頁數】:76 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內外研究現狀
1.2.1 數據復用的相關研究
1.2.2 數據相似性
1.3 主要研究目標及工作
1.4 論文組織結構
第二章 相關概念與技術
2.1 科技數據復用
2.1.1 數據復用概念
2.1.2 數據復用的應用
2.2 深度學習
2.2.1 深度學習概念
2.2.2 Word2vec模型原理
2.2.3 卷積神經網絡和循環(huán)神經網絡
2.3 科技數據列式存儲
2.3.1 非關系型數據庫Mongo DB簡介
2.3.2 非關系型數據庫與關系型數據庫的簡單比較
2.4 科技數據相似性分析
2.4.1 基于傳統(tǒng)數據相似性分析方法
2.4.2 基于深度學習相似性分析方法
2.5 本章小結
第三章 面向科技數據復用的短文本相似性分析
3.1 科技數據短文本預處理
3.1.1 短文本分詞
3.1.2 停用詞分析
3.1.3 特征詞向量
3.2 基于同義詞詞林改進的科技短文本語義相似度算法
3.2.1 同義詞詞林介紹
3.2.2 基于同義詞詞林改進的科技短文本相似度CLin算法
3.3 基于內注意力機制的科技短文本語義相似度模型
3.3.1 基于LSTM的文本相似度識別
3.3.2 基于內注意力機制相似度分析IA-LSTM模型
3.4 實驗設計與結果分析
3.4.1 實驗數據與實驗流程
3.4.2 結果分析
3.5 本章小結
第四章 面向科技數據復用的維度相似性分析
4.1 基于傳統(tǒng)特征分析的科技數據相似維度組對匹配策略
4.1.1 科技數據集維度權重量化
4.1.2 基于傳統(tǒng)特征分析的相似維度組對匹配算法
4.2 基于深度學習算法的科技數據相似維度組對匹配策略
4.2.1 科技數據集維度特征值量化
4.2.2 基于深度學習的科技數據維度組對相似匹配模型設計
4.3 實驗設計與結果分析
4.3.1 實驗數據與實驗流程
4.3.2 結果分析
4.4 本章小結
第五章 科技數據復用模型的驗證
5.1 相關工作
5.2 實驗設計與數據實體復用分析
5.2.1 科技數據復用實驗設計
5.2.2 科技數據實體關聯映射分析
5.2.3 科技數據復用結果標準化和復用存儲
5.3 復用數據指標評價與結果分析
5.3.1 實驗評價指標
5.3.2 實驗結果與分析
5.4 本章小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
個人簡歷、在學期間的研究成果及發(fā)表的學術論文
本文編號:3827942
【文章頁數】:76 頁
【學位級別】:碩士
【文章目錄】:
摘要
abstract
第一章 緒論
1.1 研究背景與意義
1.1.1 研究背景
1.1.2 研究意義
1.2 國內外研究現狀
1.2.1 數據復用的相關研究
1.2.2 數據相似性
1.3 主要研究目標及工作
1.4 論文組織結構
第二章 相關概念與技術
2.1 科技數據復用
2.1.1 數據復用概念
2.1.2 數據復用的應用
2.2 深度學習
2.2.1 深度學習概念
2.2.2 Word2vec模型原理
2.2.3 卷積神經網絡和循環(huán)神經網絡
2.3 科技數據列式存儲
2.3.1 非關系型數據庫Mongo DB簡介
2.3.2 非關系型數據庫與關系型數據庫的簡單比較
2.4 科技數據相似性分析
2.4.1 基于傳統(tǒng)數據相似性分析方法
2.4.2 基于深度學習相似性分析方法
2.5 本章小結
第三章 面向科技數據復用的短文本相似性分析
3.1 科技數據短文本預處理
3.1.1 短文本分詞
3.1.2 停用詞分析
3.1.3 特征詞向量
3.2 基于同義詞詞林改進的科技短文本語義相似度算法
3.2.1 同義詞詞林介紹
3.2.2 基于同義詞詞林改進的科技短文本相似度CLin算法
3.3 基于內注意力機制的科技短文本語義相似度模型
3.3.1 基于LSTM的文本相似度識別
3.3.2 基于內注意力機制相似度分析IA-LSTM模型
3.4 實驗設計與結果分析
3.4.1 實驗數據與實驗流程
3.4.2 結果分析
3.5 本章小結
第四章 面向科技數據復用的維度相似性分析
4.1 基于傳統(tǒng)特征分析的科技數據相似維度組對匹配策略
4.1.1 科技數據集維度權重量化
4.1.2 基于傳統(tǒng)特征分析的相似維度組對匹配算法
4.2 基于深度學習算法的科技數據相似維度組對匹配策略
4.2.1 科技數據集維度特征值量化
4.2.2 基于深度學習的科技數據維度組對相似匹配模型設計
4.3 實驗設計與結果分析
4.3.1 實驗數據與實驗流程
4.3.2 結果分析
4.4 本章小結
第五章 科技數據復用模型的驗證
5.1 相關工作
5.2 實驗設計與數據實體復用分析
5.2.1 科技數據復用實驗設計
5.2.2 科技數據實體關聯映射分析
5.2.3 科技數據復用結果標準化和復用存儲
5.3 復用數據指標評價與結果分析
5.3.1 實驗評價指標
5.3.2 實驗結果與分析
5.4 本章小結
第六章 總結與展望
6.1 總結
6.2 展望
參考文獻
致謝
個人簡歷、在學期間的研究成果及發(fā)表的學術論文
本文編號:3827942
本文鏈接:http://www.sikaile.net/kejilunwen/zidonghuakongzhilunwen/3827942.html