天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 軟件論文 >

圖數(shù)據(jù)裝載工具的設(shè)計(jì)與實(shí)現(xiàn)

發(fā)布時(shí)間:2024-05-08 20:25
  隨著大數(shù)據(jù)時(shí)代的到來(lái),生活中每天都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)的數(shù)據(jù)規(guī)模很大、數(shù)據(jù)種類繁多。主要包括結(jié)構(gòu)化的數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)兩種,其中非結(jié)構(gòu)化數(shù)據(jù)中的圖數(shù)據(jù)因具有很強(qiáng)的表達(dá)能力和擅于處理復(fù)雜關(guān)系的能力,具有很好的實(shí)際應(yīng)用場(chǎng)景。從圖數(shù)據(jù)裝載的功能需求和性能需求出發(fā),以Spark分布式框架作為為底層技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)高效的分布式的圖數(shù)據(jù)裝載工具。該圖數(shù)據(jù)裝載工具主要分為裝載步驟文件的讀取、多格式數(shù)據(jù)源文件的解析、頂點(diǎn)數(shù)據(jù)的裝載、邊數(shù)據(jù)的裝載和關(guān)聯(lián)表數(shù)據(jù)的生成與裝載這五個(gè)功能模塊。裝載步驟文件的讀取主要是服務(wù)于整個(gè)裝載流程,通過(guò)解析xml格式的裝載步驟文件獲取裝載的關(guān)鍵信息,將這些信息傳遞到裝載的各個(gè)步驟中。多格式文件的解析主要是為了將數(shù)據(jù)源的數(shù)據(jù)提取出來(lái),主要包括csv格式一類的文件數(shù)據(jù)或者關(guān)系數(shù)據(jù)庫(kù)中的表。頂點(diǎn)數(shù)據(jù)的裝載主要是完成從數(shù)據(jù)源讀取數(shù)據(jù)后,進(jìn)過(guò)一系列的轉(zhuǎn)換,將數(shù)據(jù)轉(zhuǎn)化成所需要的數(shù)據(jù)結(jié)構(gòu),然后完成頂點(diǎn)數(shù)據(jù)的全量裝載和增量裝載,同時(shí)生成頂點(diǎn)數(shù)據(jù)的索引,為邊數(shù)據(jù)的裝載提供數(shù)據(jù)支撐。邊數(shù)據(jù)的裝載主要是完成從數(shù)據(jù)源讀取數(shù)據(jù)后,經(jīng)過(guò)和頂點(diǎn)數(shù)據(jù)的索引進(jìn)行對(duì)比后,最后將邊數(shù)據(jù)經(jīng)過(guò)一系列轉(zhuǎn)...

【文章頁(yè)數(shù)】:58 頁(yè)

【學(xué)位級(jí)別】:碩士

【部分圖文】:

圖2.1圖數(shù)據(jù)裝載工具的系統(tǒng)功能模塊圖

圖2.1圖數(shù)據(jù)裝載工具的系統(tǒng)功能模塊圖

在一定規(guī)模的數(shù)據(jù)情況下能夠保持較高的裝載效率。(2)增量裝載的性能需求,增量裝載在性能需求上要稍微低一點(diǎn),因?yàn)樵隽垦b載過(guò)程中涉及數(shù)據(jù)的對(duì)比,這一部分需要消耗較長(zhǎng)的時(shí)間,所以在裝載效率上在數(shù)據(jù)規(guī)模上達(dá)到億級(jí)時(shí)裝載效率爭(zhēng)取達(dá)到每秒1千條數(shù)據(jù)記錄,在數(shù)據(jù)規(guī)模上每次增量數(shù)據(jù)的規(guī)模大約....


圖2.2圖數(shù)據(jù)裝載工具的數(shù)據(jù)流圖

圖2.2圖數(shù)據(jù)裝載工具的數(shù)據(jù)流圖

圖2.2圖數(shù)據(jù)裝載工具的數(shù)據(jù)流圖(1)首先通過(guò)裝載步驟文件解析來(lái)讀取xml格式的裝載步驟文件,獲取數(shù)據(jù)源的相關(guān)信息、頂點(diǎn)和邊數(shù)據(jù)的相關(guān)信息、數(shù)據(jù)存儲(chǔ)的相關(guān)信息。(2)根據(jù)數(shù)據(jù)源的相關(guān)信息,識(shí)別數(shù)據(jù)源的格式,對(duì)不同數(shù)據(jù)源格式文件做相應(yīng)的解析,對(duì)于關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)通過(guò)JDB....


圖3.1裝載步驟文件的讀取的數(shù)據(jù)流程圖

圖3.1裝載步驟文件的讀取的數(shù)據(jù)流程圖

華中科技大學(xué)碩士學(xué)位論文3圖數(shù)據(jù)裝載工具的設(shè)計(jì)與實(shí)現(xiàn)本章將對(duì)圖數(shù)據(jù)裝載工具的各模塊設(shè)計(jì)進(jìn)行詳細(xì)介紹。圖數(shù)據(jù)裝載工具主要包括五個(gè)功能模塊,裝載步驟文件的讀取、多格式數(shù)據(jù)源文件的解析、頂點(diǎn)數(shù)據(jù)的裝載、邊數(shù)據(jù)的裝載、關(guān)聯(lián)表的生成與裝載。并且針對(duì)關(guān)聯(lián)表裝載性能較慢....


圖3.2多格式數(shù)據(jù)文件的讀取的流程圖

圖3.2多格式數(shù)據(jù)文件的讀取的流程圖

16圖3.2多格式數(shù)據(jù)文件的讀取的流程圖在裝載步驟文件中確定是從關(guān)系數(shù)據(jù)庫(kù)獲取數(shù)據(jù)后,從裝載步驟文件中獲取rl關(guān)系數(shù)據(jù)庫(kù)的地址、Table表名、DbUser用戶名、DbPwd用戶對(duì)應(yīng)的密碼然后通過(guò)SparkJDBC來(lái)連接關(guān)系數(shù)據(jù)庫(kù),從中讀取數(shù)據(jù)。讀取的數(shù)據(jù)分為



本文編號(hào):3967778

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/3967778.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶8c0c6***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com