天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

當(dāng)前位置:主頁(yè) > 科技論文 > 地質(zhì)論文 >

一種基于大數(shù)據(jù)架構(gòu)的地震科普資源庫(kù)的設(shè)計(jì)和開發(fā)

發(fā)布時(shí)間:2021-09-30 12:41
  當(dāng)今時(shí)代,愈發(fā)龐大的數(shù)據(jù)難以有效處理運(yùn)用和管理,需要一種更加合適的資源獲取處理方式。該文基于大數(shù)據(jù)架構(gòu)結(jié)合網(wǎng)絡(luò)爬蟲、數(shù)據(jù)清洗、信息檢索等前沿技術(shù),設(shè)計(jì)開發(fā)了地震科普知識(shí)資源庫(kù)系統(tǒng)。其中運(yùn)用了J2EE、Python、Hadoop、Elasticsearch、MySQL等技術(shù)。通過網(wǎng)絡(luò)爬蟲和人工上傳的方式采集地震科普相關(guān)信息資源,經(jīng)過數(shù)據(jù)清洗轉(zhuǎn)換后對(duì)信息資源進(jìn)行自動(dòng)分類,最后將資源上傳至資源庫(kù)hdfs分布式文件系統(tǒng)并將文件信息保存至Elasticsearch分布式文件索引系統(tǒng),由此實(shí)現(xiàn)大數(shù)據(jù)架構(gòu)下的全文檢索。同時(shí),建立資源庫(kù)的后臺(tái)管理系統(tǒng),用于網(wǎng)站的日常管理和維護(hù)。相比以前的集群文件系統(tǒng)更加高速便捷、更加的安全穩(wěn)定。 

【文章來(lái)源】:科技資訊. 2020,18(05)

【文章頁(yè)數(shù)】:3 頁(yè)

【部分圖文】:

一種基于大數(shù)據(jù)架構(gòu)的地震科普資源庫(kù)的設(shè)計(jì)和開發(fā)


資源庫(kù)整體架構(gòu)

流程圖,數(shù)據(jù)清洗,流程,數(shù)據(jù)分析


HDFS分布式文件存儲(chǔ)系統(tǒng)主要用于各類資源的存儲(chǔ)和下載,可運(yùn)行于廉價(jià)的商用機(jī)器集群上,對(duì)硬件要求低,且具有很大商業(yè)價(jià)值。Elasticsearch是一個(gè)實(shí)時(shí)的分布式搜索和分析引擎,是天生為分布式執(zhí)行數(shù)據(jù)分析操作而生的架構(gòu),海量數(shù)據(jù)下的近實(shí)時(shí)(秒級(jí))性能支持,以及無(wú)比強(qiáng)大的搜索和聚合分析的語(yǔ)法支持,讓ES更加適合進(jìn)行大數(shù)據(jù)場(chǎng)景下的數(shù)據(jù)分析應(yīng)用。5 結(jié)語(yǔ)

資源,數(shù)據(jù)采集,網(wǎng)址,數(shù)據(jù)處理


數(shù)據(jù)采集分人工上傳和網(wǎng)絡(luò)爬蟲兩種,使用爬蟲抓取數(shù)據(jù)可以提高數(shù)據(jù)采集的效率。網(wǎng)絡(luò)爬蟲會(huì)根據(jù)給定網(wǎng)址進(jìn)行爬取,通過spiderkeeper對(duì)爬蟲進(jìn)行管理。該文運(yùn)用spiderkeeper配合scrapyd管理爬蟲,支持一鍵式部署、定時(shí)爬取任務(wù)、啟動(dòng)、暫停等一系列的操作。3.2 數(shù)據(jù)處理

【參考文獻(xiàn)】:
期刊論文
[1]教學(xué)資源庫(kù)現(xiàn)狀及發(fā)展趨勢(shì)分析[J]. 范繼魏.  現(xiàn)代商貿(mào)工業(yè). 2016(31)



本文編號(hào):3415883

資料下載
論文發(fā)表

本文鏈接:http://www.sikaile.net/kejilunwen/diqiudizhi/3415883.html


Copyright(c)文論論文網(wǎng)All Rights Reserved | 網(wǎng)站地圖 |

版權(quán)申明:資料由用戶598c8***提供,本站僅收錄摘要或目錄,作者需要?jiǎng)h除請(qǐng)E-mail郵箱bigeng88@qq.com