一種基于大數(shù)據(jù)架構(gòu)的地震科普資源庫(kù)的設(shè)計(jì)和開發(fā)
發(fā)布時(shí)間:2021-09-30 12:41
當(dāng)今時(shí)代,愈發(fā)龐大的數(shù)據(jù)難以有效處理運(yùn)用和管理,需要一種更加合適的資源獲取處理方式。該文基于大數(shù)據(jù)架構(gòu)結(jié)合網(wǎng)絡(luò)爬蟲、數(shù)據(jù)清洗、信息檢索等前沿技術(shù),設(shè)計(jì)開發(fā)了地震科普知識(shí)資源庫(kù)系統(tǒng)。其中運(yùn)用了J2EE、Python、Hadoop、Elasticsearch、MySQL等技術(shù)。通過網(wǎng)絡(luò)爬蟲和人工上傳的方式采集地震科普相關(guān)信息資源,經(jīng)過數(shù)據(jù)清洗轉(zhuǎn)換后對(duì)信息資源進(jìn)行自動(dòng)分類,最后將資源上傳至資源庫(kù)hdfs分布式文件系統(tǒng)并將文件信息保存至Elasticsearch分布式文件索引系統(tǒng),由此實(shí)現(xiàn)大數(shù)據(jù)架構(gòu)下的全文檢索。同時(shí),建立資源庫(kù)的后臺(tái)管理系統(tǒng),用于網(wǎng)站的日常管理和維護(hù)。相比以前的集群文件系統(tǒng)更加高速便捷、更加的安全穩(wěn)定。
【文章來(lái)源】:科技資訊. 2020,18(05)
【文章頁(yè)數(shù)】:3 頁(yè)
【部分圖文】:
資源庫(kù)整體架構(gòu)
HDFS分布式文件存儲(chǔ)系統(tǒng)主要用于各類資源的存儲(chǔ)和下載,可運(yùn)行于廉價(jià)的商用機(jī)器集群上,對(duì)硬件要求低,且具有很大商業(yè)價(jià)值。Elasticsearch是一個(gè)實(shí)時(shí)的分布式搜索和分析引擎,是天生為分布式執(zhí)行數(shù)據(jù)分析操作而生的架構(gòu),海量數(shù)據(jù)下的近實(shí)時(shí)(秒級(jí))性能支持,以及無(wú)比強(qiáng)大的搜索和聚合分析的語(yǔ)法支持,讓ES更加適合進(jìn)行大數(shù)據(jù)場(chǎng)景下的數(shù)據(jù)分析應(yīng)用。5 結(jié)語(yǔ)
數(shù)據(jù)采集分人工上傳和網(wǎng)絡(luò)爬蟲兩種,使用爬蟲抓取數(shù)據(jù)可以提高數(shù)據(jù)采集的效率。網(wǎng)絡(luò)爬蟲會(huì)根據(jù)給定網(wǎng)址進(jìn)行爬取,通過spiderkeeper對(duì)爬蟲進(jìn)行管理。該文運(yùn)用spiderkeeper配合scrapyd管理爬蟲,支持一鍵式部署、定時(shí)爬取任務(wù)、啟動(dòng)、暫停等一系列的操作。3.2 數(shù)據(jù)處理
【參考文獻(xiàn)】:
期刊論文
[1]教學(xué)資源庫(kù)現(xiàn)狀及發(fā)展趨勢(shì)分析[J]. 范繼魏. 現(xiàn)代商貿(mào)工業(yè). 2016(31)
本文編號(hào):3415883
【文章來(lái)源】:科技資訊. 2020,18(05)
【文章頁(yè)數(shù)】:3 頁(yè)
【部分圖文】:
資源庫(kù)整體架構(gòu)
HDFS分布式文件存儲(chǔ)系統(tǒng)主要用于各類資源的存儲(chǔ)和下載,可運(yùn)行于廉價(jià)的商用機(jī)器集群上,對(duì)硬件要求低,且具有很大商業(yè)價(jià)值。Elasticsearch是一個(gè)實(shí)時(shí)的分布式搜索和分析引擎,是天生為分布式執(zhí)行數(shù)據(jù)分析操作而生的架構(gòu),海量數(shù)據(jù)下的近實(shí)時(shí)(秒級(jí))性能支持,以及無(wú)比強(qiáng)大的搜索和聚合分析的語(yǔ)法支持,讓ES更加適合進(jìn)行大數(shù)據(jù)場(chǎng)景下的數(shù)據(jù)分析應(yīng)用。5 結(jié)語(yǔ)
數(shù)據(jù)采集分人工上傳和網(wǎng)絡(luò)爬蟲兩種,使用爬蟲抓取數(shù)據(jù)可以提高數(shù)據(jù)采集的效率。網(wǎng)絡(luò)爬蟲會(huì)根據(jù)給定網(wǎng)址進(jìn)行爬取,通過spiderkeeper對(duì)爬蟲進(jìn)行管理。該文運(yùn)用spiderkeeper配合scrapyd管理爬蟲,支持一鍵式部署、定時(shí)爬取任務(wù)、啟動(dòng)、暫停等一系列的操作。3.2 數(shù)據(jù)處理
【參考文獻(xiàn)】:
期刊論文
[1]教學(xué)資源庫(kù)現(xiàn)狀及發(fā)展趨勢(shì)分析[J]. 范繼魏. 現(xiàn)代商貿(mào)工業(yè). 2016(31)
本文編號(hào):3415883
本文鏈接:http://www.sikaile.net/kejilunwen/diqiudizhi/3415883.html
最近更新
教材專著