大數(shù)據(jù)連接處理技術(shù)在電子政務(wù)環(huán)境下的優(yōu)化與實(shí)現(xiàn)

發(fā)布時(shí)間：2020-07-28 10:36

【摘要】：隨著互聯(lián)網(wǎng)科技的迅速發(fā)展,電子政務(wù)已經(jīng)在機(jī)關(guān)事業(yè)單位得到普遍應(yīng)用,如何從政府所累積存儲(chǔ)的龐大數(shù)據(jù)集中分析提取出有用信息供給決策人員使用并做出明智科學(xué)的決策受到領(lǐng)導(dǎo)的廣泛重視。兩表及多表的連接查詢操作是大數(shù)據(jù)分析處理應(yīng)用中必不可少的操作,但是連接操作又是數(shù)據(jù)分析處理中最耗費(fèi)時(shí)間的操作,研究如何優(yōu)化多數(shù)據(jù)集連接查詢算法以提高數(shù)據(jù)分析處理效率很有意義。本文在了解并分析大數(shù)據(jù)相關(guān)方面已有理論成果和技術(shù)的基礎(chǔ)上,結(jié)合實(shí)際項(xiàng)目背景以及具體項(xiàng)目需求,完成了電子政務(wù)環(huán)境下數(shù)據(jù)可視化分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),對(duì)系統(tǒng)中涉及的兩表及多表等值連接查詢效率問題進(jìn)行了相應(yīng)的優(yōu)化研究。本文首先對(duì)目前使用的大數(shù)據(jù)處理技術(shù)從原理及使用場(chǎng)合進(jìn)行了深入的比對(duì)分析,結(jié)合實(shí)際項(xiàng)目需求選擇了hadoop處理技術(shù)作為設(shè)計(jì)實(shí)現(xiàn)數(shù)據(jù)可視化分析系統(tǒng)的核心技術(shù)。針對(duì)電子政務(wù)平臺(tái)各部門數(shù)據(jù)不規(guī)范、分散、數(shù)據(jù)大等特點(diǎn)經(jīng)過分析比對(duì)當(dāng)前主流的數(shù)據(jù)集成工具最后選用Sqoop作為系統(tǒng)數(shù)據(jù)集成加載工具。Sqoop將數(shù)據(jù)加載到Hive中進(jìn)行數(shù)據(jù)處理,處理之后的數(shù)據(jù)保存到HBase數(shù)據(jù)庫中。數(shù)據(jù)的展示部分選用的性能穩(wěn)定且對(duì)瀏覽器兼容性比較好的HighCharts,最后通過配置文件的設(shè)置將各部分集成并通過系統(tǒng)的定時(shí)任務(wù)對(duì)任務(wù)進(jìn)行操作。針對(duì)可視化分析處理中遇到的兩表及多表等值連接性能低的問題,本文提出了大數(shù)據(jù)環(huán)境下兩表及多表等值連接算法優(yōu)化方案。首先研究如何利用改進(jìn)型Bloom Filter在map階段高效過濾掉無關(guān)數(shù)據(jù)從而減少網(wǎng)絡(luò)傳輸量,隨后在已經(jīng)過濾無關(guān)數(shù)據(jù)的基礎(chǔ)上研究MapReduce中兩表及多表的等值連接算法,最后通過相關(guān)實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證所提算法的高效性。
【學(xué)位授予單位】：昆明理工大學(xué)
【學(xué)位級(jí)別】：碩士
【學(xué)位授予年份】：2018
【分類號(hào)】：D63;TP311.13
【圖文】：

內(nèi)容方案,論文

昆明理工大學(xué)碩士學(xué)位論文相關(guān)技術(shù)設(shè)計(jì)并實(shí)現(xiàn)大數(shù)據(jù)可視化決策分析系統(tǒng)，并對(duì)系統(tǒng)中所涉及的連接查詢算法進(jìn)行過濾改進(jìn)從而提高系統(tǒng)整體查詢效率。本文結(jié)合具體的實(shí)際項(xiàng)目，針對(duì)多數(shù)據(jù)庫環(huán)境下分散數(shù)據(jù)集成存儲(chǔ)管理、數(shù)據(jù)連接查詢處理算法優(yōu)化、電子政務(wù)環(huán)境下可視化展示進(jìn)行了一系列的研究分析，課題研究?jī)?nèi)容方案如圖 1.1 所示。本文主要完成的工作包含以下幾個(gè)方面：

體系結(jié)構(gòu)圖,體系結(jié)構(gòu)

圖 2.1 HDFS 體系結(jié)構(gòu)圖HDFS 采用 Master/slaver 結(jié)構(gòu)，集群中一般含有一個(gè) NameNode 主節(jié)點(diǎn)和多Slave 從節(jié)點(diǎn)[22]。NameNode 運(yùn)行在主服務(wù)器上，管理著整個(gè)文件系統(tǒng)中的元信息及文件目錄樹，客戶端可以通過訪問 NameNode 提供的文件接口獲取所元數(shù)據(jù)信息[23]。集群中的 DataNode 運(yùn)行在 Slave 從節(jié)點(diǎn)上，提供了真實(shí)文據(jù)的存儲(chǔ)服務(wù)。當(dāng)客戶端發(fā)出讀寫請(qǐng)求時(shí)，實(shí)際都是在 DataNode 上對(duì)信息操作。首先從 NameNode 獲得數(shù)據(jù)塊在 DataNode 上的相關(guān)位置信息，再到的 DataNode 節(jié)點(diǎn)上讀取數(shù)據(jù)。）NameNode 工作機(jī)制如圖 2.2 所示為 NameNode 的工作機(jī)制原理圖。NameNode 是整個(gè)文件系統(tǒng)理節(jié)點(diǎn)，管理著整個(gè)文件系統(tǒng)中文件/目錄的元信息和每個(gè)文件對(duì)應(yīng)的數(shù)據(jù)表，這些信息以文件的形式保存在本地，文件包括：metadata：內(nèi)存中的元數(shù)據(jù)。

工作原理圖

圖 2.2 Namenode 的工作原理圖（2）DataNode 工作機(jī)制DataNode 提供了真實(shí)文件數(shù)據(jù)的存儲(chǔ)服務(wù)，將 HDFS 中的文件數(shù)據(jù)存儲(chǔ)在本地文件系統(tǒng)中，這些數(shù)據(jù)在本地是以塊的形式存在單獨(dú)的文件里。由于本地系統(tǒng)中無法有效地支持在單個(gè)目錄下創(chuàng)建大量的文件，DataNode 進(jìn)程會(huì)恰當(dāng)?shù)囊宰陨淼男枨髣?dòng)態(tài)創(chuàng)建子目錄及決定不同目錄下適合的文件量，這樣可能會(huì)使所有文件不在同一個(gè)目錄下。當(dāng)啟動(dòng) DataNode 進(jìn)程時(shí)，Hadoop 會(huì)首先掃描本地文件系統(tǒng)，生成對(duì)應(yīng)的 HDFS 塊列表，發(fā)送給 NameNode 主節(jié)點(diǎn)。DataNode 通過心跳檢測(cè)機(jī)制與 NameNode 保持通信，定期向?qū)⒆约寒?dāng)前的狀態(tài)的信息匯報(bào)給NameNode，以便 NameNode 更好的對(duì)資源進(jìn)行管理及調(diào)配[25]。2.2.2 MapReduce 框架MapReduce 是 Hadoop 中數(shù)據(jù)計(jì)算處理的核心部分，主要用于對(duì)體積龐大的數(shù)據(jù)集進(jìn)行并行計(jì)算處理[26]。其基本原理是將需處理的大數(shù)據(jù)集按設(shè)置的大小切

【參考文獻(xiàn)】

相關(guān)期刊論文前8條

1 林子雨;李雨倩;李粲;賴永炫;;PipelineJoin:一種新的基于MapReduce的多表連接算法[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2015年10期

2 許耀桐;;決策公開是高端的政務(wù)公開[J];中國(guó)行政管理;2015年07期

3 宋杰;李甜甜;朱志良;鮑玉斌;于戈;;MapReduce連接查詢的I/O代價(jià)研究[J];軟件學(xué)報(bào);2015年06期

4 胡龍;羅軍;;基于MapReduce的混合連接算法[J];計(jì)算機(jī)與現(xiàn)代化;2015年06期

5 駱文亮;;繪圖插件Highcharts淺析[J];科技視界;2014年12期

6 Li ZHAO;Chuanfu CHEN;;Understanding trust-related factors affecting citizen adoption of e-government services[J];Chinese Journal of Library and Information Science;2013年03期

7 羅恩韜;胡志剛;林華;;一種大數(shù)據(jù)時(shí)代海量數(shù)據(jù)抽取的開發(fā)模型研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期

8 朱黎明;;初探經(jīng)濟(jì)效益審計(jì)在民營(yíng)企業(yè)的開展[J];財(cái)經(jīng)界(學(xué)術(shù)版);2009年10期

相關(guān)博士學(xué)位論文前1條

1 張常淳;基于MapReduce的大數(shù)據(jù)連接算法的設(shè)計(jì)與優(yōu)化[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年

相關(guān)碩士學(xué)位論文前9條

1 岳明亮;基于Hadoop的多表連接操作查詢優(yōu)化關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2016年

2 李松;基于Hadoop的分布式網(wǎng)絡(luò)爬蟲研究[D];電子科技大學(xué);2016年

3 柳陸;分布式內(nèi)存數(shù)據(jù)庫數(shù)據(jù)并行快速加載與索引技術(shù)[D];電子科技大學(xué);2016年

4 陳慈;基于多核的Ramsey數(shù)算法研究[D];北京交通大學(xué);2015年

5 張瑜;多源安全數(shù)據(jù)可視化關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];重慶大學(xué);2015年

6 馬翠云;基于HBase的大規(guī)模數(shù)據(jù)存儲(chǔ)解決方案的設(shè)計(jì)和實(shí)現(xiàn)[D];山東大學(xué);2015年

7 孫菁霞;基于Bitmap的隱超點(diǎn)檢測(cè)算法研究[D];大連海事大學(xué);2013年

8 劉沖;MapReduce作業(yè)調(diào)度算法研究[D];哈爾濱工程大學(xué);2013年

9 劉明剛;MapReduce故障容錯(cuò)研究與作業(yè)調(diào)度器優(yōu)化[D];杭州電子科技大學(xué);2013年

本文編號(hào)：2772760

資料下載

論文發(fā)表

支付寶下載

Download by Alipay
微信下載

Download by Wechat
會(huì)員下載

Download by Member

本文鏈接：http://www.sikaile.net/guanlilunwen/zhengwuguanli/2772760.html

上一篇：浙江省海洋與漁業(yè)局“日志式”管理平時(shí)考核系統(tǒng)優(yōu)化研究
下一篇：L縣基層公務(wù)員職務(wù)與職級(jí)晉升并行制度實(shí)施面臨的挑戰(zhàn)與對(duì)策探析

論文發(fā)表

·知網(wǎng)|萬方|維普|龍?jiān)磡省級(jí)|國(guó)家級(jí)|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|

天堂国产午夜亚洲专区-少妇人妻综合久久蜜臀-国产成人户外露出视频在线-国产91传媒一区二区三区

大數(shù)據(jù)連接處理技術(shù)在電子政務(wù)環(huán)境下的優(yōu)化與實(shí)現(xiàn)