大數(shù)據(jù)連接處理技術(shù)在電子政務(wù)環(huán)境下的優(yōu)化與實(shí)現(xiàn)
【學(xué)位授予單位】:昆明理工大學(xué)
【學(xué)位級(jí)別】:碩士
【學(xué)位授予年份】:2018
【分類號(hào)】:D63;TP311.13
【圖文】:
昆明理工大學(xué)碩士學(xué)位論文相關(guān)技術(shù)設(shè)計(jì)并實(shí)現(xiàn)大數(shù)據(jù)可視化決策分析系統(tǒng),并對(duì)系統(tǒng)中所涉及的連接查詢算法進(jìn)行過濾改進(jìn)從而提高系統(tǒng)整體查詢效率。本文結(jié)合具體的實(shí)際項(xiàng)目,針對(duì)多數(shù)據(jù)庫環(huán)境下分散數(shù)據(jù)集成存儲(chǔ)管理、數(shù)據(jù)連接查詢處理算法優(yōu)化、電子政務(wù)環(huán)境下可視化展示進(jìn)行了一系列的研究分析,課題研究?jī)?nèi)容方案如圖 1.1 所示。本文主要完成的工作包含以下幾個(gè)方面:
圖 2.1 HDFS 體系結(jié)構(gòu)圖HDFS 采用 Master/slaver 結(jié)構(gòu),集群中一般含有一個(gè) NameNode 主節(jié)點(diǎn)和多Slave 從節(jié)點(diǎn)[22]。NameNode 運(yùn)行在主服務(wù)器上,管理著整個(gè)文件系統(tǒng)中的元信息及文件目錄樹,客戶端可以通過訪問 NameNode 提供的文件接口獲取所元數(shù)據(jù)信息[23]。集群中的 DataNode 運(yùn)行在 Slave 從節(jié)點(diǎn)上,提供了真實(shí)文據(jù)的存儲(chǔ)服務(wù)。當(dāng)客戶端發(fā)出讀寫請(qǐng)求時(shí),實(shí)際都是在 DataNode 上對(duì)信息操作。首先從 NameNode 獲得數(shù)據(jù)塊在 DataNode 上的相關(guān)位置信息,再到的 DataNode 節(jié)點(diǎn)上讀取數(shù)據(jù)。)NameNode 工作機(jī)制如圖 2.2 所示為 NameNode 的工作機(jī)制原理圖。NameNode 是整個(gè)文件系統(tǒng)理節(jié)點(diǎn),管理著整個(gè)文件系統(tǒng)中文件/目錄的元信息和每個(gè)文件對(duì)應(yīng)的數(shù)據(jù)表,這些信息以文件的形式保存在本地,文件包括:metadata:內(nèi)存中的元數(shù)據(jù)。
圖 2.2 Namenode 的工作原理圖(2)DataNode 工作機(jī)制DataNode 提供了真實(shí)文件數(shù)據(jù)的存儲(chǔ)服務(wù),將 HDFS 中的文件數(shù)據(jù)存儲(chǔ)在本地文件系統(tǒng)中,這些數(shù)據(jù)在本地是以塊的形式存在單獨(dú)的文件里。由于本地系統(tǒng)中無法有效地支持在單個(gè)目錄下創(chuàng)建大量的文件,DataNode 進(jìn)程會(huì)恰當(dāng)?shù)囊宰陨淼男枨髣?dòng)態(tài)創(chuàng)建子目錄及決定不同目錄下適合的文件量,這樣可能會(huì)使所有文件不在同一個(gè)目錄下。當(dāng)啟動(dòng) DataNode 進(jìn)程時(shí),Hadoop 會(huì)首先掃描本地文件系統(tǒng),生成對(duì)應(yīng)的 HDFS 塊列表,發(fā)送給 NameNode 主節(jié)點(diǎn)。DataNode 通過心跳檢測(cè)機(jī)制與 NameNode 保持通信,定期向?qū)⒆约寒?dāng)前的狀態(tài)的信息匯報(bào)給NameNode,以便 NameNode 更好的對(duì)資源進(jìn)行管理及調(diào)配[25]。2.2.2 MapReduce 框架MapReduce 是 Hadoop 中數(shù)據(jù)計(jì)算處理的核心部分,主要用于對(duì)體積龐大的數(shù)據(jù)集進(jìn)行并行計(jì)算處理[26]。其基本原理是將需處理的大數(shù)據(jù)集按設(shè)置的大小切
【參考文獻(xiàn)】
相關(guān)期刊論文 前8條
1 林子雨;李雨倩;李粲;賴永炫;;PipelineJoin:一種新的基于MapReduce的多表連接算法[J];中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào);2015年10期
2 許耀桐;;決策公開是高端的政務(wù)公開[J];中國(guó)行政管理;2015年07期
3 宋杰;李甜甜;朱志良;鮑玉斌;于戈;;MapReduce連接查詢的I/O代價(jià)研究[J];軟件學(xué)報(bào);2015年06期
4 胡龍;羅軍;;基于MapReduce的混合連接算法[J];計(jì)算機(jī)與現(xiàn)代化;2015年06期
5 駱文亮;;繪圖插件Highcharts淺析[J];科技視界;2014年12期
6 Li ZHAO;Chuanfu CHEN;;Understanding trust-related factors affecting citizen adoption of e-government services[J];Chinese Journal of Library and Information Science;2013年03期
7 羅恩韜;胡志剛;林華;;一種大數(shù)據(jù)時(shí)代海量數(shù)據(jù)抽取的開發(fā)模型研究[J];計(jì)算機(jī)應(yīng)用研究;2013年11期
8 朱黎明;;初探經(jīng)濟(jì)效益審計(jì)在民營(yíng)企業(yè)的開展[J];財(cái)經(jīng)界(學(xué)術(shù)版);2009年10期
相關(guān)博士學(xué)位論文 前1條
1 張常淳;基于MapReduce的大數(shù)據(jù)連接算法的設(shè)計(jì)與優(yōu)化[D];中國(guó)科學(xué)技術(shù)大學(xué);2014年
相關(guān)碩士學(xué)位論文 前9條
1 岳明亮;基于Hadoop的多表連接操作查詢優(yōu)化關(guān)鍵技術(shù)研究[D];哈爾濱工業(yè)大學(xué);2016年
2 李松;基于Hadoop的分布式網(wǎng)絡(luò)爬蟲研究[D];電子科技大學(xué);2016年
3 柳陸;分布式內(nèi)存數(shù)據(jù)庫數(shù)據(jù)并行快速加載與索引技術(shù)[D];電子科技大學(xué);2016年
4 陳慈;基于多核的Ramsey數(shù)算法研究[D];北京交通大學(xué);2015年
5 張瑜;多源安全數(shù)據(jù)可視化關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D];重慶大學(xué);2015年
6 馬翠云;基于HBase的大規(guī)模數(shù)據(jù)存儲(chǔ)解決方案的設(shè)計(jì)和實(shí)現(xiàn)[D];山東大學(xué);2015年
7 孫菁霞;基于Bitmap的隱超點(diǎn)檢測(cè)算法研究[D];大連海事大學(xué);2013年
8 劉沖;MapReduce作業(yè)調(diào)度算法研究[D];哈爾濱工程大學(xué);2013年
9 劉明剛;MapReduce故障容錯(cuò)研究與作業(yè)調(diào)度器優(yōu)化[D];杭州電子科技大學(xué);2013年
本文編號(hào):2772760
本文鏈接:http://www.sikaile.net/guanlilunwen/zhengwuguanli/2772760.html