基于Hive的物流數(shù)據(jù)倉庫研究與實現(xiàn)
本文關(guān)鍵詞:基于Hive的物流數(shù)據(jù)倉庫研究與實現(xiàn),由筆耕文化傳播整理發(fā)布。
【摘要】:近年來,隨著大數(shù)據(jù)技術(shù)的發(fā)展和應(yīng)用,Hadoop已經(jīng)得到學術(shù)界和工業(yè)界的廣泛認可。Hive作為構(gòu)建于Hadoop集群之上的開源數(shù)據(jù)倉庫應(yīng)用,具備模式自由、高可擴展性和高容錯性的特點,能夠很好地滿足企業(yè)級數(shù)據(jù)倉庫的需求。因此,越來越多的物流企業(yè)開始考慮如何利用Hive數(shù)據(jù)倉庫帶來的優(yōu)勢,完善自身的信息化建設(shè)。本文以某物流信息系統(tǒng)軟件公司(以下稱DK公司)的智慧物流大數(shù)據(jù)平臺項目為背景,在充分研究物流公司業(yè)務(wù)需求的基礎(chǔ)上,對基于Hive的物流數(shù)據(jù)倉庫進行了總體架構(gòu)設(shè)計,同時選擇了開發(fā)語言,并分析了實現(xiàn)方法。針對物流企業(yè)數(shù)據(jù)倉庫擴展性不好、運行自動化程度不高、處理大規(guī)模數(shù)據(jù)效果較差等問題,在對基于Hive的物流數(shù)據(jù)倉庫進行分析和設(shè)計的基礎(chǔ)上,本文提出物流數(shù)據(jù)倉庫的具體實現(xiàn)方案,該數(shù)據(jù)倉庫結(jié)合高校云平臺虛擬化技術(shù),能夠提供高可擴展性。另外,數(shù)據(jù)倉庫的數(shù)據(jù)抽取轉(zhuǎn)換加載過程和數(shù)據(jù)查詢分析處理過程能夠滿足自動化需求,不需要任何人工干預(yù)。并且利用MapReduce并行計算的優(yōu)勢,能夠很好地支持大規(guī)模物流數(shù)據(jù)的處理。本文首先對國內(nèi)外現(xiàn)狀和大數(shù)據(jù)相關(guān)技術(shù)進行介紹,主要對比了Hive數(shù)據(jù)倉庫和關(guān)系型數(shù)據(jù)庫,研究了Hive數(shù)據(jù)倉庫的優(yōu)缺點,并提出其適用場景。然后,以DK公司智慧物流大數(shù)據(jù)平臺項目為背景,對基于Hive的物流數(shù)據(jù)倉庫進行需求分析和系統(tǒng)架構(gòu)設(shè)計,提出實現(xiàn)該數(shù)據(jù)倉庫的技術(shù)方案。進而基于學校云平臺,部署了Hadoop、Sqoop和Hive環(huán)境,搭建了基于虛擬化技術(shù)的大數(shù)據(jù)處理平臺,同時,基于此平臺,從數(shù)據(jù)ETL和數(shù)據(jù)查詢分析處理兩方面實現(xiàn)了基于Hive的物流數(shù)據(jù)倉庫,包括數(shù)據(jù)倉庫的可擴展性研究、自動化多線程ETL腳本編寫及其最佳線程數(shù)研究、Hive數(shù)據(jù)存儲分析、Hive數(shù)據(jù)前置處理、查詢分析處理、后置處理腳本實現(xiàn)。最后通過Hive數(shù)據(jù)倉庫運行效果,評估了本項目的價值,從不同業(yè)務(wù)角度證明了該系統(tǒng)能夠很好地支持企業(yè)管理層決策。
【關(guān)鍵詞】:智慧物流大數(shù)據(jù)平臺 Hive數(shù)據(jù)倉庫 ETL 查詢分析
【學位授予單位】:東華大學
【學位級別】:碩士
【學位授予年份】:2016
【分類號】:TP311.13
【目錄】:
- 摘要4-6
- ABSTRACT6-9
- 1 緒論9-16
- 1.1 選題背景和意義9-10
- 1.2 國內(nèi)外研究現(xiàn)狀10-11
- 1.3 研究內(nèi)容11-14
- 1.4 論文組織結(jié)構(gòu)14-16
- 2 相關(guān)技術(shù)16-30
- 2.1 Hadoop16-17
- 2.2 傳統(tǒng)數(shù)據(jù)倉庫17-20
- 2.3 Hive數(shù)據(jù)倉庫20-26
- 2.4 Sqoop26-28
- 2.5 數(shù)據(jù)ETL28-29
- 2.6 本章小結(jié)29-30
- 3 基于Hive的物流數(shù)據(jù)倉庫分析與設(shè)計30-42
- 3.1 需求整理30-34
- 3.1.1 功能性需求30-33
- 3.1.2 非功能性需求33-34
- 3.2 系統(tǒng)設(shè)計34-36
- 3.2.1 總體架構(gòu)設(shè)計34-35
- 3.2.2 開發(fā)語言選擇35-36
- 3.3 技術(shù)方案36-41
- 3.3.0 數(shù)據(jù)處理平臺36-37
- 3.3.1 數(shù)據(jù)ETL37
- 3.3.2 數(shù)據(jù)存儲37-39
- 3.3.3 前置處理39-40
- 3.3.4 查詢分析處理40
- 3.3.5 后置處理40-41
- 3.3.6 Web設(shè)計41
- 3.4 本章小結(jié)41-42
- 4 基于Hive的物流數(shù)據(jù)倉庫實現(xiàn)42-68
- 4.1 基于虛擬化的大數(shù)據(jù)平臺搭建42-54
- 4.1.1 Hadoop集群搭建42-49
- 4.1.2 Hive環(huán)境部署49-51
- 4.1.3 Sqoop環(huán)境部署51-53
- 4.1.4 數(shù)據(jù)倉庫擴展53-54
- 4.2 數(shù)據(jù)ETL自動化54-59
- 4.2.1 多線程ETL自動化54-57
- 4.2.2 ETL最佳線程數(shù)研究57-59
- 4.3 數(shù)據(jù)處理實現(xiàn)59-64
- 4.3.1 前置處理59-61
- 4.3.2 查詢分析處理61-63
- 4.3.3 后置處理63-64
- 4.4 Web應(yīng)用64-67
- 4.5 本章小結(jié)67-68
- 5 基于Hive的物流數(shù)據(jù)倉庫運行68-77
- 5.1 Hive數(shù)據(jù)倉庫運行68-70
- 5.1.1 ETL過程監(jiān)控68-69
- 5.1.2 數(shù)據(jù)處理過程監(jiān)控69-70
- 5.2 Web展示70-76
- 5.2.1 面單全程分析71
- 5.2.2 面單妥投分析71-74
- 5.2.3 掃描流量分析74
- 5.2.4 網(wǎng)點吞吐分析74-75
- 5.2.5 流向時效分析75-76
- 5.2.6 快遞財務(wù)看板76
- 5.3 本章小結(jié)76-77
- 6 總結(jié)與展望77-79
- 6.1 總結(jié)77
- 6.2 展望77-79
- 參考文獻79-81
- 攻讀碩士期間發(fā)表的論文81-82
- 致謝82
【參考文獻】
中國期刊全文數(shù)據(jù)庫 前10條
1 馮強;鄭垂勇;;商業(yè)智能技術(shù)在物流企業(yè)數(shù)據(jù)倉庫設(shè)計中的應(yīng)用[J];物流技術(shù);2015年14期
2 王緩緩;郭敬義;張警燦;余肖生;;基于Hadoop的數(shù)據(jù)倉庫構(gòu)建模式研究[J];重慶理工大學學報(自然科學);2015年07期
3 孔曉華;;OLAP技術(shù)在進口圖書數(shù)據(jù)分析中的應(yīng)用研究[J];電子科學技術(shù);2015年04期
4 吳明禮;張宏安;李也白;;基于Hadoop的高性能數(shù)據(jù)倉庫建設(shè)研究[J];信息與電腦(理論版);2015年09期
5 于鵑;;數(shù)據(jù)倉庫與大數(shù)據(jù)融合的探討[J];電信科學;2015年03期
6 鄭柏恒;孟文;易東;梁曉波;;在Hadoop集群下的智能電網(wǎng)數(shù)據(jù)云倉庫設(shè)計[J];制造業(yè)自動化;2014年19期
7 黃永勤;;國外大數(shù)據(jù)研究熱點及發(fā)展趨勢探析[J];情報雜志;2014年06期
8 王德文;肖凱;肖磊;;基于Hive的電力設(shè)備狀態(tài)信息數(shù)據(jù)倉庫[J];電力系統(tǒng)保護與控制;2013年09期
9 孟小峰;慈祥;;大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J];計算機研究與發(fā)展;2013年01期
10 牛瑞瑞;;一種基于數(shù)據(jù)倉庫的物流系統(tǒng)構(gòu)建研究[J];信息與電腦(理論版);2012年11期
中國碩士學位論文全文數(shù)據(jù)庫 前10條
1 盧偉濤;海量數(shù)據(jù)分析平臺中數(shù)據(jù)交換模塊的研究和實現(xiàn)[D];北京郵電大學;2015年
2 張京一;基于Hadoop的Web查詢平臺的權(quán)限控制與性能優(yōu)化模塊[D];北京郵電大學;2015年
3 胡靖楓;商務(wù)智能在企業(yè)物流決策中的應(yīng)用研究[D];浙江理工大學;2015年
4 費仕憶;Hadoop大數(shù)據(jù)平臺與傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作研究[D];東華大學;2014年
5 王玉梅;T公司物流管理信息系統(tǒng)的方案設(shè)計[D];大連海事大學;2014年
6 黃佳;并行ETL工具可擴展技術(shù)的研究和開發(fā)[D];北京郵電大學;2014年
7 吳娟;一個視頻網(wǎng)站數(shù)據(jù)統(tǒng)計系統(tǒng)的設(shè)計與實現(xiàn)[D];南京大學;2012年
8 肖之慰;面向多核集群的層次化MapReduce模型的設(shè)計與實現(xiàn)[D];復旦大學;2012年
9 賈文娟;基于hive分布式計算與數(shù)據(jù)挖掘的關(guān)聯(lián)性營銷的設(shè)計與實現(xiàn)[D];北京交通大學;2011年
10 葉文宸;基于hive的性能優(yōu)化方法的研究與實踐[D];南京大學;2011年
本文關(guān)鍵詞:基于Hive的物流數(shù)據(jù)倉庫研究與實現(xiàn),,由筆耕文化傳播整理發(fā)布。
本文編號:424964
本文鏈接:http://www.sikaile.net/kejilunwen/ruanjiangongchenglunwen/424964.html