大數(shù)據(jù)處理綜述_大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)綜述,由筆耕文化傳播整理發(fā)布。
大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
次
分享:
導(dǎo)讀:就愛(ài)閱讀網(wǎng)友為您分享以下“大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述”的資訊,希望對(duì)您有所幫助,感謝您對(duì)92to.com的支持!
河南工程學(xué)院《工程數(shù)據(jù)分析與應(yīng)用》
考查課課程作業(yè)
大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
學(xué)生姓名: 學(xué)院:管理工程學(xué)院
專(zhuān)業(yè)班級(jí): 專(zhuān)業(yè)課程:工程數(shù)據(jù)分析與應(yīng)用
任課教師:
2016年5月15日
目錄
一、大數(shù)據(jù)生態(tài)系統(tǒng)概念、組成 ........................................................................ 1
(一)大數(shù)據(jù)生態(tài)系統(tǒng)的提出 .................................................................... 1
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組成結(jié)構(gòu) ............................................................ 2
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建措施 ............................................................ 2
(四)大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建 ................................................................ 3
(五)大數(shù)據(jù)生態(tài)分析技術(shù) ........................................................................ 4
1.5.1 大數(shù)據(jù)生態(tài)分析技術(shù)的機(jī)遇與挑戰(zhàn) .......................................... 4
1.5.2 如何對(duì)異構(gòu)數(shù)據(jù)的處理 .............................................................. 5
1.5.3 大數(shù)據(jù)分析和處理技術(shù)的發(fā)展 .................................................. 6
1.5.4 大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建 .......................................................... 6
二、大數(shù)據(jù)處理及分析理論、方法、技術(shù) ........................................................ 9
(一)大數(shù)據(jù)處理及分析建設(shè)的過(guò)程 ........................................................ 9
(二)大數(shù)據(jù)處理分析的基本理論 .......................................................... 10
(三)大數(shù)據(jù)處理及分析的方向 .............................................................. 10
(四)大數(shù)據(jù)處理及分析的方法 .............................................................. 12
(五)大數(shù)據(jù)處理的過(guò)程 .......................................................................... 12
(六)大數(shù)據(jù)處理的技術(shù) .......................................................................... 13
(七)大數(shù)據(jù)處理及分析的意義 .............................................................. 14
(八)大數(shù)據(jù)處理及分析的發(fā)展趨勢(shì) ...................................................... 14
三、大數(shù)據(jù)處理系統(tǒng)架構(gòu)及技術(shù) ...................................................................... 16
(一)從分類(lèi)大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案 .......................................... 17
(二)依據(jù)大數(shù)據(jù)類(lèi)型對(duì)業(yè)務(wù)問(wèn)題進(jìn)行分類(lèi) .......................................... 17
(三)數(shù)據(jù)分析平臺(tái)架構(gòu) .......................................................................... 20
(四)面對(duì)大數(shù)據(jù)OLAP分析的一些問(wèn)題 ............................................. 21
四、大數(shù)據(jù)可視化理論及技術(shù) .......................................................................... 24
(一)大數(shù)據(jù)可視分析綜述 ...................................................................... 24
(二)大數(shù)據(jù)分析工具 .............................................................................. 24
4.2.1Hadoop ......................................................................................... 25
4.2.2HPCC ........................................................................................... 25
4.2.3Storm ............................................................................................ 26
4.2.4ApacheDrill .................................................................................. 27
4.2.5RapidMiner .................................................................................. 27
4.2.6PentahoBI ..................................................................................... 28
(三)數(shù)據(jù)化可視化分析綜述 .................................................................. 28
4.3.1信息可視化、人機(jī)交互、可視分析的基本概念 ..................... 28
4.3.2支持可視分析的基礎(chǔ)理論 ......................................................... 29
4.3.3面向大數(shù)據(jù)主流應(yīng)用的信息可視化技術(shù) ................................. 29
4.3.4支持可視分析的人機(jī)交互技術(shù) ................................................. 30
(四)數(shù)據(jù)可視化的問(wèn)題與挑戰(zhàn) .............................................................. 31
五、大數(shù)據(jù)應(yīng)用及職業(yè)定位 .............................................................................. 33
(一)大數(shù)據(jù)應(yīng)用 ...................................................................................... 33
5.1 面向在線社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用 ............................................... 34
5.2 醫(yī)療健康大數(shù)據(jù)應(yīng)用 ................................................................... 35
5.3 群智感知大數(shù)據(jù)的應(yīng)用 ............................................................... 36
5.4 智能電網(wǎng)大數(shù)據(jù)的應(yīng)用 ............................................................... 37
5.5 大數(shù)據(jù)在能源行業(yè)的應(yīng)用 ........................................................... 38
5.6 大數(shù)據(jù)在通信行業(yè)的應(yīng)用 ........................................................... 38
5.7大數(shù)據(jù)在零售業(yè)的應(yīng)用 ................................................................ 38
5.8大數(shù)據(jù)在生態(tài)環(huán)境應(yīng)用 ................................................................ 39
5.9大數(shù)據(jù)在工業(yè)污染監(jiān)控中的應(yīng)用 ................................................ 40
(二)大數(shù)據(jù)下的職業(yè)定位 ...................................................................... 41
六、大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜組成及 .............................................................. 42
(一)大數(shù)據(jù)的生態(tài)發(fā)展 .......................................................................... 42
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組建 .................................................................. 44
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的內(nèi)涵 .................................................................. 46
(四)大數(shù)據(jù)生態(tài)系統(tǒng)的重新審視 .......................................................... 47
6.4.1產(chǎn)業(yè)環(huán)境:行業(yè)融合與細(xì)分協(xié)同演化 ..................................... 47
6.4.2運(yùn)營(yíng)模式:基于“大數(shù)據(jù)”的協(xié)同運(yùn)作 ................................. 48
(五)大數(shù)據(jù)生態(tài)系統(tǒng)資源的多元化 ...................................................... 49
(六)大數(shù)據(jù)生態(tài)系統(tǒng)的個(gè)性化精準(zhǔn)細(xì)分 .............................................. 50
(七)大數(shù)據(jù)生態(tài)系統(tǒng)的演化 .................................................................. 51
(八)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建策略 .......................................................... 53
6.8.1構(gòu)筑以“大數(shù)據(jù)”為核心資源的企業(yè)生態(tài)系統(tǒng)商業(yè)模式 ..... 53
6.8.2暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道 ......................................... 54
6.8.3創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動(dòng)流程 ................. 54
6.8.4構(gòu)建精確的客戶關(guān)系管理系統(tǒng) ................................................. 55
6.8.5培育以“大數(shù)據(jù)”處理和應(yīng)用為中心的企業(yè)生態(tài)系統(tǒng)文化 . 55
(九)大數(shù)據(jù)分析系統(tǒng)架構(gòu)之探討 .......................................................... 56
6.9.1 Hadoop生態(tài)圈 ........................................................................... 56
6.9.2 Spark生態(tài)圈 .............................................................................. 58
七、結(jié)論 .............................................................................................................. 61
參考文獻(xiàn) .............................................................................................................. 63
大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜綜述
摘要:大樹(shù)據(jù)時(shí)代已經(jīng)到來(lái),人們對(duì)于大數(shù)據(jù)對(duì)整個(gè)社會(huì)所起到的推動(dòng)作用已經(jīng)逐步認(rèn)識(shí)到,但大數(shù)據(jù)的應(yīng)用需要整個(gè)系統(tǒng)的運(yùn)作,需要數(shù)據(jù)的獲取渠道,數(shù)據(jù)的分析工具,數(shù)據(jù)分享的平臺(tái),數(shù)據(jù)分析人員等。因此,大數(shù)據(jù)要得以應(yīng)用發(fā)展,必須建立大數(shù)據(jù)生態(tài)系統(tǒng)。隨著大數(shù)據(jù)相關(guān)企業(yè)的迅速崛起以及社會(huì)對(duì)大數(shù)據(jù)信息的需求推動(dòng),大數(shù)據(jù)產(chǎn)業(yè)正在逐步形成一個(gè)完整的體系,從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)輸出的全過(guò)程,各個(gè)環(huán)節(jié)環(huán)環(huán)相扣,這一過(guò)程稱之為大數(shù)據(jù)生態(tài)系統(tǒng)。本文系統(tǒng)地描述了在大數(shù)據(jù)的系統(tǒng)建設(shè)中的各種理論概念及系統(tǒng)的介紹。
關(guān)鍵字:大數(shù)據(jù) 生態(tài)系統(tǒng) 綜述
Abstract:Tree era has arrived, and for big data is contribute to society as a whole has been recognized, but big data applications require operation of the entire system, requires data access, data analysis tools, data-sharing platform, data analysts, and so on. Therefore, large data to application development, we must build big data ecosystem. With the data related to the rapid rise and society's demand for data, big data industry is gradually formed a complete system, from the data to the data output of the whole process, all aspects of itself, this process is called data ecosystem. Paper describes data systems in the construction of a number of theoretical concepts and systems are introduced.
Keywords: big dataecosystemsummarize
一、大數(shù)據(jù)生態(tài)系統(tǒng)概念、組成
(一)大數(shù)據(jù)生態(tài)系統(tǒng)的提出
大樹(shù)據(jù)時(shí)代已經(jīng)到來(lái),人們對(duì)于大數(shù)據(jù)對(duì)整個(gè)社會(huì)所起到的推動(dòng)作用已經(jīng)逐步認(rèn)識(shí)到,但大數(shù)據(jù)的應(yīng)用需要整個(gè)系統(tǒng)的運(yùn)作,需要數(shù)據(jù)的獲取渠道,數(shù)據(jù)的
分析工具,數(shù)據(jù)分享的平臺(tái),數(shù)據(jù)分析人員等。因此,大數(shù)據(jù)要得以應(yīng)用發(fā)展,必須建立大數(shù)據(jù)生態(tài)系統(tǒng)。隨著大數(shù)據(jù)相關(guān)企業(yè)的迅速崛起以及社會(huì)對(duì)大數(shù)據(jù)信息的需求推動(dòng),大數(shù)據(jù)產(chǎn)業(yè)正在逐步形成一個(gè)完整的體系,從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)輸出的全過(guò)程,各個(gè)環(huán)節(jié)環(huán)環(huán)相扣,這一過(guò)程稱之為大數(shù)據(jù)生態(tài)系統(tǒng)。IBM架構(gòu)師對(duì)大數(shù)據(jù)生態(tài)系統(tǒng)進(jìn)行了簡(jiǎn)單描述,提出大數(shù)據(jù)生態(tài)系統(tǒng)就是數(shù)據(jù)的生命周期,即數(shù)據(jù)采集、存儲(chǔ)、查找、分析和可視化的過(guò)程。
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組成結(jié)構(gòu)
CTOCTO發(fā)布的大數(shù)據(jù)生態(tài)圖譜"將數(shù)百家大數(shù)據(jù)公司和IT企業(yè)從產(chǎn)品和商業(yè)模式劃分為2種,從中我們可以看到大數(shù)據(jù)的生態(tài)結(jié)構(gòu),以及其中各個(gè)環(huán)節(jié)的發(fā)展?fàn)顩r和市場(chǎng)熱點(diǎn))從圖譜上來(lái)看,大數(shù)據(jù)產(chǎn)業(yè)可以劃分為*大類(lèi):大數(shù)據(jù)基礎(chǔ)設(shè)施&大數(shù)據(jù)分析類(lèi)&大數(shù)據(jù)應(yīng)用類(lèi)&大數(shù)據(jù)數(shù)據(jù)源類(lèi)&跨基礎(chǔ)設(shè)施分析&開(kāi)源軟。大數(shù)據(jù)的概念目前被炒得非;鸨,但大數(shù)據(jù)應(yīng)用還不甚成熟,大數(shù)據(jù)市場(chǎng)仍處于初級(jí)階段,但大量的創(chuàng)業(yè)者已經(jīng)涌入其中,不少企業(yè)經(jīng)歷了失敗,但也有不少企業(yè)取得了可觀的成果。在競(jìng)爭(zhēng)過(guò)程中,市場(chǎng)在逐步走向整合,IT巨頭在現(xiàn)階段已經(jīng)開(kāi)始了收購(gòu)大戰(zhàn),市場(chǎng)在競(jìng)爭(zhēng)中,逐步走向成熟,大數(shù)據(jù)的價(jià)值即將接受實(shí)踐的檢驗(yàn)。
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建措施
大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建對(duì)于企業(yè)的未來(lái)發(fā)展具有決定性的作用,未來(lái)市場(chǎng)競(jìng)爭(zhēng)將更趨于信息化科學(xué)化,企業(yè)決策將依靠大量的量化信息。當(dāng)然要建立大數(shù)據(jù)生態(tài)系統(tǒng)需要耗費(fèi)企業(yè)大量的資源,由于目前技術(shù)還不是很穩(wěn)定,整個(gè)社會(huì)的數(shù)據(jù)環(huán)境還不甚好,企業(yè)構(gòu)建大數(shù)據(jù)生態(tài)系統(tǒng)存在較大的風(fēng)險(xiǎn))但提前做好準(zhǔn)備,為未來(lái)搭建一個(gè)堅(jiān)實(shí)的基礎(chǔ)是很有必要的。首先,要培養(yǎng)企業(yè)的數(shù)據(jù)文化,建立數(shù)據(jù)思維模式,充分理解數(shù)據(jù)作為一種資源對(duì)企業(yè)的重要性。從發(fā)現(xiàn)問(wèn)題,查找數(shù)據(jù),解決問(wèn)題的思維,逐步轉(zhuǎn)向使用數(shù)據(jù)進(jìn)行預(yù)測(cè),找出最優(yōu)實(shí)現(xiàn)方案的思維模式。
其次,開(kāi)拓企業(yè)數(shù)據(jù)獲取渠道,隨著大數(shù)據(jù)時(shí)代到來(lái),企業(yè)需要收集的數(shù)據(jù)類(lèi)型將不再局限于關(guān)系型數(shù)據(jù),更多的是非結(jié)構(gòu)化的數(shù)據(jù),例如電子商務(wù)網(wǎng)站、
網(wǎng)上銀行和外部社交媒體網(wǎng)站等。將各種渠道的數(shù)據(jù)進(jìn)行整合,突破傳統(tǒng)數(shù)據(jù)壁壘,構(gòu)建企業(yè)全面的數(shù)據(jù)信息視圖)最后,加強(qiáng)對(duì)數(shù)據(jù)資源的管理,數(shù)據(jù)作為企業(yè)的資產(chǎn),應(yīng)對(duì)其進(jìn)行維護(hù),管理大師湯姆彼得斯曾說(shuō)過(guò):一個(gè)組織如果沒(méi)有認(rèn)識(shí)到管理數(shù)據(jù)和信息如同管理有形資產(chǎn)一樣重要,那么它在新經(jīng)濟(jì)時(shí)代將無(wú)法生存。因此,對(duì)于數(shù)據(jù)的管理,應(yīng)與資產(chǎn)管理一樣,能夠做到確認(rèn)、計(jì)量、記錄、歸檔、銷(xiāo)毀。對(duì)于數(shù)據(jù)資源的確認(rèn)首先要對(duì)數(shù)據(jù)資產(chǎn)作出明確的定義及其確認(rèn)標(biāo)準(zhǔn),符合確認(rèn)條件的數(shù)據(jù)資源是能夠引起經(jīng)濟(jì)利益流入的資產(chǎn),在滿足資產(chǎn)的一般定義的情況下,同時(shí)要結(jié)合數(shù)據(jù)資源自身的特征。其次,數(shù)據(jù)資源的確認(rèn)要進(jìn)一步細(xì)化,對(duì)其進(jìn)行歸類(lèi),分類(lèi)的標(biāo)準(zhǔn)多種多樣,比如依據(jù)數(shù)據(jù)描述的對(duì)象進(jìn)行初步分類(lèi),之后再按照關(guān)系密切程度進(jìn)一步分類(lèi)等等?傊,按照企業(yè)的業(yè)務(wù)需要,對(duì)數(shù)據(jù)資源在確認(rèn)的基礎(chǔ)上,進(jìn)一步分類(lèi),既有利于企業(yè)的數(shù)據(jù)資源的管理和核算,而且可以提高使用效率。數(shù)據(jù)資源的計(jì)量是數(shù)據(jù)作為資產(chǎn)所必不可少的一步,對(duì)此企業(yè)可建立自身的價(jià)值評(píng)估體系,對(duì)數(shù)據(jù)的價(jià)值加以衡量。另外,信息技術(shù)的發(fā)展為大數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)帶來(lái)了廣闊的前景。大數(shù)據(jù)生態(tài)系統(tǒng)構(gòu)建過(guò)程中,一大難題是基礎(chǔ)設(shè)施的高投資額,這使得企業(yè)不得不考慮大數(shù)據(jù)生態(tài)能夠?yàn)槠髽I(yè)帶來(lái)多大的收益,然而目前大數(shù)據(jù)的應(yīng)用還在初級(jí)階段,前景還不是很明朗的情況下,企業(yè)只能駐足觀望。然而云計(jì)算的發(fā)展,以及與此相關(guān)的云服務(wù)產(chǎn)業(yè)為這一難題的解決帶來(lái)了極大的可能性。云服務(wù)包括三個(gè)層級(jí)的服務(wù),基礎(chǔ)設(shè)施服務(wù)、軟件研發(fā)平臺(tái)服務(wù)、租用基于web的軟件服務(wù),云服務(wù)為未來(lái)大數(shù)據(jù)技術(shù)的應(yīng)用提供了一種渠道,通過(guò)云服務(wù)可以節(jié)省大量的資金,降低企業(yè)風(fēng)險(xiǎn),提高使用效率。對(duì)于小型企業(yè),通過(guò)云服務(wù)可以在大數(shù)據(jù)時(shí)代獲取更大的利益。
(四)大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建
隨著大數(shù)據(jù)和分析在企業(yè)應(yīng)用的深入,面臨的問(wèn)題和挑戰(zhàn)也越來(lái)越多,主要有如下方面:第一,對(duì)大數(shù)據(jù)和分析平臺(tái)的企業(yè)級(jí)應(yīng)用的可靠性、穩(wěn)定性、安全性要求會(huì)越來(lái)越高;第二,大多數(shù)企業(yè)級(jí)用戶都面對(duì)著極為復(fù)雜的行業(yè)應(yīng)用場(chǎng)景,不同類(lèi)型和來(lái)源的數(shù)據(jù)需要統(tǒng)一地被利用,在系統(tǒng)較多的企業(yè)中,如何對(duì)數(shù)據(jù)進(jìn)行集成管理是很大的問(wèn)題,特別是新的大數(shù)據(jù)方案如何與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)無(wú)縫集成;第三,大多數(shù)企業(yè)級(jí)客戶還處于對(duì)大數(shù)據(jù)和分析的探索初期,對(duì)于新問(wèn)題的
初判和解決經(jīng)驗(yàn)不足。
對(duì)于企業(yè)來(lái)說(shuō),隨著系統(tǒng)的復(fù)雜性上升,最為迫切也是最為重要的問(wèn)題是,如何將不同來(lái)源、不同結(jié)構(gòu)的數(shù)據(jù)通過(guò)系統(tǒng)整合到一個(gè)平臺(tái)。在這個(gè)平臺(tái)上,全面涵蓋大數(shù)據(jù)和分析的各個(gè)應(yīng)用,采用統(tǒng)一架構(gòu),集成到一個(gè)系統(tǒng)。在這個(gè)系統(tǒng)上,建立全面覆蓋各種復(fù)雜行業(yè)應(yīng)用場(chǎng)景的企業(yè)級(jí)大數(shù)據(jù)和分析應(yīng)用解決方案,如靜態(tài)批量大數(shù)據(jù)處理、實(shí)時(shí)大數(shù)據(jù)業(yè)務(wù)處理、數(shù)據(jù)倉(cāng)庫(kù)整合和數(shù)據(jù)集市構(gòu)建等,對(duì)于這些大量異構(gòu)數(shù)據(jù)系統(tǒng),整合的標(biāo)準(zhǔn)是一個(gè)非常關(guān)鍵的問(wèn)題。同時(shí)企業(yè)又在不斷發(fā)展,未來(lái)要部署包括電商、移動(dòng)商務(wù)、社交網(wǎng)絡(luò)等新的應(yīng)用,都需要在這個(gè)統(tǒng)一的平臺(tái)上展開(kāi)。以上所有的應(yīng)用,構(gòu)成了一個(gè)大數(shù)據(jù)的生態(tài)系統(tǒng)。
(五)大數(shù)據(jù)生態(tài)分析技術(shù)
1.5.1大數(shù)據(jù)生態(tài)分析技術(shù)的機(jī)遇與挑戰(zhàn)
快速捕獲即時(shí)數(shù)據(jù),創(chuàng)造高速價(jià)值大數(shù)據(jù)最大的特點(diǎn)是數(shù)據(jù)的產(chǎn)生速度非?,每時(shí)每秒可以產(chǎn)生很多的數(shù)據(jù)。例如,每分鐘facebook上的視頻就可以多產(chǎn)生390萬(wàn)部,大數(shù)據(jù)的產(chǎn)生速度是不可想象的。據(jù)調(diào)查,53%的高管表示大部分關(guān)鍵信息無(wú)法及時(shí)獲得,獲取信息的速度越快,采取行動(dòng)的速度也就越快,快速行動(dòng)創(chuàng)造的價(jià)值越高,數(shù)據(jù)的使用和分析效率真高,企業(yè)為實(shí)現(xiàn)卓越的運(yùn)營(yíng),需要快速捕獲高速運(yùn)轉(zhuǎn)。行中的大數(shù)據(jù),更加迅速地計(jì)算分析數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)為信息,信息轉(zhuǎn)為洞察,實(shí)時(shí)推進(jìn)業(yè)務(wù)措施,立即采取行動(dòng),從而提升企業(yè)競(jìng)爭(zhēng)力。在這里還有一點(diǎn),當(dāng)企業(yè)捕獲的數(shù)據(jù)越來(lái)越多,需要分析的數(shù)據(jù)量越多,需要對(duì)數(shù)據(jù)進(jìn)行評(píng)判,這個(gè)數(shù)據(jù)的重要性是怎樣的,有的時(shí)候需要評(píng)判這個(gè)數(shù)據(jù)的價(jià)值是多少。通過(guò)更智能的方法,對(duì)數(shù)據(jù)加以篩選,對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)的判斷,提煉出有價(jià)值的數(shù)據(jù),最終將高速數(shù)據(jù)轉(zhuǎn)化為高速價(jià)值,體驗(yàn)即時(shí)數(shù)據(jù)以及數(shù)據(jù)處理給我們帶來(lái)的便捷,進(jìn)而實(shí)現(xiàn)實(shí)時(shí)大數(shù)據(jù)的美好前景,如圖1所示:
圖1.1: 大數(shù)據(jù)業(yè)務(wù)價(jià)值與響應(yīng)時(shí)間關(guān)系
1.5.2如何對(duì)異構(gòu)數(shù)據(jù)的處理
當(dāng)今企業(yè)在發(fā)展中積累的新信息來(lái)源越來(lái)越廣泛,企業(yè)應(yīng)用不再是唯一的信息來(lái)源,數(shù)據(jù)來(lái)源還可以來(lái)自傳感器,有的是來(lái)自網(wǎng)絡(luò)線上交易,有的是來(lái)自消費(fèi)者行為,有的是來(lái)自智能手機(jī)或者是移動(dòng)設(shè)備,這些設(shè)備變得日益智能化和互聯(lián),智能設(shè)備將從2013年的13億部增長(zhǎng)至2020年的125億部,非結(jié)構(gòu)化數(shù)據(jù)將超出傳統(tǒng)數(shù)據(jù)多個(gè)數(shù)量級(jí)?傮w來(lái)說(shuō)數(shù)據(jù)來(lái)源可以分為人為生成、互聯(lián)網(wǎng)/云生成、機(jī)器生成這幾種類(lèi)型,這些不同源頭的數(shù)據(jù)的格式也不一樣,我們必須用有效的方式高速捕獲、組織和分析。對(duì)于那些已經(jīng)規(guī)模較大,系統(tǒng)環(huán)境高度異構(gòu)的企業(yè)而言,數(shù)據(jù)越來(lái)越發(fā)揮其重要資產(chǎn)的作用,如何在架構(gòu)整合方面有所舉措,從全局的角度促進(jìn)數(shù)據(jù)整合,將不同來(lái)源、不同類(lèi)型的數(shù)據(jù)整合到一起同,對(duì)數(shù)據(jù)搜集、管理、分析與挖掘等領(lǐng)域都對(duì)技術(shù)與系統(tǒng)提出了更高的要求,使得數(shù)據(jù)能夠?yàn)槠髽I(yè)所用。以前,數(shù)據(jù)都是分散在各個(gè)業(yè)務(wù)系統(tǒng),在大數(shù)據(jù)時(shí)代,企業(yè)需要考慮如何打破系統(tǒng)的邊界,把不同來(lái)源的數(shù)據(jù)整合在一起,企業(yè)不僅關(guān)注外部數(shù)據(jù)源對(duì)企業(yè)的價(jià)值,也需要關(guān)注消費(fèi)者的情緒如何、對(duì)企業(yè)的評(píng)價(jià)如何,互聯(lián)網(wǎng)、微博等就是很好的信息獲取渠道,怎樣把結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)整合,怎樣把微信、微博等非結(jié)構(gòu)化數(shù)據(jù)植入商務(wù)分析,將虛擬數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)結(jié)合起來(lái),這些外部數(shù)據(jù)源對(duì)企業(yè)也具有十分重要的意義。如何整合架構(gòu),將異構(gòu)數(shù)據(jù)整合到一個(gè)系統(tǒng),并在此基礎(chǔ)上,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)和分析系統(tǒng)的一體化,加
速并分析大數(shù)據(jù),滿足企業(yè)的實(shí)時(shí)業(yè)務(wù)需求和分析需求,是目前亟待解決的技術(shù)難題。
1.5.3 大數(shù)據(jù)分析和處理技術(shù)的發(fā)展
正因?yàn)榇髷?shù)據(jù)所呈現(xiàn)的新的特點(diǎn)(4V),大數(shù)據(jù)的意義并不僅僅在于“容量之大”,其更大的意義在于通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行整合和分析,發(fā)現(xiàn)新知識(shí),創(chuàng)造新價(jià)值。傳統(tǒng)的數(shù)據(jù)分析方法和工具已不適應(yīng)大數(shù)據(jù)的管理,大數(shù)據(jù)不同于普通的數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘和商業(yè)智能分析,如沒(méi)有恰當(dāng)?shù)拇髷?shù)據(jù)分析工具,大數(shù)據(jù)將無(wú)法發(fā)揮其價(jià)值。大數(shù)據(jù)多樣、高速、海量的特點(diǎn)從各個(gè)領(lǐng)域推動(dòng)著行業(yè)的技術(shù)創(chuàng)新,給數(shù)據(jù)的抓取、存儲(chǔ)和分析帶來(lái)了新的挑戰(zhàn),工具、開(kāi)源以及框架設(shè)施對(duì)于大數(shù)據(jù)行業(yè)來(lái)說(shuō)非常重要,開(kāi)源包括軟件和硬件的開(kāi)源。當(dāng)前,較為成熟的技術(shù)是通過(guò)采用分布式計(jì)算模式實(shí)現(xiàn),如當(dāng)前IT業(yè)的巨頭(如谷歌等)MapReduce的云計(jì)算模型以及Hadoop的開(kāi)源方案。Hadoop已經(jīng)成為新的主流范式,而十幾年前用的軟件開(kāi)發(fā)范式已經(jīng)不適用了。之前幾年的軟件開(kāi)發(fā)范式只適合處理結(jié)構(gòu)化的數(shù)據(jù),面對(duì)非結(jié)構(gòu)化的數(shù)據(jù),Hadoop是主流。Hadoop有一個(gè)有效的框架,可以處理非結(jié)構(gòu)的數(shù)據(jù),尤其是處理分布式數(shù)據(jù)。其中,Hadoop是一種分布式系統(tǒng)的平臺(tái),通過(guò)它可以很輕松地搭建一個(gè)高效、高質(zhì)量的分布系統(tǒng),有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。Hadoop在可伸縮性、健壯性、計(jì)算性能和成本上具有無(wú)可替代的優(yōu)勢(shì),事實(shí)上已成為當(dāng)前互聯(lián)網(wǎng)企業(yè)主流的大數(shù)據(jù)分析平臺(tái)。MapReduce是Hadoop的核心組件之一,可以通過(guò)MapReduce很容易在Hadoop平臺(tái)上進(jìn)行分布式的計(jì)算編程。
1.5.4 大數(shù)據(jù)處理生態(tài)系統(tǒng)構(gòu)建
隨著大數(shù)據(jù)和分析在企業(yè)應(yīng)用的深入,面臨的問(wèn)題和挑戰(zhàn)也越來(lái)越多,主要有如下方面:
第一,對(duì)大數(shù)據(jù)和分析平臺(tái)的企業(yè)級(jí)應(yīng)用的可靠性、穩(wěn)定性、安全性要求會(huì)越來(lái)越高
第二,大多數(shù)企業(yè)級(jí)用戶都面對(duì)著極為復(fù)雜的行業(yè)應(yīng)用場(chǎng)景,不同類(lèi)型和來(lái)源的數(shù)據(jù)需要統(tǒng)一地被利用,在系統(tǒng)較多的企業(yè)中,如何對(duì)數(shù)據(jù)進(jìn)行集成管理是
很大的問(wèn)題,特別是新的大數(shù)據(jù)方案如何與傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)無(wú)縫集成;
第三,大多數(shù)企業(yè)級(jí)客戶還處于對(duì)大數(shù)據(jù)和分析的探索初期,對(duì)于新問(wèn)題的初判和解決經(jīng)驗(yàn)不足。
對(duì)于企業(yè)來(lái)說(shuō),隨著系統(tǒng)的復(fù)雜性上升,最為迫切也是最為重要的問(wèn)題是,如何將不同來(lái)源、不同結(jié)構(gòu)的數(shù)據(jù)通過(guò)系統(tǒng)整合到一個(gè)平臺(tái)。在這個(gè)平臺(tái)上,全面涵蓋大數(shù)據(jù)和分析的各個(gè)應(yīng)用,采用統(tǒng)一架構(gòu),集成到一個(gè)系統(tǒng)。在這個(gè)系統(tǒng)上,建立全面覆蓋各種復(fù)雜行業(yè)應(yīng)用場(chǎng)景的企業(yè)級(jí)大數(shù)據(jù)和分析應(yīng)用解決方案,如靜態(tài)批量大數(shù)據(jù)處理、實(shí)時(shí)大數(shù)據(jù)業(yè)務(wù)處理、數(shù)據(jù)倉(cāng)庫(kù)整合和數(shù)據(jù)集市構(gòu)建等,對(duì)于這些大量異構(gòu)數(shù)據(jù)系統(tǒng),整合的標(biāo)準(zhǔn)是一個(gè)非常關(guān)鍵的問(wèn)題。同時(shí)企業(yè)又在不斷發(fā)展,未來(lái)要部署包括電商、移動(dòng)商務(wù)、社交網(wǎng)絡(luò)等新的應(yīng)用,都需要在這個(gè)統(tǒng)一的平臺(tái)上展開(kāi)。以上所有的應(yīng)用,構(gòu)成了一個(gè)大數(shù)據(jù)的生態(tài)系統(tǒng)。這個(gè)生態(tài)系統(tǒng)應(yīng)具備以下特點(diǎn),如圖2所示:
最新
數(shù)據(jù),實(shí)時(shí)
捕獲
無(wú)需準(zhǔn)備數(shù)據(jù),無(wú)需預(yù)先聚合,無(wú)需調(diào) 優(yōu)
圖1.2:大數(shù)據(jù)生態(tài)系統(tǒng)特點(diǎn)
(1) 高度整合的實(shí)時(shí)數(shù)據(jù)平臺(tái)
對(duì)于現(xiàn)代企業(yè)來(lái)說(shuō),隨著業(yè)務(wù)應(yīng)用范圍的廣泛深入、企業(yè)積累的數(shù)據(jù)類(lèi)型越來(lái)越多,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),交易數(shù)據(jù)與非交易數(shù)據(jù),
數(shù)據(jù)量呈幾何級(jí)
次激增,甚至達(dá)到Z、Y級(jí),如何高效地捕獲和分析這些大數(shù)據(jù),是企業(yè)廣泛關(guān)注的事情,企業(yè)亟需一個(gè)平臺(tái),可以捕獲和管理大數(shù)據(jù)的所有維度,整合數(shù)據(jù)孤島,將不同來(lái)源、不同類(lèi)型的數(shù)據(jù)庫(kù),通過(guò)整合的開(kāi)發(fā)環(huán)境,在技術(shù)架構(gòu)基礎(chǔ)上,通過(guò)單一系統(tǒng)實(shí)現(xiàn)大數(shù)據(jù)并行計(jì)算列式平臺(tái)管理把ERP的業(yè)務(wù)數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)整合到一個(gè)系統(tǒng),直接在整個(gè)數(shù)據(jù)平臺(tái)建模、計(jì)算、分析、預(yù)測(cè),再借助BI進(jìn)行圖形化展示。所有可使用數(shù)據(jù)的人,實(shí)時(shí)獲得分析結(jié)果,如財(cái)務(wù)數(shù)據(jù),你只需用自然語(yǔ)言輸入查詢條件,系統(tǒng)提供實(shí)時(shí)解決方案,像花瓣一樣呈現(xiàn)。在這樣的平臺(tái),能夠快速、高效地捕獲并整合海量多元化的任意數(shù)據(jù),實(shí)現(xiàn)快速分析處理海量信息,實(shí)時(shí)進(jìn)行商業(yè)決策,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)和分析系統(tǒng)的一體化,能夠同時(shí)滿足企業(yè)的實(shí)時(shí)業(yè)務(wù)需求和分析需求,不但降低了企業(yè)對(duì)服務(wù)器等硬件的需求,還減少了數(shù)據(jù)從業(yè)務(wù)系統(tǒng)到分析系統(tǒng)過(guò)程中所需的數(shù)據(jù)抽取、清洗等操作,大大提高了效率。
(2)基于云的生態(tài)系統(tǒng)構(gòu)建
2012年是中國(guó)的大數(shù)據(jù)元年,云計(jì)算概念的爭(zhēng)論漸漸平息,而大數(shù)據(jù)的熱潮隨之到來(lái)。隨著大數(shù)據(jù)的到來(lái),大家對(duì)云計(jì)算的“中國(guó)夢(mèng)”開(kāi)始有了更清晰的認(rèn)識(shí),云計(jì)算如何落地為雨,成為2013年中國(guó)云計(jì)算的主旋律。對(duì)于大部分企業(yè)而言,“云計(jì)算之旅”都將是一場(chǎng)速度與耐力的較量,關(guān)鍵是部署的靈活性。如何在整個(gè)價(jià)值鏈中獲得出色競(jìng)爭(zhēng)優(yōu)勢(shì),快速分析數(shù)據(jù),發(fā)現(xiàn)并響應(yīng)業(yè)務(wù)網(wǎng)絡(luò)中的各種變化,借助廣泛的托管功能選擇,從高度安全的環(huán)境和云技術(shù)的經(jīng)濟(jì)優(yōu)勢(shì)中獲益,是每個(gè)企業(yè)所要達(dá)到的理想效果。
大數(shù)據(jù)時(shí)代,云計(jì)算所發(fā)揮的主要作用是為大數(shù)據(jù)提供按需服務(wù),主要體現(xiàn)在云存儲(chǔ)、云計(jì)算、私用云、公有云的服務(wù)方面,將云共享的思想應(yīng)用于企業(yè),主要有有幾種主要方式,其中一種就是嵌入式企業(yè)原有平臺(tái)的OEM方式,包括移動(dòng)平臺(tái)、商務(wù)分析平臺(tái)和數(shù)據(jù)庫(kù)平臺(tái)等。另一種方式是托管私有云服務(wù)的方式,那就是構(gòu)建一個(gè)充滿活力的生態(tài)系統(tǒng),為企業(yè)提供選擇上的自由,既可以選擇在企業(yè)本地來(lái)搭建這個(gè)平臺(tái),也可以享受在云端來(lái)實(shí)現(xiàn)這個(gè)服務(wù),實(shí)現(xiàn)從本地向云端的遷移。充分利用與企業(yè)原有的ERP核心系統(tǒng)的無(wú)縫集成,又能夠與企業(yè)其他來(lái)源、其他類(lèi)型的數(shù)據(jù)、其他系統(tǒng)如BI、ETL和備份工具的集成,實(shí)現(xiàn)更廣泛的用戶支持、數(shù)據(jù)尋源以及對(duì)現(xiàn)有投資的再利用,以達(dá)到協(xié)同、共同參與、分享的
目的,有效實(shí)現(xiàn)數(shù)據(jù)分析處理中“溫?cái)?shù)據(jù)”到“熱數(shù)據(jù)”的瞬間響應(yīng),從而幫助其客戶獲取實(shí)時(shí)、精準(zhǔn)的數(shù)據(jù)分析,把握瞬息萬(wàn)變的市場(chǎng)動(dòng)態(tài),獲取商機(jī)。所構(gòu)建的生態(tài)系統(tǒng)不僅僅是數(shù)據(jù)庫(kù),而是創(chuàng)新的基于云框架的計(jì)算平臺(tái),具有出色的云靈活性,支持自動(dòng)配置計(jì)算資源,簡(jiǎn)化日常管理,將突破傳統(tǒng)的游戲規(guī)則,它從數(shù)據(jù)到?jīng)Q策覆蓋了整個(gè)企業(yè)的業(yè)務(wù)流程。這樣一個(gè)生態(tài)系統(tǒng),應(yīng)基于開(kāi)放式標(biāo)準(zhǔn),提供安全可靠、易于使用的開(kāi)發(fā)和運(yùn)行環(huán)境。它所具備的能力主要有:加速在線交易處理,同時(shí)可以作為數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行海量數(shù)據(jù)分析;既能夠加速傳統(tǒng)的關(guān)系型數(shù)據(jù),又能連接外部的Hadoop做非結(jié)構(gòu)化數(shù)據(jù)處理,它將是一個(gè)“全能”平臺(tái),將企業(yè)日常的數(shù)據(jù)需求全部集中在一個(gè)生態(tài)系統(tǒng)中,企業(yè)可以根據(jù)自己的需求,個(gè)性化地選擇,比如,可以任意選擇各種類(lèi)型的業(yè)務(wù)應(yīng)用和數(shù)據(jù)處理,做交易用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),運(yùn)行報(bào)表應(yīng)用企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)(EDW),處理大數(shù)據(jù)用NoSQL或者Hadoop,在這樣一個(gè)大而全的生態(tài)平臺(tái),可以實(shí)現(xiàn)簡(jiǎn)化的IT架構(gòu),即想即得,企業(yè)將高效地應(yīng)用諸多大數(shù)據(jù)技術(shù)手段,諸如分布式計(jì)算、并行處理、實(shí)時(shí)計(jì)算、高級(jí)分析與決策、數(shù)據(jù)可視化,進(jìn)而實(shí)時(shí)獲取答案,幫助企業(yè)快速獲取洞察力,助力企業(yè)轉(zhuǎn)型與發(fā)展,重塑無(wú)限可能。
二、大數(shù)據(jù)處理及分析理論、方法、技術(shù)
(一)大數(shù)據(jù)處理及分析建設(shè)的過(guò)程 隨著數(shù)據(jù)的越來(lái)越多,如何在這些海量的數(shù)據(jù)中找出我們需要的信息變得尤其重要,而這也是大數(shù)據(jù)的產(chǎn)生和發(fā)展原因,那么究竟什么是大數(shù)據(jù)呢?當(dāng)下我國(guó)大數(shù)據(jù)研發(fā)建設(shè)又有哪些方面著力呢?
一是建立一套運(yùn)行機(jī)制。大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過(guò)程中各個(gè)環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)合,搞好頂層設(shè)計(jì)。
二是規(guī)范一套建設(shè)標(biāo)準(zhǔn)。沒(méi)有標(biāo)準(zhǔn)就沒(méi)有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個(gè)領(lǐng)域、不斷動(dòng)態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實(shí)現(xiàn)各級(jí)各類(lèi)信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。
9
三是搭建一個(gè)共享平臺(tái)。數(shù)據(jù)只有不斷流動(dòng)和充分共享,才有生命力。應(yīng)在各專(zhuān)用數(shù)據(jù)庫(kù)建設(shè)的基礎(chǔ)上,通過(guò)數(shù)據(jù)集成,實(shí)現(xiàn)各級(jí)各類(lèi)指揮信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。
四是培養(yǎng)一支專(zhuān)業(yè)隊(duì)伍。大數(shù)據(jù)建設(shè)的每個(gè)環(huán)節(jié)都需要依靠專(zhuān)業(yè)人員完成,因此,必須培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專(zhuān)業(yè)隊(duì)伍。
(二)大數(shù)據(jù)處理分析的基本理論
圖2.1:大數(shù)據(jù)特征概括為5個(gè)V
(三)大數(shù)據(jù)處理及分析的方向
眾所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。
10
那么越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素;谌绱说恼J(rèn)識(shí),大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?
表2.1:數(shù)據(jù)分析的五個(gè)方面 可視化
分析 數(shù)據(jù)挖掘耍法 預(yù)測(cè)語(yǔ)義數(shù)據(jù)質(zhì)量與數(shù)據(jù)管理 性分析能引擎
力
大數(shù)據(jù) 大數(shù)據(jù)分析的大數(shù) 大大數(shù)據(jù)分分析的使用理論核心就是數(shù)據(jù)挖據(jù)分析最數(shù)據(jù)分析析離不開(kāi)數(shù)據(jù)者有大數(shù)據(jù)掘算法,各種數(shù)據(jù)挖終要的應(yīng)廣泛應(yīng)用質(zhì)量和數(shù)據(jù)管分析專(zhuān)家,同掘的算法基于不同的用領(lǐng)域之于網(wǎng)絡(luò)數(shù)理,高質(zhì)量的數(shù)時(shí)還有普通數(shù)據(jù)類(lèi)型和格式才能一就是預(yù)據(jù)挖掘,可據(jù)和有效的數(shù)用戶,但是他更加科學(xué)的呈現(xiàn)出數(shù)測(cè)性分從用戶的據(jù)管理,無(wú)論是們二者對(duì)于據(jù)本身具備的特點(diǎn),析,從大搜索關(guān)鍵在學(xué)術(shù)研究還大數(shù)據(jù)分析也正是因?yàn)檫@些被全數(shù)據(jù)中挖詞、標(biāo)簽關(guān)是在商業(yè)應(yīng)用最基本的要世界統(tǒng)計(jì)學(xué)家所公認(rèn)掘出特鍵詞、或其領(lǐng)域,都能夠保求就是可視的各種統(tǒng)計(jì)方法(可點(diǎn),通過(guò)他輸入語(yǔ)證分析結(jié)果的化分析,因?yàn)橐苑Q之為真理)才能科學(xué)的建義,分析,真實(shí)和有價(jià)值?梢暬治錾钊霐(shù)據(jù)內(nèi)部,挖掘立模型,判斷用戶大數(shù)據(jù)分析的能夠直觀的出公認(rèn)的價(jià)值。另外之后便可需求,從而基礎(chǔ)就是以上呈現(xiàn)大數(shù)據(jù)一個(gè)方面也是因?yàn)橛幸酝ㄟ^(guò)模實(shí)現(xiàn)更好五個(gè)方面,當(dāng)然特點(diǎn),同時(shí)能這些數(shù)據(jù)挖掘的算法型帶入新的用戶體更加深入大數(shù)夠非常容易才能更快速的處理大的數(shù)據(jù),驗(yàn)和廣告據(jù)分析的話,還被讀者所接數(shù)據(jù),如果一個(gè)算法從而預(yù)測(cè)匹配。
受,就如同看得花上好幾年才能得未來(lái)的數(shù)
圖說(shuō)話一樣出結(jié)論,那大數(shù)據(jù)的據(jù)。
簡(jiǎn)單明了。 價(jià)值也就無(wú)從說(shuō)起
了。
11
有很多很多更加有特點(diǎn)的、更加深入的、更加專(zhuān)業(yè)的大數(shù)據(jù)分析方法。
(四)大數(shù)據(jù)處理及分析的方法
越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素。
(五)大數(shù)據(jù)處理的過(guò)程
大數(shù)據(jù)處理數(shù)據(jù)時(shí)代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實(shí)有很多,但是根據(jù)長(zhǎng)時(shí)間的實(shí)踐,筆者總結(jié)了一個(gè)基本的大數(shù)據(jù)處理流程,并且這個(gè)流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,以及挖掘。
1.采集
大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端的數(shù)據(jù),并且用戶可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。
2.統(tǒng)計(jì)/分析
統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總等,以滿足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。
3.導(dǎo)入/預(yù)處理
雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿足
12
部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。
4.挖掘
與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類(lèi)的K-Means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類(lèi)的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線程為主。
(六)大數(shù)據(jù)處理的技術(shù) 數(shù)據(jù)采集:ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)如關(guān)系數(shù)據(jù)、平面數(shù)據(jù)文件等抽取到臨時(shí)中間層后進(jìn)行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ)。
數(shù)據(jù)存。宏P(guān)系數(shù)據(jù)庫(kù)、NOSQL、SQL等。
基礎(chǔ)架構(gòu):云存儲(chǔ)、分布式文件存儲(chǔ)等。
數(shù)據(jù)處理:自然語(yǔ)言處理是研究人與計(jì)算機(jī)交互的語(yǔ)言問(wèn)題的一門(mén)學(xué)科。處理自然語(yǔ)言的關(guān)鍵是要讓計(jì)算機(jī)"理解"自然語(yǔ)言,所以自然語(yǔ)言處理又叫做自然語(yǔ)言理解,也稱為計(jì)算語(yǔ)言學(xué)。一方面它是語(yǔ)言信息處理的一個(gè)分支,另一方面它是人工智能的核心課題之一。
統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、差異分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn)單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)與殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類(lèi)分析、主成分分析、因子分析、快速聚類(lèi)法與聚類(lèi)法、判別分析、對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析)、bootstrap技術(shù)等等。
數(shù)據(jù)挖掘:分類(lèi)、估計(jì)、預(yù)測(cè)、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚類(lèi)、描述和可視化、、復(fù)雜數(shù)據(jù)類(lèi)型挖掘(Text,Web,圖形圖像,視頻,音頻等)
模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。
結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。
(七)大數(shù)據(jù)處理及分析的意義 大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Bigdata)也吸引了越來(lái)越多的關(guān)注!吨婆_(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Bigdata)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
(八)大數(shù)據(jù)處理及分析的發(fā)展趨勢(shì)
隨著數(shù)據(jù)的增多,人民對(duì)大數(shù)據(jù)的信息需求也在不斷地增加,而大數(shù)據(jù)的未來(lái)發(fā)展趨勢(shì)更人人民所關(guān)心,故未來(lái)的數(shù)據(jù)發(fā)展正在朝著以下的幾個(gè)趨勢(shì)發(fā)展。
圖2.2:大數(shù)據(jù)的發(fā)展趨勢(shì)圖
何為資源化,是指大數(shù)據(jù)成為企業(yè)和社會(huì)關(guān)注的重要戰(zhàn)略資源,并已成為大家爭(zhēng)相搶奪的新焦點(diǎn)。因而,企業(yè)必須要提前制定大數(shù)據(jù)營(yíng)銷(xiāo)戰(zhàn)略計(jì)劃,搶占市場(chǎng)先機(jī)。
大數(shù)據(jù)離不開(kāi)云處理,云處理為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是產(chǎn)生大數(shù)據(jù)的平臺(tái)之一。自2013年開(kāi)始,大數(shù)據(jù)技術(shù)已開(kāi)始和云計(jì)算技術(shù)緊密結(jié)合,預(yù)計(jì)未來(lái)兩者關(guān)系將更為密切。除此之外,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新興計(jì)算形態(tài),也將一齊助力大數(shù)據(jù)革命,讓大數(shù)據(jù)營(yíng)銷(xiāo)發(fā)揮出更大的影響力。
隨著大數(shù)據(jù)的快速發(fā)展,就像計(jì)算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)很有可能是新一輪的技術(shù)革命。隨之興起的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和人工智能等相關(guān)技術(shù),可能會(huì)改變數(shù)據(jù)世界里的很多算法和基礎(chǔ)理論,實(shí)現(xiàn)科學(xué)技術(shù)上的突破。
未來(lái),數(shù)據(jù)科學(xué)將成為一門(mén)專(zhuān)門(mén)的學(xué)科,被越來(lái)越多的人所認(rèn)知。各大高校將設(shè)立專(zhuān)門(mén)的數(shù)據(jù)科學(xué)類(lèi)專(zhuān)業(yè),也會(huì)催生一批與之相關(guān)的新的就業(yè)崗位。與此同時(shí),基于數(shù)據(jù)這個(gè)基礎(chǔ)平臺(tái),也將建立起跨領(lǐng)域的數(shù)據(jù)共享平臺(tái),之后,數(shù)據(jù)共享將擴(kuò)展到企業(yè)層面,并且成為未來(lái)產(chǎn)業(yè)的核心一環(huán)。
未來(lái)幾年數(shù)據(jù)泄露事件的增長(zhǎng)率也許會(huì)達(dá)到100%,除非數(shù)據(jù)在其源頭就能夠得到安全保障?梢哉f(shuō),在未來(lái),每個(gè)財(cái)富500強(qiáng)企業(yè)都會(huì)面臨數(shù)據(jù)攻擊,無(wú)論他們是否已經(jīng)做好安全防范。而所有企業(yè),無(wú)論規(guī)模大小,都需要重新審視今天的安全定義。在財(cái)富500強(qiáng)企業(yè)中,超過(guò)50%將會(huì)設(shè)置首席信息安全官這一職位。企業(yè)需要從新的角度來(lái)確保自身以及客戶數(shù)據(jù),所有數(shù)據(jù)在創(chuàng)建之初便需要獲得安全保障,而并非在數(shù)據(jù)保存的最后一個(gè)環(huán)節(jié),僅僅加強(qiáng)后者的安全措施已被證明于事無(wú)補(bǔ)。
數(shù)據(jù)管理成為核心競(jìng)爭(zhēng)力,直接影響財(cái)務(wù)表現(xiàn)。當(dāng)“數(shù)據(jù)資產(chǎn)是企業(yè)核心資產(chǎn)”的概念深入人心之后,企業(yè)對(duì)于數(shù)據(jù)管理便有了更清晰的界定,將數(shù)據(jù)管理作為企業(yè)核心競(jìng)爭(zhēng)力,持續(xù)發(fā)展,戰(zhàn)略性規(guī)劃與運(yùn)用數(shù)據(jù)資產(chǎn),成為企業(yè)數(shù)據(jù)管理的核心。數(shù)據(jù)資產(chǎn)管理效率與主營(yíng)業(yè)務(wù)收入增長(zhǎng)率、銷(xiāo)售收入增長(zhǎng)率顯著正相關(guān);此外,對(duì)于具有互聯(lián)網(wǎng)思維的企業(yè)而言,數(shù)據(jù)資產(chǎn)競(jìng)爭(zhēng)力所占比重為36.8%,數(shù)據(jù)資產(chǎn)的管理效果將直接影響企業(yè)的財(cái)務(wù)表現(xiàn)。
采用自助式商業(yè)智能工具進(jìn)行大數(shù)據(jù)處理的企業(yè)將會(huì)脫穎而出。其中要面臨的一個(gè)挑戰(zhàn)是,很多數(shù)據(jù)源會(huì)帶來(lái)大量低質(zhì)量數(shù)據(jù)。想要成功,企業(yè)需要理解原始數(shù)據(jù)與數(shù)據(jù)分析之間的差距,從而消除低質(zhì)量數(shù)據(jù)并通過(guò)BI獲得更佳決策。
三、大數(shù)據(jù)處理系統(tǒng)架構(gòu)及技術(shù)
大數(shù)據(jù)可通過(guò)許多方式來(lái)存儲(chǔ)、獲取、處理和分析。每個(gè)大數(shù)據(jù)來(lái)源都有不同的特征,包括數(shù)據(jù)的頻率、量、速度、類(lèi)型和真實(shí)性。處理并存儲(chǔ)大數(shù)據(jù)時(shí),會(huì)涉及到更多維度,比如治理、安全性和策略。選擇一種架構(gòu)并構(gòu)建合適的大數(shù)據(jù)解決方案極具挑戰(zhàn),因?yàn)樾枰紤]非常多的因素。
這個(gè)“大數(shù)據(jù)架構(gòu)和模式”系列提供了一種結(jié)構(gòu)化和基于模式的方法來(lái)簡(jiǎn)化定義完整的大數(shù)據(jù)架構(gòu)的任務(wù)。因?yàn)樵u(píng)估一個(gè)業(yè)務(wù)場(chǎng)景是否存在大數(shù)據(jù)問(wèn)題很重要,所以我們包含了一些線索來(lái)幫助確定哪些業(yè)務(wù)問(wèn)題適合采用大數(shù)據(jù)解決方案。
(一)從分類(lèi)大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案
如果我們花時(shí)間研究過(guò)大數(shù)據(jù)解決方案,那么就一定知道它不是一個(gè)簡(jiǎn)單的任務(wù)。我們首先介紹術(shù)語(yǔ)“大數(shù)據(jù)”所描述的數(shù)據(jù)類(lèi)型。為了簡(jiǎn)化各種大數(shù)據(jù)類(lèi)型的復(fù)雜性,我們依據(jù)各種參數(shù)對(duì)大數(shù)據(jù)進(jìn)行了分類(lèi),為任何大數(shù)據(jù)解決方案中涉及的各層和高級(jí)組件提供一個(gè)邏輯架構(gòu)。接下來(lái),我們通過(guò)定義原子和復(fù)合分類(lèi)模式,提出一種結(jié)構(gòu)來(lái)分類(lèi)大數(shù)據(jù)業(yè)務(wù)問(wèn)題。這些模式有助于確定要應(yīng)用的合適的解決方案模式。我們提供了來(lái)自各行各業(yè)的示例業(yè)務(wù)問(wèn)題。
(二)依據(jù)大數(shù)據(jù)類(lèi)型對(duì)業(yè)務(wù)問(wèn)題進(jìn)行分類(lèi)
業(yè)務(wù)問(wèn)題可分類(lèi)為不同的大數(shù)據(jù)問(wèn)題類(lèi)型。以后,我們將使用此類(lèi)型確定合適的分類(lèi)模式(原子或復(fù)合)和合適的大數(shù)據(jù)解決方案。但第一步是將業(yè)務(wù)問(wèn)題映射到它的大數(shù)據(jù)類(lèi)型。下表列出了常見(jiàn)的業(yè)務(wù)問(wèn)題并為每個(gè)問(wèn)題分配了一種大數(shù)據(jù)類(lèi)型。
表3.1:不同類(lèi)型的大數(shù)據(jù)業(yè)務(wù)問(wèn)題
業(yè)務(wù)問(wèn)題 大數(shù)據(jù)問(wèn)題 描述
客戶情緒必須與客戶概要數(shù)據(jù)相集成,才能得到有意義的
結(jié)果。依據(jù)客戶的人口統(tǒng)計(jì)特征,客戶反饋可能有所不同。
IT部門(mén)正在依靠大數(shù)據(jù)解決方案來(lái)分析應(yīng)用程序日志,客戶服以便獲取可提高系統(tǒng)性能的洞察。來(lái)自各種應(yīng)用程序供應(yīng)務(wù):呼叫人類(lèi)生成的 商的日志文件具有不同的格式;必須將它們標(biāo)準(zhǔn)化,然后監(jiān)視 IT部門(mén)才能使用它們。
零售:基
于面部識(shí)Web和社交
別和社交數(shù)據(jù)
媒體的個(gè)生物識(shí)別
性化消息 零售商可結(jié)合使用面部識(shí)別技術(shù)和來(lái)自社交媒體的照片,根據(jù)購(gòu)買(mǎi)行為和位置向客戶提供個(gè)性化的營(yíng)銷(xiāo)信息。 此功能對(duì)零售商忠誠(chéng)度計(jì)劃具有很大的影響,但它具有嚴(yán)格的隱私限制。零售商需要在實(shí)現(xiàn)這些應(yīng)用程序之前進(jìn)行適當(dāng)?shù)碾[私披露。
零售商可根據(jù)位置數(shù)據(jù)為客戶提供特定的促銷(xiāo)活動(dòng)和優(yōu)零售和營(yíng)惠券。解決方案通常旨在在用戶進(jìn)入一個(gè)店鋪時(shí)檢測(cè)用戶銷(xiāo):移動(dòng)機(jī)器生成的的位置,或者通過(guò)GPS檢測(cè)用戶的位置。 數(shù)據(jù)和基數(shù)據(jù) 位置數(shù)據(jù)與來(lái)自社交網(wǎng)絡(luò)的客戶偏好數(shù)據(jù)相結(jié)合,使零售于位置的交易數(shù)據(jù) 商能夠根據(jù)購(gòu)買(mǎi)歷史記錄針對(duì)性地開(kāi)展在線和店內(nèi)營(yíng)銷(xiāo)目標(biāo) 活動(dòng)。通知是通過(guò)移動(dòng)應(yīng)用程序、SMS和電子郵件提供的。
欺詐管理可預(yù)測(cè)給定交易或客戶帳戶遇到欺詐的可能性。
解決方案可實(shí)時(shí)分析事務(wù),生成建議的立即執(zhí)行的措施,
這對(duì)阻止第三方欺詐、第一方欺詐和對(duì)帳戶特權(quán)的蓄意濫
用至關(guān)重要。
解決方案通常旨在檢測(cè)和阻止多個(gè)行業(yè)的眾多欺詐和風(fēng)
險(xiǎn)類(lèi)型,其中包括:
機(jī)器生成的信用卡和借記卡欺詐 FSS、醫(yī)療數(shù)據(jù) 存款帳戶欺詐 保健:欺交易數(shù)據(jù) 技術(shù)欺詐 詐檢測(cè) 人類(lèi)生成的 壞賬
醫(yī)療欺詐
醫(yī)療補(bǔ)助計(jì)劃和醫(yī)療保險(xiǎn)欺詐
財(cái)產(chǎn)和災(zāi)害保險(xiǎn)欺詐
工傷賠償欺詐
保險(xiǎn)欺詐
電信欺詐
按類(lèi)型對(duì)大數(shù)據(jù)問(wèn)題分類(lèi),更容易看到每種數(shù)據(jù)的特征。這些特征可幫助我們了解如何獲取數(shù)據(jù),如何將它處理為合適的格式,以及新數(shù)據(jù)出現(xiàn)的頻率。來(lái)自不同來(lái)源的數(shù)據(jù)具有不同的特征;例如,社交媒體數(shù)據(jù)包含不斷傳入的視頻、圖像和非結(jié)構(gòu)化文本(比如博客文章)。
使用大數(shù)據(jù)類(lèi)型對(duì)大數(shù)據(jù)特征進(jìn)行分類(lèi)。按特定方向分析大數(shù)據(jù)的特征會(huì)有所幫助,例如以下特征:數(shù)據(jù)如何收集、分析和處理。對(duì)數(shù)據(jù)進(jìn)行分類(lèi)后,就可以將它與合適的大數(shù)據(jù)模式匹配。
分析類(lèi)型對(duì)數(shù)據(jù)執(zhí)行實(shí)時(shí)分析還是批量分析。請(qǐng)仔細(xì)考慮分析類(lèi)型的選擇,因?yàn)檫@會(huì)影響一些有關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預(yù)期的數(shù)據(jù)頻率的其他決策。一些用例可能需要混合使用兩種類(lèi)型:欺詐檢測(cè)、分析必須實(shí)時(shí)或近實(shí)時(shí)地完成。針對(duì)戰(zhàn)略性業(yè)務(wù)決策的趨勢(shì)分析,分析可采用批量模式。
處理方法要應(yīng)用來(lái)處理數(shù)據(jù)的技術(shù)類(lèi)型(比如預(yù)測(cè)、分析、臨時(shí)查詢和報(bào)告)。業(yè)務(wù)需求確定了合適的處理方法?山Y(jié)合使用各種技術(shù)。處理方法的選擇,有助于識(shí)別要在您的大數(shù)據(jù)解決方案中使用的合適的工具和技術(shù)。
數(shù)據(jù)頻率和大小—預(yù)計(jì)有多少數(shù)據(jù)和數(shù)據(jù)到達(dá)的頻率多高。知道頻率和大小,有助于確定存儲(chǔ)機(jī)制、存儲(chǔ)格式和所需的預(yù)處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源。按需分析,與社交媒體數(shù)據(jù)一樣,實(shí)時(shí)、持續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù)時(shí)序。數(shù)據(jù)類(lèi)型、要處理數(shù)據(jù)類(lèi)型、交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類(lèi)型,有助于將數(shù)據(jù)隔離在存儲(chǔ)中。
內(nèi)容格式結(jié)構(gòu)化、非結(jié)構(gòu)化或半結(jié)構(gòu)化。格式確定了需要如何處理傳入的數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)角度定義解決方案的關(guān)鍵。
數(shù)據(jù)源--數(shù)據(jù)的來(lái),比如Web和社交媒體、機(jī)器生成、人類(lèi)生成等。識(shí)別所有數(shù)據(jù)源有助于從業(yè)務(wù)角度識(shí)別數(shù)據(jù)范圍。該圖顯示了使用最廣泛的數(shù)據(jù)源。
數(shù)據(jù)使用者—處理的數(shù)據(jù)的所有可能使用者的列表:
圖3.1:處理的數(shù)據(jù)的所有可能使用者
硬件將在其上實(shí)現(xiàn)大數(shù)據(jù)解決方案的硬件類(lèi)型,包括商用硬件或最先進(jìn)的硬件。理解硬件的限制,有助于指導(dǎo)大數(shù)據(jù)解決方案的選擇。
圖3.2描繪用于分類(lèi)大數(shù)據(jù)的各種類(lèi)別。定義大數(shù)據(jù)模式的關(guān)鍵類(lèi)別已識(shí)別并在藍(lán)色方框中突出顯示。大數(shù)據(jù)模式來(lái)自這些類(lèi)別的組合。
圖3.2:大數(shù)據(jù)分類(lèi)
(三)數(shù)據(jù)分析平臺(tái)架構(gòu)
隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,誰(shuí)也無(wú)法否認(rèn),我們已經(jīng)切實(shí)地迎來(lái)了一個(gè)海量數(shù)據(jù)的時(shí)代,數(shù)據(jù)調(diào)查公司IDC預(yù)計(jì)2011年的數(shù)據(jù)總量將達(dá)到
1.8萬(wàn)億GB,對(duì)這些海量數(shù)據(jù)的分析已經(jīng)成為一個(gè)非常重要且緊迫的需求。作為一家互聯(lián)網(wǎng)數(shù)據(jù)分析公司,我們?cè)诤A繑?shù)據(jù)的分析領(lǐng)域那真是被“逼上梁山”。多年來(lái)在嚴(yán)苛的業(yè)務(wù)需求和數(shù)據(jù)壓力下,我們幾乎嘗試了所有可能的大數(shù)據(jù)分析方法,最終落地于Hadoop平臺(tái)之上。Hadoop在可伸縮性、健壯性、計(jì)算性能和成本上具有無(wú)可替代的優(yōu)勢(shì),事實(shí)上已成為當(dāng)前互聯(lián)網(wǎng)企業(yè)主流的大數(shù)據(jù)分析平臺(tái)。本文主要介紹一種基于Hadoop平臺(tái)的多維分析和數(shù)據(jù)挖掘平臺(tái)架構(gòu)。
3.3.1 大數(shù)據(jù)分析的分類(lèi)
Hadoop平臺(tái)對(duì)業(yè)務(wù)的針對(duì)性較強(qiáng),為了讓你明確它是否符合你的業(yè)務(wù),現(xiàn)粗略地從幾個(gè)角度將大數(shù)據(jù)分析的業(yè)務(wù)需求分類(lèi),針對(duì)不同的具體需求,應(yīng)采用不同的數(shù)據(jù)分析架構(gòu)。
(1)按照數(shù)據(jù)分析的實(shí)時(shí)性,分為實(shí)時(shí)數(shù)據(jù)分析和離線數(shù)據(jù)分析兩種。實(shí)時(shí)數(shù)據(jù)分析一般用于金融、移動(dòng)和互聯(lián)網(wǎng)B2C等產(chǎn)品,往往要求在數(shù)秒內(nèi)返回上億行數(shù)據(jù)的分析,從而達(dá)到不影響用戶體驗(yàn)的目的。要滿足這樣的需求,可以采用精心設(shè)計(jì)的傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)組成并行處理集群,或者采用一些內(nèi)存計(jì)算平臺(tái),或者采用HDD的架構(gòu),這些無(wú)疑都需要比較高的軟硬件成本。目前比較新的海量數(shù)據(jù)實(shí)時(shí)分析工具有EMC的Greenplum、SAP的HANA等。
(2)按照大數(shù)據(jù)的數(shù)據(jù)量,分為內(nèi)存級(jí)別、BI級(jí)別、海量級(jí)別三種。
這里的內(nèi)存級(jí)別指的是數(shù)據(jù)量不超過(guò)集群的內(nèi)存最大值。不要小看今天內(nèi)存的容量,F(xiàn)acebook緩存在內(nèi)存的Memcached中的數(shù)據(jù)高達(dá)320TB,而目前的PC服務(wù)器,內(nèi)存也可以超過(guò)百GB。因此可以采用一些內(nèi)存數(shù)據(jù)庫(kù),將熱點(diǎn)數(shù)據(jù)常駐內(nèi)存之中,從而取得非常快速的分析能力,非常適合實(shí)時(shí)分析業(yè)務(wù)。圖1是一種實(shí)際可行的MongoDB分析架構(gòu)。
MongoDB大集群目前存在一些穩(wěn)定性問(wèn)題,會(huì)發(fā)生周期性的寫(xiě)堵塞和主從同步失效,但仍不失為一種潛力十足的可以用于高速數(shù)據(jù)分析的NoSQL。此外,目前大多數(shù)服務(wù)廠商都已經(jīng)推出了帶4GB以上SSD的解決方案,利用內(nèi)存+SSD,也可以輕易達(dá)到內(nèi)存分析的性能。隨著SSD的發(fā)展,內(nèi)存數(shù)據(jù)分析必然能得到更加廣泛的應(yīng)用。
而大多數(shù)統(tǒng)計(jì)分析,機(jī)器學(xué)習(xí)問(wèn)題可以用MapReduce算法改寫(xiě)。MapReduce目前最擅長(zhǎng)的計(jì)算領(lǐng)域有流量統(tǒng)計(jì)、推薦引擎、趨勢(shì)分析、用戶行為分析、數(shù)據(jù)挖掘分類(lèi)器、分布式索引等。
而大多數(shù)統(tǒng)計(jì)分析,機(jī)器學(xué)習(xí)問(wèn)題可以用MapReduce算法改寫(xiě)。MapReduce目前最擅長(zhǎng)的計(jì)算領(lǐng)域有流量統(tǒng)計(jì)、推薦引擎、趨勢(shì)分析、用戶行為分析、數(shù)據(jù)挖掘分類(lèi)器、分布式索引等。
(四)面對(duì)大數(shù)據(jù)OLAP分析的一些問(wèn)題
OLAP分析需要進(jìn)行大量的數(shù)據(jù)分組和表間關(guān)聯(lián),而這些顯然不是NoSQL和傳統(tǒng)數(shù)據(jù)庫(kù)的強(qiáng)項(xiàng),往往必須使用特定的針對(duì)BI優(yōu)化的數(shù)據(jù)庫(kù)。比如絕大多數(shù)針對(duì)BI優(yōu)化的數(shù)據(jù)庫(kù)采用了列存儲(chǔ)或混合存儲(chǔ)、壓縮、延遲加載、對(duì)存儲(chǔ)數(shù)據(jù)塊的預(yù)統(tǒng)計(jì)、分片索引等技術(shù)。
Hadoop平臺(tái)上的OLAP分析,同樣存在這個(gè)問(wèn)題,F(xiàn)acebook針對(duì)Hive開(kāi)發(fā)的RCFile數(shù)據(jù)格式,就是采用了上述的一些優(yōu)化技術(shù),從而達(dá)到了較好的數(shù)據(jù)分析性能。
然而,對(duì)于Hadoop平臺(tái)來(lái)說(shuō),單單通過(guò)使用Hive模仿出SQL,對(duì)于數(shù)據(jù)分析來(lái)說(shuō)遠(yuǎn)遠(yuǎn)不夠,首先Hive雖然將HiveQL翻譯MapReduce的時(shí)候進(jìn)行了優(yōu)化,但依然效率低下。多維分析時(shí)依然要做事實(shí)表和維度表的關(guān)聯(lián),維度一多性能必然大幅下降。其次,RCFile的行列混合存儲(chǔ)模式,事實(shí)上限制死了數(shù)據(jù)格式,也就是說(shuō)數(shù)據(jù)格式是針對(duì)特定分析預(yù)先設(shè)計(jì)好的,一旦分析的業(yè)務(wù)模型有所改動(dòng),海量數(shù)據(jù)轉(zhuǎn)換格式的代價(jià)是極其巨大的。最后,HiveQL對(duì)OLAP業(yè)務(wù)分析人員依然是非常不友善的,維度和度量才是直接針對(duì)業(yè)務(wù)人員的分析語(yǔ)言。
而且目前OLAP存在的最大問(wèn)題是:業(yè)務(wù)靈活多變,必然導(dǎo)致業(yè)務(wù)模型隨之經(jīng)常發(fā)生變化,而業(yè)務(wù)維度和度量一旦發(fā)生變化,技術(shù)人員需要把整個(gè)Cube(多維立方體)重新定義并重新生成,業(yè)務(wù)人員只能在此Cube上進(jìn)行多維分析,這樣就限制了業(yè)務(wù)人員快速改變問(wèn)題分析的角度,從而使所謂的BI系統(tǒng)成為死板的日常報(bào)表系統(tǒng)。
使用Hadoop進(jìn)行多維分析,首先能解決上述維度難以改變的問(wèn)題,利用Hadoop中數(shù)據(jù)非結(jié)構(gòu)化的特征,采集來(lái)的數(shù)據(jù)本身就是包含大量冗余信息的。同時(shí)也可以將大量冗余的維度信息整合到事實(shí)表中,這樣可以在冗余維度下靈活地改變問(wèn)題分析的角度。其次利用HadoopMapReduce強(qiáng)大的并行化處理能力,無(wú)論OLAP分析中的維度增加多少,開(kāi)銷(xiāo)并不顯著增長(zhǎng)。換言之,Hadoop可以支持一個(gè)巨大無(wú)比的Cube,包含了無(wú)數(shù)你想到或者想不到的維度,而且每次多維分析,都可以支持成千上百個(gè)維度,并不會(huì)顯著影響分析的性能。
因此,我們的大數(shù)據(jù)分析架構(gòu)在這個(gè)巨大Cube的支持下,直接把維度和度量的生成交給業(yè)務(wù)人員,由業(yè)務(wù)人員自己定義好維度和度量之后,將業(yè)務(wù)的維度和度量直接翻譯成MapReduce運(yùn)行,并最終生成報(bào)表?梢院(jiǎn)單理解為用戶快速自定義的“MDX”(多維表達(dá)式,或者多維立方體查詢)語(yǔ)言→MapReduce的轉(zhuǎn)換工具。同時(shí)OLAP分析和報(bào)表結(jié)果的展示,依然兼容傳統(tǒng)的BI和報(bào)表產(chǎn)品。
一種Hadoop多維分析平臺(tái)的架構(gòu)整個(gè)架構(gòu)由四大部分組成:數(shù)據(jù)采集模塊、數(shù)據(jù)冗余模塊、維度定義模塊、并行分析模塊。如圖3.3所示。
圖3.3:Hadoop多維分析平臺(tái)架構(gòu)圖
數(shù)據(jù)采集模塊采用了Cloudera的Flume,將海量的小日志文件進(jìn)行高速傳輸和合并,并能夠確保數(shù)據(jù)的傳輸安全性。單個(gè)collector宕機(jī)之后,數(shù)據(jù)也不會(huì)丟失,并能將agent數(shù)據(jù)自動(dòng)轉(zhuǎn)移到其他的colllecter處理,不會(huì)影響整個(gè)采集系統(tǒng)的運(yùn)行。
數(shù)據(jù)冗余模塊不是必須的,但如果日志數(shù)據(jù)中沒(méi)有足夠的維度信息,或者需要比較頻繁地增加維度,則需要定義數(shù)據(jù)冗余模塊。通過(guò)冗余維度定義器定義需要冗余的維度信息和來(lái)源(數(shù)據(jù)庫(kù)、文件、內(nèi)存等),并指定擴(kuò)展方式,將信息寫(xiě)入數(shù)據(jù)日志中。在海量數(shù)據(jù)下,數(shù)據(jù)冗余模塊往往成為整個(gè)系統(tǒng)的瓶頸,建議使用一些比較快的內(nèi)存NoSQL來(lái)冗余原始數(shù)據(jù),并采用盡可能多的節(jié)點(diǎn)進(jìn)行并行冗余;或者也完全可以在Hadoop中執(zhí)行批量Map,進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)化。
維度定義模塊是面向業(yè)務(wù)用戶的前端模塊,用戶通過(guò)可視化的定義器從數(shù)據(jù)日志中定義維度和度量,并能自動(dòng)生成一種多維分析語(yǔ)言,同時(shí)可以使用可視化的分析器通過(guò)GUI執(zhí)行剛剛定義好的多維分析命令。
并行分析模塊接受用戶提交的多維分析命令,并將通過(guò)核心模塊將該命令解析為Map-Reduce,提交給Hadoop集群之后,生成報(bào)表供報(bào)表中心展示。
核心模塊是將多維分析語(yǔ)言轉(zhuǎn)化為MapReduce的解析器,讀取用戶定義的維度和度量,將用戶的多維分析命令翻譯成MapReduce程序。
根據(jù)JobConf參數(shù)進(jìn)行Map和Reduce類(lèi)的拼裝并不復(fù)雜,難點(diǎn)是很多實(shí)際問(wèn)題很難通過(guò)一個(gè)MapReduce解決,必須通過(guò)多個(gè)MapReduceJob組成工作流(WorkFlow),這里是最需要根據(jù)業(yè)務(wù)進(jìn)行定制的部分。
MapReduce的輸出一般是統(tǒng)計(jì)分析的結(jié)果,數(shù)據(jù)量相較于輸入的海量數(shù)據(jù)會(huì)小很多,這樣就可以導(dǎo)入傳統(tǒng)的數(shù)據(jù)報(bào)表產(chǎn)品中進(jìn)行展現(xiàn)。
當(dāng)然,這樣的多維分析架構(gòu)也不是沒(méi)有缺點(diǎn)。由于MapReduce本身就是以蠻力去掃描大部分?jǐn)?shù)據(jù)進(jìn)行計(jì)算,因此無(wú)法像傳統(tǒng)BI產(chǎn)品一樣對(duì)條件查詢做優(yōu)化,也沒(méi)有緩存的概念。往往很多很小的查詢需要“興師動(dòng)眾”。盡管如此,開(kāi)源的Hadoop還是解決了很多人在大數(shù)據(jù)下的分析問(wèn)題,真可謂是“功德無(wú)量”。Hadoop集群軟硬件的花費(fèi)極低,每GB存儲(chǔ)和計(jì)算的成本是其他企業(yè)級(jí)產(chǎn)品的百分之一甚至千分之一,性能卻非常出色。我們可以輕松地進(jìn)行千億乃至萬(wàn)億數(shù)據(jù)級(jí)別的多維統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí)。
四、大數(shù)據(jù)可視化理論及技術(shù)
(一)大數(shù)據(jù)可視分析綜述
可視分析是大數(shù)據(jù)分析的重要方法。大數(shù)據(jù)可視分析旨在利用計(jì)算機(jī)自動(dòng)化分析能力的同時(shí),充分挖掘人對(duì)于可視化信息的認(rèn)知能力優(yōu)勢(shì),將人、機(jī)的各自強(qiáng)項(xiàng)進(jìn)行有機(jī)融合,借助人機(jī)交互式分析方法和交互技術(shù),輔助人們更為直觀和高效地洞悉大數(shù)據(jù)背后的信息、知識(shí)與智慧。主要從可視分析領(lǐng)域所強(qiáng)調(diào)的認(rèn)知、可視化、人機(jī)交互的綜合視角出發(fā),分析了支持大數(shù)據(jù)可視分析的基礎(chǔ)理論,包括支持分析過(guò)程的認(rèn)知理論、信息可視化理論、人機(jī)交互與用戶界面理論。在此基礎(chǔ)上,討論了面向大數(shù)據(jù)主流應(yīng)用的信息可視化技術(shù)——面向文本、網(wǎng)絡(luò)(圖)、時(shí)空、多維的可視化技術(shù)。同時(shí)探討了支持可視分析的人機(jī)交互技術(shù),包括支持可視分析過(guò)程的界面隱喻與交互組件、多尺度/多焦點(diǎn)/多側(cè)面交互技術(shù)、面向Post-WIMP的自然交互技術(shù)。最后,指出了大數(shù)據(jù)可視分析領(lǐng)域面臨的瓶頸問(wèn)題與技術(shù)挑戰(zhàn)。
(二)大數(shù)據(jù)分析工具
大數(shù)據(jù)是一個(gè)含義廣泛的術(shù)語(yǔ),是指數(shù)據(jù)集,如此龐大而復(fù)雜的,他們需要專(zhuān)門(mén)設(shè)計(jì)的硬件和軟件工具進(jìn)行處理。該數(shù)據(jù)集通常是萬(wàn)億或EB的大小。這些
數(shù)據(jù)集收集自各種各樣的來(lái)源:傳感器,氣候信息,公開(kāi)的信息,如雜志,報(bào)紙,文章。大數(shù)據(jù)產(chǎn)生的其他例子包括購(gòu)買(mǎi)交易記錄,網(wǎng)絡(luò)日志,病歷,軍事監(jiān)控,視頻和圖像檔案,及大型電子商務(wù)。
在大數(shù)據(jù)和大數(shù)據(jù)分析,他們對(duì)企業(yè)的影響有一個(gè)興趣高漲。大數(shù)據(jù)分析是研究大量的數(shù)據(jù)的過(guò)程中尋找模式,相關(guān)性和其他有用的信息,可以幫助企業(yè)更好地適應(yīng)變化,并做出更明智的決策。大數(shù)據(jù)分析的常用工具通常有以下介紹的幾種。
4.2.1Hadoop
Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop是高效的,因?yàn)樗圆⑿械姆绞焦ぷ,通過(guò)并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理PB級(jí)數(shù)據(jù)。此外,Hadoop依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。
Hadoop帶有用Java語(yǔ)言編寫(xiě)的框架,因此運(yùn)行在Linux生產(chǎn)平臺(tái)上是非常理想的。
Hadoop上的應(yīng)用程序也可以使用其他語(yǔ)言編寫(xiě),比如C++。
4.2.2HPCC
HPCC,HighPerformanceComputing andCommunications(高性能計(jì)算與通信)的縮寫(xiě)。1993年,由美國(guó)科學(xué)、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會(huì)向國(guó)會(huì)提交了“重大挑戰(zhàn)項(xiàng)目:高性能計(jì)算與通信”的報(bào)告,也就是被稱為HPCC計(jì)劃的報(bào)告,即美國(guó)總統(tǒng)科學(xué)戰(zhàn)略項(xiàng)目,其目的是通過(guò)加強(qiáng)研究與開(kāi)發(fā)解決一批重要的科學(xué)與技術(shù)挑戰(zhàn)問(wèn)題。HPCC是美國(guó)實(shí)施信息高速公路而上實(shí)施的計(jì)劃,該計(jì)劃的實(shí)施將耗資百億美元,其主要目標(biāo)要達(dá)到:開(kāi)發(fā)可擴(kuò)展的計(jì)算系統(tǒng)及相關(guān)軟件,以支持太位級(jí)網(wǎng)絡(luò)傳輸性能,開(kāi)發(fā)千兆比特網(wǎng)絡(luò)技術(shù),擴(kuò)展研究和教育機(jī)構(gòu)及網(wǎng)絡(luò)連接能力。
該項(xiàng)目主要由五部分組成:
高性能計(jì)算機(jī)系統(tǒng)(HPCS),內(nèi)容包括今后幾代計(jì)算機(jī)系統(tǒng)的研究、系統(tǒng)設(shè)計(jì)工具、先進(jìn)的典型系統(tǒng)及原有系統(tǒng)的評(píng)價(jià)等;
先進(jìn)軟件技術(shù)與算法(ASTA),內(nèi)容有巨大挑戰(zhàn)問(wèn)題的軟件支撐、新算法設(shè)計(jì)、軟件分支與工具、計(jì)算計(jì)算及高性能計(jì)算研究中心等;
國(guó)家科研與教育網(wǎng)格(NREN),內(nèi)容有中接站及10億位級(jí)傳輸?shù)难芯颗c開(kāi)發(fā); 基本研究與人類(lèi)資源(BRHR),內(nèi)容有基礎(chǔ)研究、培訓(xùn)、教育及課程教材,被設(shè)計(jì)通過(guò)獎(jiǎng)勵(lì)調(diào)查者-開(kāi)始的,長(zhǎng)期的調(diào)查在可升級(jí)的高性能計(jì)算中來(lái)增加創(chuàng)新意識(shí)流,通過(guò)提高教育和高性能的計(jì)算訓(xùn)練和通信來(lái)加大熟練的和訓(xùn)練有素的人員的聯(lián)營(yíng),和來(lái)提供必需的基礎(chǔ)架構(gòu)來(lái)支持這些調(diào)查和研究活動(dòng);
信息基礎(chǔ)結(jié)構(gòu)技術(shù)和應(yīng)用(IITA),目的在于保證美國(guó)在先進(jìn)信息技術(shù)開(kāi)發(fā)方面的領(lǐng)先地位。
4.2.3Storm Storm是自由的開(kāi)源軟件,一個(gè)分布式的、容錯(cuò)的實(shí)時(shí)計(jì)算系統(tǒng)。Storm可以非常可靠的處理龐大的數(shù)據(jù)流,用于處理Hadoop的批量數(shù)據(jù)。Storm很簡(jiǎn)單,
支持許多種編程語(yǔ)言,使用起來(lái)非常有趣。Storm由Twitter開(kāi)源而來(lái),其它知名的應(yīng)用企業(yè)包括Groupon、淘寶、支付寶、阿里巴巴、樂(lè)元素、Admaster等等。
Storm有許多應(yīng)用領(lǐng)域:實(shí)時(shí)分析、在線機(jī)器學(xué)習(xí)、不停頓的計(jì)算、分布式RPC(遠(yuǎn)過(guò)程調(diào)用協(xié)議,一種通過(guò)網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請(qǐng)求服務(wù))、ETL(Extraction-Transformation-Loading的縮寫(xiě),即數(shù)據(jù)抽取、轉(zhuǎn)換和加載)等等。Storm的處理速度驚人:經(jīng)測(cè)試,每個(gè)節(jié)點(diǎn)每秒鐘可以處理100萬(wàn)個(gè)數(shù)據(jù)元組。Storm是可擴(kuò)展、容錯(cuò),很容易設(shè)置和操作。
4.2.4ApacheDrill 為了幫助企業(yè)用戶尋找更為有效、加快Hadoop數(shù)據(jù)查詢的方法,Apache軟件基金會(huì)近日發(fā)起了一項(xiàng)名為“Drill”的開(kāi)源項(xiàng)目。ApacheDrill實(shí)現(xiàn)了Google'sDremel。
據(jù)Hadoop廠商MapRTechnologies公司產(chǎn)品經(jīng)理TomerShiran介紹,“Drill”已經(jīng)作為Apache孵化器項(xiàng)目來(lái)運(yùn)作,將面向全球軟件工程師持續(xù)推廣。該項(xiàng)目將會(huì)創(chuàng)建出開(kāi)源版本的谷歌DremelHadoop工具(谷歌使用該工具來(lái)為Hadoop數(shù)據(jù)分析工具的互聯(lián)網(wǎng)應(yīng)用提速)。而“Drill”將有助于Hadoop用戶實(shí)現(xiàn)更快查詢海量數(shù)據(jù)集的目的。
“Drill”項(xiàng)目其實(shí)也是從谷歌的Dremel項(xiàng)目中獲得靈感:該項(xiàng)目幫助谷歌實(shí)現(xiàn)海量數(shù)據(jù)集的分析處理,包括分析抓取Web文檔、跟蹤安裝在AndroidMarket上的應(yīng)用程序數(shù)據(jù)、分析垃圾郵件、分析谷歌分布式構(gòu)建系統(tǒng)上的測(cè)試結(jié)果等等。
通過(guò)開(kāi)發(fā)“Drill”Apache開(kāi)源項(xiàng)目,組織機(jī)構(gòu)將有望建立Drill所屬的API接口和靈活強(qiáng)大的體系架構(gòu),從而幫助支持廣泛的數(shù)據(jù)源、數(shù)據(jù)格式和查詢語(yǔ)言。
4.2.5RapidMiner
RapidMiner是世界領(lǐng)先的數(shù)據(jù)挖掘解決方案,在一個(gè)非常大的程度上有著先進(jìn)技術(shù)。它數(shù)據(jù)挖掘任務(wù)涉及范圍廣泛,包括各種數(shù)據(jù)藝術(shù),能簡(jiǎn)化數(shù)據(jù)挖掘過(guò)程的設(shè)計(jì)和評(píng)價(jià)。
4.2.6PentahoBI PentahoBI平臺(tái)不同于傳統(tǒng)的BI產(chǎn)品,它是一個(gè)以流程為中心的,面向解決方案(Solution)的框架。其目的在于將一系列企業(yè)級(jí)BI產(chǎn)品、開(kāi)源軟件、API等等組件集成起來(lái),方便商務(wù)智能應(yīng)用的開(kāi)發(fā)。它的出現(xiàn),使得一系列的面向商務(wù)智能的獨(dú)立產(chǎn)品如Jfree、Quartz等等,能夠集成在一起,構(gòu)成一項(xiàng)項(xiàng)復(fù)雜的、完整的商務(wù)智能解決方案。
PentahoSDK共包含五個(gè)部分:Pentaho平臺(tái)、Pentaho示例數(shù)據(jù)庫(kù)、可獨(dú)立運(yùn)行的Pentaho平臺(tái)、Pentaho解決方案示例和一個(gè)預(yù)先配制好的Pentaho網(wǎng)絡(luò)服務(wù)器。其中Pentaho平臺(tái)是Pentaho平臺(tái)最主要的部分,囊括了Pentaho平臺(tái)源代碼的主體;Pentaho數(shù)據(jù)庫(kù)為Pentaho平臺(tái)的正常運(yùn)行提供的數(shù)據(jù)服務(wù),包括配置信息、Solution相關(guān)的信息等等,對(duì)于Pentaho平臺(tái)來(lái)說(shuō)它不是必須的,通過(guò)配置是可以用其它數(shù)據(jù)庫(kù)服務(wù)取代的;可獨(dú)立運(yùn)行的Pentaho平臺(tái)是Pentaho平臺(tái)的獨(dú)立運(yùn)行模式的示例,它演示了如何使Pentaho平臺(tái)在沒(méi)有應(yīng)用服務(wù)器支持的情況下獨(dú)立運(yùn)行;Pentaho解決方案示例是一個(gè)Eclipse工程,用來(lái)演示如何為Pentaho平臺(tái)開(kāi)發(fā)相關(guān)的商業(yè)智能解決方案。
PentahoBI平臺(tái)構(gòu)建于服務(wù)器,引擎和組件的基礎(chǔ)之上。這些提供了系統(tǒng)的J2EE服務(wù)器,安全,portal,工作流,規(guī)則引擎,圖表,協(xié)作,內(nèi)容管理,數(shù)據(jù)集成,分析和建模功能。這些組件的大部分是基于標(biāo)準(zhǔn)的,可使用其他產(chǎn)品替換之。
(三)數(shù)據(jù)化可視化分析綜述
4.3.1信息可視化、人機(jī)交互、可視分析的基本概念
Card等人對(duì)信息可視化的定義為:對(duì)抽象數(shù)據(jù)使用計(jì)算機(jī)支持的、交互的、可視化的表示形式以增強(qiáng)認(rèn)知能力。與傳統(tǒng)計(jì)算機(jī)圖形學(xué)以及科學(xué)可視化研究不同,信息可視化的研究重點(diǎn)更加側(cè)重于通過(guò)可視化圖形呈現(xiàn)數(shù)據(jù)中隱含的信息和規(guī)律,所研究的創(chuàng)新性可視化表征旨在建立符合人的認(rèn)知規(guī)律的心理映像。經(jīng)過(guò)20余年的發(fā)展,信息可視化已經(jīng)成為人們分析復(fù)雜問(wèn)題的強(qiáng)有力工具。
人機(jī)交互的定義為:人與系統(tǒng)之間通過(guò)某種對(duì)話語(yǔ)言,在一定的交互方式和技術(shù)支持下的信息交換過(guò)程。其中的系統(tǒng)可以是各類(lèi)機(jī)器,也可以是計(jì)算機(jī)和軟件。用戶界面或人機(jī)界面指的是人機(jī)交互所依托的介質(zhì)和對(duì)話接口,通常包含硬件和軟件系統(tǒng)。
信息可視化的概念最早即是在ACM“用戶界面軟件與技術(shù)”會(huì)議中提出,其本質(zhì)是一種交互式的圖形用戶界面范型。人機(jī)交互的發(fā)展一方面強(qiáng)調(diào)研究智能化的用戶界面,將計(jì)算機(jī)系統(tǒng)變成一個(gè)有思想、有個(gè)性、有觀點(diǎn)的智能機(jī)器人;另一方面強(qiáng)調(diào)充分利用計(jì)算機(jī)系統(tǒng)和人各自的優(yōu)勢(shì),彌補(bǔ)彼此的不足,共同協(xié)作來(lái)分析和解決問(wèn)題。
大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)分析挖掘方法的同時(shí),利用支持信息可視化的用戶界面以及支持分析過(guò)程的人機(jī)交互方式與技術(shù),有效融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,以獲得對(duì)于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力。
4.3.2支持可視分析的基礎(chǔ)理論
可視化分析需要有多樣的理論支持,而其中支持分析的主要認(rèn)知理論模型、意義建構(gòu)理論模型、人機(jī)交互分析過(guò)程的用戶認(rèn)知模型、分布式認(rèn)知理論、信息可視化理論模型、信息可視化理論模型、人機(jī)交互與用戶界面理論模型等,這些為大數(shù)據(jù)的可視化處理的實(shí)現(xiàn)提供了堅(jiān)實(shí)的理論基礎(chǔ)。
4.3.3面向大數(shù)據(jù)主流應(yīng)用的信息可視化技術(shù)
大數(shù)據(jù)可視化技術(shù)涉及傳統(tǒng)的科學(xué)可視化和信息可視化,從大數(shù)據(jù)分析將掘取信息和洞悉知識(shí)作為目標(biāo)的角度出發(fā),信息可視化技術(shù)將在大數(shù)據(jù)可視化中扮演更為重要的角色。Shneiderman根據(jù)信息的特征把信息可視化技術(shù)分為一維信息(1-dimensional)、二維信息(2-dimensional)、三維信息(3-dimensional)、多維信息(multi-dimensional)、層次信息(tree)、網(wǎng)絡(luò)信息(network)、時(shí)序信息(temporal)可視化20年來(lái),研究者圍繞著上述信息類(lèi)型提出眾多的信息可視化新方法和新技術(shù),并獲得了廣泛的應(yīng)用。
隨著大數(shù)據(jù)的興起與發(fā)展,互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、地理信息系統(tǒng)、企業(yè)商業(yè)智能、社會(huì)公共服務(wù)等主流應(yīng)用領(lǐng)域逐漸催生了幾類(lèi)特征鮮明的信息類(lèi)型,主要包
括文本、網(wǎng)絡(luò)或圖、時(shí)空、及多維數(shù)據(jù)等。這些與大數(shù)據(jù)密切相關(guān)的信息類(lèi)型與Shneiderman的分類(lèi)交叉融合,將成為大數(shù)據(jù)可視化的主要研究領(lǐng)域。
表4.1:可視化的分類(lèi)比較
4.3.4支持可視分析的人機(jī)交互技術(shù)
信息可視化中的人機(jī)交互技術(shù)主要可概括為5類(lèi):動(dòng)態(tài)過(guò)濾技術(shù)與動(dòng)態(tài)過(guò)濾
用戶界面、整體+詳細(xì)技術(shù)與用戶界面、平移+縮放技術(shù)與可縮放用戶界面(ZUI)、焦點(diǎn)+上下文技術(shù)與用戶界面、多視圖關(guān)聯(lián)協(xié)調(diào)技術(shù)與關(guān)聯(lián)多視圖用戶界面。根據(jù)上面對(duì)可視分析相關(guān)的任務(wù)建模的討論,大數(shù)據(jù)可視分析中涉及的人機(jī)交互技術(shù)在融合與發(fā)展上述幾大類(lèi)交互基礎(chǔ)之上,還需要重點(diǎn)研究對(duì)可視分析推理過(guò)程提供界面支持的人機(jī)交互技術(shù)以及更符合分析過(guò)程認(rèn)知理論的自然、高效的人機(jī)交互技術(shù)。
(四)數(shù)據(jù)可視化的問(wèn)題與挑戰(zhàn)
大數(shù)據(jù)在可視化的發(fā)展過(guò)程中也面臨著以下的問(wèn)題和挑戰(zhàn)。 (1)多源、異構(gòu)、非完整、非一致、非準(zhǔn)確數(shù)據(jù)的集成與接口
大數(shù)據(jù)可視化與可視分析所依賴的基礎(chǔ)是數(shù)據(jù),而大數(shù)據(jù)時(shí)代數(shù)據(jù)的來(lái)源眾多,且多來(lái)自于異構(gòu)環(huán)境。即使獲得數(shù)據(jù)源,得到的數(shù)據(jù)的完整性、一致性、準(zhǔn)確性都難以保證,數(shù)據(jù)質(zhì)量的不確定問(wèn)題將直接影響可視分析的科學(xué)性和準(zhǔn)確性。大數(shù)據(jù)可視化的前提是建立在集成的數(shù)據(jù)接口,并且與可視分析系統(tǒng)形成松耦合的接口關(guān)系,以供各種可視化算法方便的調(diào)用,使得可視分析系統(tǒng)的研發(fā)者和使用者不需要關(guān)系數(shù)據(jù)接口背后的復(fù)雜機(jī)理。可見(jiàn),大數(shù)據(jù)的集成和接口問(wèn)題將是大數(shù)據(jù)可視分析面臨的第一個(gè)挑戰(zhàn)。
(2)匹配心理映像的可視化表征設(shè)計(jì)與評(píng)估
科學(xué)/信息可視化領(lǐng)域經(jīng)過(guò)幾十年的發(fā)展,積累了大量各具特色的可視化表征,這將為大數(shù)據(jù)可視化提供有力的支持。然而,絕大多數(shù)在當(dāng)時(shí)看來(lái)創(chuàng)新的可視化技術(shù),只能被少部分研究人員所接收,卻難以獲得廣泛的認(rèn)可和應(yīng)用。原因在于:大量的可視化表征的創(chuàng)造僅僅在于追求技術(shù)角度的創(chuàng)新,而忽視了可視化尤其是信息可視化領(lǐng)域的本源——符合人的認(rèn)知規(guī)律和心理映像。針對(duì)大數(shù)據(jù)所固有的特點(diǎn),未來(lái)仍將涌現(xiàn)更多的可視化表征。
(3)最大限度發(fā)揮人、機(jī)各自優(yōu)勢(shì)的人機(jī)交互與最優(yōu)化協(xié)作求解
如前所述,人和機(jī)器各自擁有無(wú)可替代的優(yōu)勢(shì),人具有機(jī)器所不具備的視覺(jué)系統(tǒng)以及強(qiáng)大的感知認(rèn)知能力,并且具有非邏輯理性的直覺(jué)判斷和分析解讀能力,但是人的工作記憶卻只有7個(gè)左右的信息塊;而計(jì)算機(jī)擁有巨大的存儲(chǔ)系統(tǒng)和強(qiáng)大的數(shù)據(jù)處理能力,能夠根據(jù)數(shù)據(jù)挖掘模型在短時(shí)間內(nèi)完成大規(guī)模的計(jì)算量。因
此,大數(shù)據(jù)可視分析的過(guò)程就是充分利用各自優(yōu)勢(shì)并且緊密協(xié)作的過(guò)程。然而,目前大數(shù)據(jù)可視分析領(lǐng)域仍未能十分清晰和細(xì)致地界定在問(wèn)題分析過(guò)程中,人機(jī)交互的多層次多粒度任務(wù)應(yīng)該如何最優(yōu)化地分布在人、機(jī)兩側(cè)。而且,目前正處于從WIMP走向Post-WIMP的過(guò)渡期,各種交互技術(shù)如何最優(yōu)的匹配具體的分析任務(wù),仍有待深入的研究與驗(yàn)證。
(4)以用戶為中心的系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)方法論、框架以及工具
隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算的迅猛發(fā)展,數(shù)據(jù)隨處可見(jiàn)、觸手可及。政府的政策制定、經(jīng)濟(jì)與社會(huì)的發(fā)展、企業(yè)的生存與競(jìng)爭(zhēng)以及每個(gè)人日常生活的衣食住行無(wú)不與大數(shù)據(jù)有關(guān)。因此,未來(lái)任何領(lǐng)域的普通個(gè)人均存在著大數(shù)據(jù)分析的需求!叭巳硕级髷(shù)據(jù)、人人都能可視化”將是大數(shù)據(jù)領(lǐng)域的發(fā)展目標(biāo)之一。可視化領(lǐng)域大量極具潛力的創(chuàng)新技術(shù),之所以未能從學(xué)術(shù)界推廣至產(chǎn)業(yè)界,一個(gè)重要的原因是缺乏簡(jiǎn)單易行的、以用戶為中心的系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)方法論、框架以及工具。具體應(yīng)用領(lǐng)域的用戶往往不懂看似高深的可視化和交互技術(shù),他們通常只提出問(wèn)題需求或提供大數(shù)據(jù)。如何能使得最終用戶快捷方便地、自助式地實(shí)現(xiàn)大數(shù)據(jù)可視分析系統(tǒng),滿足自己的個(gè)性化需求,將是大數(shù)據(jù)可視分析走向大范圍應(yīng)用并充分發(fā)揮價(jià)值的關(guān)鍵。
(5)可擴(kuò)展性問(wèn)題
大數(shù)據(jù)的數(shù)據(jù)規(guī)模目前已經(jīng)呈現(xiàn)爆炸式增長(zhǎng),數(shù)據(jù)量的無(wú)限積累與數(shù)據(jù)的持續(xù)演化,導(dǎo)致普通計(jì)算機(jī)的處理能力難以達(dá)到理想的范圍。同時(shí),主流顯示設(shè)備的像素?cái)?shù)也難以跟上大數(shù)據(jù)增長(zhǎng)的腳步,造成像素的總和還不如要可視化的數(shù)據(jù)多。而且,大量在較小的數(shù)據(jù)規(guī)模下可行的可視化技術(shù)在面臨極端大規(guī)模數(shù)據(jù)時(shí)將無(wú)能為力。然而,大數(shù)據(jù)可視分析系統(tǒng)應(yīng)具有很好的可擴(kuò)展性,即感知擴(kuò)展性和交互擴(kuò)展性只取決于可視化的精度而不依賴數(shù)據(jù)規(guī)模的大小,以支持實(shí)時(shí)的可視化與交互操作。因此,未來(lái)如何對(duì)于超高維數(shù)據(jù)的降維以降低數(shù)據(jù)規(guī)模、如何結(jié)合大規(guī)模并行處理方法與超級(jí)計(jì)算機(jī)、如何將目前有價(jià)值的可視化算法和人機(jī)交互技術(shù)提升和拓展到大數(shù)據(jù)領(lǐng)域,將是未來(lái)最嚴(yán)峻的挑戰(zhàn)。
五、大數(shù)據(jù)應(yīng)用及職業(yè)定位
大數(shù)據(jù)應(yīng)用,是利用大數(shù)據(jù)分析的結(jié)果!為用戶提供輔助決策!發(fā)掘潛在價(jià)值的過(guò)程。在說(shuō)大數(shù)據(jù)的應(yīng)用之前,讓我們先來(lái)說(shuō)說(shuō)大數(shù)據(jù)與大規(guī)模數(shù)據(jù)、海量數(shù)據(jù)的差別:
從對(duì)象角度看,大數(shù)據(jù)是大小超出典型數(shù)據(jù)庫(kù)軟件采集、儲(chǔ)存、管理和分析等能力的數(shù)據(jù)集合。需要注意的是,大數(shù)據(jù)并非大量數(shù)據(jù)的簡(jiǎn)單無(wú)意義的堆積,數(shù)據(jù)量大并不意味著一定具有可觀的利用前景。由于最終目標(biāo)是從大數(shù)據(jù)中獲取更多有價(jià)值的“新”信息,所以必然要求這些大量的數(shù)據(jù)之間存在著或遠(yuǎn)或近、或直接或間接的關(guān)聯(lián)性,才具有相當(dāng)?shù)姆治鐾诰騼r(jià)值。數(shù)據(jù)間是否具有結(jié)構(gòu)性和關(guān)聯(lián)性,是“大數(shù)據(jù)”與“大規(guī)模數(shù)據(jù)”的重要差別。
從技術(shù)角度看,大數(shù)據(jù)技術(shù)是從各種各樣類(lèi)型的大數(shù)據(jù)中,快速獲得有價(jià)值信息的技術(shù)及其集成!按髷(shù)據(jù)”與“大規(guī)模數(shù)據(jù)”、“海量數(shù)據(jù)”等類(lèi)似概念間的最大區(qū)別,就在于“大數(shù)據(jù)”這一概念中包含著對(duì)數(shù)據(jù)對(duì)象的處理行為。為了能夠完成這一行為,從大數(shù)據(jù)對(duì)象中快速挖掘更多有價(jià)值的信息,使大數(shù)據(jù)“活起來(lái)”,就需要綜合運(yùn)用靈活的、多學(xué)科的方法,包括數(shù)據(jù)聚類(lèi)、數(shù)據(jù)挖掘、分布式處理等,而這就需要擁有對(duì)各類(lèi)技術(shù)、各類(lèi)軟硬件的集成應(yīng)用能力?梢(jiàn),大數(shù)據(jù)技術(shù)是使大數(shù)據(jù)中所蘊(yùn)含的價(jià)值得以發(fā)掘和展現(xiàn)的重要工具。
從應(yīng)用角度看,大數(shù)據(jù)是對(duì)特定的大數(shù)據(jù)集合、集成應(yīng)用大數(shù)據(jù)技術(shù)、獲得有價(jià)值信息的行為。正由于與具體應(yīng)用緊密聯(lián)系,甚至是一對(duì)一的聯(lián)系,才使得“應(yīng)用”成為大數(shù)據(jù)不可或缺的內(nèi)涵之一。
需要明確的是,大數(shù)據(jù)分析處理的最終目標(biāo),是從復(fù)雜的數(shù)據(jù)集合中發(fā)現(xiàn)新的關(guān)聯(lián)規(guī)則,繼而進(jìn)行深度挖掘,得到有效用的新信息。如果數(shù)據(jù)量不小,但數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,重復(fù)性高,分析處理需求也僅僅是根據(jù)已有規(guī)則進(jìn)行數(shù)據(jù)分組歸類(lèi),未與具體業(yè)務(wù)緊密結(jié)合,依靠已有基本數(shù)據(jù)分析處理技術(shù)已足夠,則不能算作是完全的“大數(shù)據(jù)”,只是“大數(shù)據(jù)”的初級(jí)發(fā)展階段。
(一)大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)的類(lèi)型大致可分為三類(lèi):
33
(1)傳統(tǒng)企業(yè)數(shù)據(jù)(Traditionalenterprisedata):包括CRMsystems的消費(fèi)者數(shù)據(jù),傳統(tǒng)的ERP數(shù)據(jù),庫(kù)存數(shù)據(jù)以及賬目數(shù)據(jù)等;
(2)機(jī)器和傳感器數(shù)據(jù)(Machine-generated/sensordata):包括呼叫記錄(CallDetailRecords),智能儀表,工業(yè)設(shè)備傳感器,設(shè)備日志(通常是Digitalexhaust),交易數(shù)據(jù)等;
(3)社交數(shù)據(jù)(Socialdata):包括用戶行為記錄,反饋數(shù)據(jù)等。如Twitter,F(xiàn)acebook這樣的社交媒體平臺(tái)。
從三大產(chǎn)業(yè)的角度將大數(shù)據(jù)的核心商業(yè)價(jià)值分類(lèi)討論。大數(shù)據(jù)應(yīng)用,是利用大數(shù)據(jù)分析的結(jié)果,為用戶提供輔助決策,發(fā)掘潛在價(jià)值的過(guò)程。從理論上來(lái)看:所有產(chǎn)業(yè)都會(huì)從大數(shù)據(jù)的發(fā)展中受益。但由于數(shù)據(jù)缺乏以及從業(yè)人員本身的原因,第一、第二產(chǎn)業(yè)的發(fā)展速度相對(duì)于第三產(chǎn)業(yè)來(lái)說(shuō)會(huì)遲緩一些。
各個(gè)行業(yè)利用大數(shù)據(jù)價(jià)值的難易度以及發(fā)展?jié)摿σ约癘penData時(shí)代里七大行業(yè)潛在的經(jīng)濟(jì)價(jià)值,自上而下分別是教育,運(yùn)輸,消費(fèi)品、電力、石油與天然氣、醫(yī)療護(hù)理、消費(fèi)金融。
5.1面向在線社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用
在線社交網(wǎng)絡(luò),是一種在信息網(wǎng)絡(luò)上由社會(huì)個(gè)體集合及個(gè)體之間的連接關(guān)系構(gòu)成的社會(huì)性結(jié)構(gòu)。在線社交網(wǎng)絡(luò)大數(shù)據(jù)主要來(lái)自即時(shí)消息、在線社交、微博和共享空間4類(lèi)應(yīng)用。由于在線社交網(wǎng)絡(luò)大數(shù)據(jù)代表了人的各類(lèi)活動(dòng),因此對(duì)于此類(lèi)數(shù)據(jù)的分析得到了更多關(guān)注。在線社交網(wǎng)絡(luò)大數(shù)據(jù)分析是從網(wǎng)絡(luò)結(jié)構(gòu)、群體互動(dòng)和信息傳播3個(gè)維度,通過(guò)基于數(shù)學(xué)、信息學(xué)、社會(huì)學(xué)、管理學(xué)等多個(gè)學(xué)科的融合理論和方法,為理解人類(lèi)社會(huì)中存在的各種關(guān)系提供的一種可計(jì)算的分析方法。目前,在線社交網(wǎng)絡(luò)大數(shù)據(jù)的應(yīng)用包括網(wǎng)絡(luò)輿情分析、網(wǎng)絡(luò)情報(bào)搜集與分析、社會(huì)化營(yíng)銷(xiāo)、政府決策支持、在線教育等。
2013年4月,美國(guó)計(jì)算搜索引擎WolframAlpha,通過(guò)對(duì)Facebook中100多萬(wàn)美國(guó)用戶社交數(shù)據(jù)進(jìn)行分析,試圖研究用戶的社會(huì)行為規(guī)律。根據(jù)分析發(fā)現(xiàn),大部分Facebook用戶在20歲出頭時(shí)開(kāi)始戀愛(ài),27歲左右時(shí)訂婚,30歲左右結(jié)婚,而30~60歲之間,婚姻關(guān)系變化緩慢。這個(gè)研究結(jié)果與美國(guó)人口普查數(shù)據(jù)相比,幾乎完全一致。
34
總得說(shuō)來(lái),在線社交網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用可以從以下3方而幫助我們了解人的行為,以及掌握社會(huì)和經(jīng)濟(jì)活動(dòng)的變化規(guī)律:(1)前期警告,通過(guò)檢測(cè)用戶使用電子設(shè)備及服務(wù)中出現(xiàn)的異常,在出現(xiàn)危機(jī)時(shí)可以更快速地應(yīng)對(duì)。(2)實(shí)時(shí)監(jiān)控,通過(guò)對(duì)用戶當(dāng)前行為、情感和意愿等方而的監(jiān)控,可以為政策和方案的制定提供準(zhǔn)確的信息。(3)實(shí)時(shí)反饋,在實(shí)時(shí)監(jiān)控的基礎(chǔ)上,可以針對(duì)某些社會(huì)活動(dòng)獲得群體的反饋信息。
5.2醫(yī)療健康大數(shù)據(jù)應(yīng)用 醫(yī)療健康數(shù)據(jù)是持續(xù)、高增長(zhǎng)的復(fù)雜數(shù)據(jù),蘊(yùn)涵的信息價(jià)值也是豐富多樣。對(duì)其進(jìn)行有效的存儲(chǔ)、處理、查詢和分析,可以開(kāi)發(fā)出其潛在價(jià)值。對(duì)于醫(yī)療大數(shù)據(jù)的應(yīng)用,將會(huì)深遠(yuǎn)的影響人類(lèi)的健康。
谷歌有一個(gè)名為“谷歌流感趨勢(shì)”的工具,它通過(guò)跟蹤搜索詞相關(guān)數(shù)據(jù)來(lái)判斷全美地區(qū)的流感情況(比如患者會(huì)搜索流感兩個(gè)字)。近日,這個(gè)工具發(fā)出警告,全美的流感已經(jīng)進(jìn)入“緊張”級(jí)別。它對(duì)于健康服務(wù)產(chǎn)業(yè)和流行病專(zhuān)家來(lái)說(shuō)是非常有用的,因?yàn)樗臅r(shí)效性極強(qiáng),能夠很好地幫助到疾病暴發(fā)的跟蹤和處理。事實(shí)也證明,通過(guò)海量搜索詞的跟蹤獲得的趨勢(shì)報(bào)告是很有說(shuō)服力的,僅波士頓地區(qū),就有700例流感得到確認(rèn),該地區(qū)目前已宣布進(jìn)入公共健康緊急狀態(tài)。
這個(gè)工具工作的原理大致是這樣的:設(shè)計(jì)人員置入了一些關(guān)鍵詞(比如溫度計(jì)、流感癥狀、肌肉疼痛、胸悶等),只要用戶輸入這些關(guān)鍵詞,系統(tǒng)就會(huì)展開(kāi)跟蹤分析,創(chuàng)建地區(qū)流感圖表和流感地圖。谷歌多次把測(cè)試結(jié)果(藍(lán)線)與美國(guó)疾病控制和預(yù)防中心的報(bào)告(黃線)做比對(duì),從圖1-1可知,兩者結(jié)論存在很大相關(guān)性。
谷歌把測(cè)試結(jié)果(藍(lán)線)與美國(guó)疾病控制和預(yù)防中心的報(bào)告(黃線)做比對(duì)但它比線下收集的報(bào)告強(qiáng)在“時(shí)效性”上,因?yàn)榛颊咧灰坏┳杂X(jué)有流感癥狀,在搜索和去醫(yī)院就診這兩件事上,前者通常是他首先會(huì)去做的。就醫(yī)很麻煩而且價(jià)格不菲,如果能自己通過(guò)搜索來(lái)尋找到一些自我救助的方案,人們就會(huì)第一時(shí)間使用搜索引擎。故而,還存在一種可能是,醫(yī)院或官方收集到的病例只能說(shuō)明一小部分重病患者,輕度患者是不會(huì)去醫(yī)院而成為它們的樣本的。
35
SetonHealthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測(cè)的首個(gè)客戶。該技術(shù)允許企業(yè)找到大量病人相關(guān)的臨床醫(yī)療信息,通過(guò)大數(shù)據(jù)處理,更好地分析病人的信息。
在加拿大多倫多的一家醫(yī)院,針對(duì)早產(chǎn)嬰兒,每秒鐘有超過(guò)3000次的數(shù)據(jù)讀取。通過(guò)這些數(shù)據(jù)分析,醫(yī)院能夠??知道哪些早產(chǎn)兒出現(xiàn)問(wèn)題并且有針對(duì)性地采取措施,避免早產(chǎn)嬰兒夭折。
大數(shù)據(jù)讓更多的創(chuàng)業(yè)者更方便地開(kāi)發(fā)產(chǎn)品,比如通過(guò)社交網(wǎng)絡(luò)來(lái)收集數(shù)據(jù)的健康類(lèi)App。也許未來(lái)數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說(shuō)不是通用的成人每日三次一次一片,而是檢測(cè)到你的血液中藥劑已經(jīng)代謝完成會(huì)自動(dòng)??你再次服藥。
5.3群智感知大數(shù)據(jù)的應(yīng)用 隨著技術(shù)的發(fā)展,智能手機(jī)和平板電腦等移動(dòng)設(shè)備集成了越來(lái)越多的傳感器,計(jì)算和感知能力也愈發(fā)強(qiáng)大。在移動(dòng)設(shè)備被廣泛使用的背景下,群智感知開(kāi)始成為移動(dòng)計(jì)算領(lǐng)域的應(yīng)用熱點(diǎn)。大量用戶使用移動(dòng)智能設(shè)備作為基本節(jié)點(diǎn),通過(guò)藍(lán)牙、無(wú)線網(wǎng)絡(luò)和移動(dòng)互聯(lián)網(wǎng)等方式進(jìn)行協(xié)作,分發(fā)感知任務(wù)分發(fā),收集、利用感知數(shù)據(jù),最終完成大規(guī)模的、復(fù)雜的社會(huì)感知任務(wù)。群智感知對(duì)參與者的要求很低,用戶并不需要相關(guān)的專(zhuān)業(yè)知識(shí)或技能,只需擁有一臺(tái)移動(dòng)智能設(shè)備。
眾包(crowdsourcing)是一種極具代表性的群智感知模式,是一種新型的解決問(wèn)題的方式。眾包以用戶為基礎(chǔ),以自由參與的方式分發(fā)任務(wù)。目前眾包己經(jīng)被運(yùn)用于人力密集的應(yīng)用,如語(yǔ)言翻譯、語(yǔ)音識(shí)別、圖像地理信息標(biāo)記、定位與導(dǎo)航、城市道路交通感知、市場(chǎng)預(yù)測(cè)、意見(jiàn)挖掘等。眾包的核心思想是將任務(wù)分而治之,通過(guò)參與者的協(xié)作來(lái)完成個(gè)體不可能或者說(shuō)根本想不到要完成的任務(wù)。無(wú)需部署感知模塊和雇傭?qū)I(yè)人員,眾包就可以將感知范圍擴(kuò)展至城市規(guī)模甚至更大。
其實(shí),眾包的應(yīng)用早于大數(shù)據(jù)的興起,寶潔、寶馬、奧迪等許多公司都曾借助眾包提升自身的研發(fā)和設(shè)計(jì)能力。而在大數(shù)據(jù)時(shí)代,空間眾包服務(wù)(spatialcrowdsourcing)成為了大家關(guān)注的熱點(diǎn)?臻g眾包服務(wù)的工作框架如下:服務(wù)請(qǐng)求方要求獲取與特定地點(diǎn)相關(guān)的資源,而愿意接受任務(wù)請(qǐng)求的參與者
36
將到達(dá)指定地點(diǎn),利用移動(dòng)設(shè)備獲取相關(guān)數(shù)據(jù)(視頻、音頻或圖片),最后將這些數(shù)據(jù)發(fā)送給服務(wù)請(qǐng)求方。隨著移動(dòng)設(shè)備使用的高速增長(zhǎng)以及移動(dòng)設(shè)備提供的功能越來(lái)越復(fù)雜,可以預(yù)見(jiàn)空間眾包將會(huì)變得比傳統(tǒng)形式的眾包服務(wù)更加流行,如AmazonTurk和Crowdflower。
5.4智能電網(wǎng)大數(shù)據(jù)的應(yīng)用 智能電網(wǎng),是指將現(xiàn)代信息技術(shù)融入傳統(tǒng)能源網(wǎng)絡(luò)構(gòu)成新的電網(wǎng),通過(guò)用戶的用電習(xí)慣等信息,優(yōu)化電能的生產(chǎn)、供給和消耗,是大數(shù)據(jù)在電力系統(tǒng)上的應(yīng)用。智能電網(wǎng)可以解決以下幾方而的問(wèn)題:
(1)電網(wǎng)規(guī)劃:通過(guò)對(duì)智能電網(wǎng)中的數(shù)據(jù)進(jìn)行分析,可以知道哪些地區(qū)的用電負(fù)荷和停電頻率過(guò)高,甚至可以預(yù)測(cè)哪些線路可能出現(xiàn)故障。這些分析結(jié)果,可以有助于電網(wǎng)的升級(jí)、改造、維護(hù)等工作。例如,美國(guó)加州大學(xué)洛杉磯分校的研究者就根據(jù)大數(shù)據(jù)理論設(shè)計(jì)了一款”電力地圖”,將人口調(diào)查信息、電力企業(yè)提供的用戶實(shí)時(shí)用電信息和地理、氣象等信息全部集合在一起,制作了一款加州地圖。該圖以街區(qū)為單位,展示每個(gè)街區(qū)在當(dāng)下時(shí)刻的用電量,甚至還可以將這個(gè)街區(qū)的用電量與該街區(qū)人的平均收入和建筑物類(lèi)型等相比照,從而得出更為準(zhǔn)確的社會(huì)各群體的用電習(xí)慣信息。這個(gè)地圖為城市和電網(wǎng)規(guī)劃提供了直觀有效的負(fù)荷數(shù)預(yù)測(cè)依據(jù),也可以按照?qǐng)D中顯示的停電頻率較高、過(guò)載較為嚴(yán)重的街區(qū)進(jìn)行電網(wǎng)設(shè)施的優(yōu)先改造。
(2)發(fā)電與用電的互動(dòng):理想的電網(wǎng),應(yīng)該是發(fā)電與用電的平衡。但是,傳統(tǒng)電網(wǎng)的建設(shè)是基于發(fā)-輸-變-配-用的單向思維,無(wú)法根據(jù)用電量的需求調(diào)整發(fā)電量,造成電能的冗余浪費(fèi)。為了實(shí)現(xiàn)用電與發(fā)電的互動(dòng),提高供電效率,研究者開(kāi)發(fā)出了智能的用電設(shè)備-智能電表。德克薩斯電力公司(TXUEnergy)己經(jīng)廣泛使用智能電表,并取得了巨大的成效。供電公司能每隔15min就讀一次用電數(shù)據(jù),而不是過(guò)去的一月一次。這不僅僅節(jié)省了抄表的人工費(fèi)用,而且由于能高頻率快速采集分析用電數(shù)據(jù),供電公司能根據(jù)用電高峰和低谷時(shí)段制定不同的電價(jià),利用這種價(jià)格杠桿來(lái)平抑用電高峰和低谷的波動(dòng)幅度,智能電表和大數(shù)據(jù)應(yīng)用讓分時(shí)動(dòng)態(tài)定價(jià)成為可能,而且這對(duì)于TXUEnergy和用戶來(lái)說(shuō)是一個(gè)雙贏變化。
37
(3)間歇式可再生能源的接入:目前許多新能源也被接入電網(wǎng),但是風(fēng)能和太陽(yáng)能等新能源,其發(fā)電能力與氣候條件密切相關(guān),具有隨機(jī)性和間歇性的特點(diǎn),因此難以直接并入電網(wǎng)。如果通過(guò)對(duì)電網(wǎng)大數(shù)據(jù)的分析,則可對(duì)這些間歇式新能源進(jìn)行有效調(diào)節(jié),在其產(chǎn)生電能時(shí),根據(jù)電網(wǎng)中的數(shù)據(jù)將其調(diào)配給電力緊缺地區(qū),與傳統(tǒng)的水火電能進(jìn)行有效地互補(bǔ)。
5.5大數(shù)據(jù)在能源行業(yè)的應(yīng)用 智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國(guó),為了鼓勵(lì)利用太陽(yáng)能,會(huì)在家庭安裝太陽(yáng)能,除了賣(mài)電給你,當(dāng)你的太陽(yáng)能有多余電的時(shí)候還可以買(mǎi)回來(lái)。通過(guò)電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來(lái)的這些數(shù)據(jù)可以用來(lái)預(yù)測(cè)客戶的用電習(xí)慣等,從而推斷出在未來(lái)2-3個(gè)月時(shí)間里,整個(gè)電網(wǎng)大概需要多少電。有了這個(gè)預(yù)測(cè)后,就可以向發(fā)電或者供電企業(yè)購(gòu)買(mǎi)一定數(shù)量的電。因?yàn)殡娪悬c(diǎn)像期貨一樣,如果??買(mǎi)就會(huì)比較便宜,買(mǎi)現(xiàn)貨就比較貴。通過(guò)這個(gè)預(yù)測(cè)后,可以降低采購(gòu)成本。維斯塔斯風(fēng)力系統(tǒng),依靠的是BigInsights軟件和IBM超級(jí)計(jì)算機(jī),然后對(duì)氣象數(shù)據(jù)進(jìn)行分析,找出安裝風(fēng)力渦輪機(jī)和整個(gè)風(fēng)電場(chǎng)最佳的地點(diǎn)。利用大數(shù)據(jù),以往需要數(shù)周的分析工作,現(xiàn)在僅需要不足1小時(shí)便可完成。
5.6大數(shù)據(jù)在通信行業(yè)的應(yīng)用
電信業(yè)者透過(guò)數(shù)以千萬(wàn)計(jì)的客戶資料,能分析出多種使用者行為和趨勢(shì),賣(mài)給需要的企業(yè),這是全新的資料經(jīng)濟(jì)。中國(guó)移動(dòng)通過(guò)大數(shù)據(jù)分析,對(duì)企業(yè)運(yùn)營(yíng)的全業(yè)務(wù)進(jìn)行針對(duì)性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時(shí)間自動(dòng)捕捉市場(chǎng)變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時(shí)間內(nèi)獲知市場(chǎng)行情。
NTTdocomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來(lái),為顧客??附近的餐飲店信息,接近末班車(chē)時(shí)間時(shí),??末班車(chē)信息服務(wù)。
5.7大數(shù)據(jù)在零售業(yè)的應(yīng)用
我們的某個(gè)客戶,是一家領(lǐng)先的專(zhuān)業(yè)時(shí)裝零售商,通過(guò)當(dāng)?shù)氐陌儇浬痰辍⒕W(wǎng)絡(luò)及其郵購(gòu)目錄業(yè)務(wù)為客戶??服務(wù)。公司希望向客戶??差異化服務(wù),如何定位
38
公司的差異化,他們通過(guò)從Twitter和Facebook上收集社交信息,更深入的理解化妝品的營(yíng)銷(xiāo)模式,隨后他們認(rèn)識(shí)到必須保留兩類(lèi)有價(jià)值的客戶:高消費(fèi)者和高影響者。希望通過(guò)接受免費(fèi)化妝服務(wù),讓用戶進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合,為業(yè)務(wù)挑戰(zhàn)??了解決方案。Informatica的技術(shù)幫助這家零售商用社交平臺(tái)上的數(shù)據(jù)充實(shí)了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。
零售企業(yè)也監(jiān)控客戶的店內(nèi)走動(dòng)情況以及與商品的互動(dòng)。它們將這些數(shù)據(jù)與交易記錄相結(jié)合來(lái)展開(kāi)分析,從而在銷(xiāo)售哪些商品、如何擺放貨品以及何時(shí)調(diào)整售價(jià)上給出意見(jiàn),此類(lèi)方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%的存貨,同時(shí)在保持市場(chǎng)份額的前??,增加了高利潤(rùn)率自有品牌商品的比例。
5.8大數(shù)據(jù)在生態(tài)環(huán)境應(yīng)用 環(huán)保業(yè)務(wù)系統(tǒng)數(shù)據(jù)量大、數(shù)據(jù)類(lèi)型多元、模型算法復(fù)雜,因此利用大數(shù)據(jù)分析的手段對(duì)環(huán)境數(shù)據(jù)資源開(kāi)發(fā),可以成為解決環(huán)保管理問(wèn)題的鑰匙。而近年來(lái),“互聯(lián)網(wǎng)+”為解決環(huán)境管理問(wèn)題創(chuàng)造了諸多便利條件。政府決策部門(mén)通過(guò)互聯(lián)網(wǎng),可以實(shí)現(xiàn)環(huán)境數(shù)據(jù)、信息等要素互通共享,從而推動(dòng)環(huán)境問(wèn)題得到整體有效解決。公眾輿論借助互聯(lián)網(wǎng)將對(duì)企業(yè)排污形成巨大壓力,督促其有效治污,從而推動(dòng)環(huán)境改善因素由單一政府向全社會(huì)延伸。
對(duì)環(huán)保行政主管部門(mén)而言,環(huán)保大數(shù)據(jù)的應(yīng)用更加強(qiáng)調(diào)數(shù)據(jù)獲取后的分析預(yù)測(cè)和價(jià)值挖掘。借助物聯(lián)網(wǎng)技術(shù),把傳感器和裝備嵌入到各種環(huán)境監(jiān)控對(duì)象中,通過(guò)云計(jì)算技術(shù)將環(huán)保領(lǐng)域的各物聯(lián)網(wǎng)設(shè)備整合起來(lái),實(shí)現(xiàn)人類(lèi)社會(huì)與環(huán)境業(yè)務(wù)系統(tǒng)的整合,以更加精確和動(dòng)態(tài)的方式實(shí)現(xiàn)環(huán)境管理和決策的“智慧”。
對(duì)企業(yè)而言,隨著“互聯(lián)網(wǎng)+生態(tài)環(huán)保大數(shù)據(jù)”的蓬勃發(fā)展以及各界對(duì)于“互聯(lián)網(wǎng)+”對(duì)于“大數(shù)據(jù)”的關(guān)注與重視,環(huán)境大數(shù)據(jù)變革對(duì)于排污企業(yè)就意味著違法排污將有更多雙眼睛盯著,更多緊箍咒壓著,污染付出的代價(jià)將會(huì)越來(lái)越沉重。而對(duì)于環(huán)保企業(yè)而言,將助力企業(yè)加快產(chǎn)業(yè)轉(zhuǎn)型升級(jí),打開(kāi)更大市場(chǎng)空間,迎來(lái)產(chǎn)業(yè)可持續(xù)發(fā)展黃金期。
“互聯(lián)網(wǎng)+生態(tài)環(huán)保大數(shù)據(jù)”也將提升公眾服務(wù)能力,通過(guò)大數(shù)據(jù)整理計(jì)算采集來(lái)的社交信息數(shù)據(jù)、公眾互動(dòng)數(shù)據(jù)等,可以幫助環(huán)保部門(mén)進(jìn)行公眾服務(wù)的水平化設(shè)計(jì)和碎片化擴(kuò)散?梢越柚缃幻襟w中公開(kāi)的海量數(shù)據(jù),通過(guò)大數(shù)據(jù)信息
39
交叉驗(yàn)證技術(shù)、分析數(shù)據(jù)內(nèi)容之間的關(guān)聯(lián)度等,進(jìn)而面向社會(huì)化用戶開(kāi)展精細(xì)化服務(wù),為公眾提供更多便利,產(chǎn)生更大價(jià)值。
環(huán)境數(shù)據(jù)中心集污染源和環(huán)境質(zhì)量數(shù)據(jù)整合、數(shù)據(jù)集成、數(shù)據(jù)交換、數(shù)據(jù)管理、數(shù)據(jù)分析、數(shù)據(jù)協(xié)同共享功能于一體,將分散的各類(lèi)環(huán)境數(shù)據(jù)統(tǒng)一集成,提高了數(shù)據(jù)的標(biāo)準(zhǔn)化水平和數(shù)據(jù)的可用性,按照數(shù)據(jù)資源規(guī)劃設(shè)計(jì)的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范以及數(shù)據(jù)模型進(jìn)行統(tǒng)一組織,依據(jù)國(guó)家有關(guān)技術(shù)規(guī)范和環(huán)境信息行業(yè)技術(shù)標(biāo)準(zhǔn)分類(lèi)體系構(gòu)建的數(shù)據(jù)集,對(duì)各類(lèi)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行分類(lèi)和梳理,按照不同的專(zhuān)題和用途進(jìn)行分類(lèi)存儲(chǔ)和使用,同時(shí)可以完成數(shù)據(jù)的共享和交換工作,解決各部門(mén)、各業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)無(wú)法共享的問(wèn)題,即解決“數(shù)據(jù)孤島”現(xiàn)象,為環(huán)境管理者和決策者提供可靠、及時(shí)、全面的環(huán)境信息,從而為環(huán)境管理科學(xué)決策奠定堅(jiān)實(shí)基礎(chǔ)。
5.9大數(shù)據(jù)在工業(yè)污染監(jiān)控中的應(yīng)用 工業(yè)污染源全過(guò)程監(jiān)控系統(tǒng)是在污染源在線監(jiān)控的基礎(chǔ)之上,為了確保數(shù)據(jù)可靠性和監(jiān)控有效性,對(duì)企業(yè)污染治理設(shè)施的運(yùn)行狀態(tài)的關(guān)鍵參數(shù)進(jìn)行實(shí)時(shí)監(jiān)控。
利用工業(yè)污染源全過(guò)程監(jiān)控系統(tǒng),通過(guò)現(xiàn)場(chǎng)端監(jiān)測(cè)設(shè)備對(duì)環(huán)境污染治理設(shè)施進(jìn)行連續(xù)的、實(shí)時(shí)的跟蹤監(jiān)控,通過(guò)實(shí)時(shí)采集環(huán)境污染治理設(shè)施的關(guān)鍵參數(shù),包括電氣參數(shù)(如電壓、電流、頻率等)、工藝參數(shù)(物位、流量、壓力、溫度等),與系統(tǒng)內(nèi)置的算法規(guī)則進(jìn)行比對(duì),監(jiān)控其運(yùn)行狀況和治污效果并對(duì)排污超標(biāo)及污染治理設(shè)施非正常運(yùn)行提供報(bào)警。
通過(guò)對(duì)污染物排放和污染治理設(shè)施的在線監(jiān)控,對(duì)排污生產(chǎn)進(jìn)行自動(dòng)控制,從而準(zhǔn)確反映污染源的實(shí)際排放情況,有效減少污染物排放量,調(diào)動(dòng)排污企業(yè)治理污染的積極性,預(yù)防環(huán)境污染突發(fā)事件。
針對(duì)某電廠工況數(shù)據(jù)進(jìn)行分析,通過(guò)兩周數(shù)據(jù)進(jìn)行訓(xùn)練得到預(yù)測(cè)模型,去預(yù)測(cè)下周污染物排放數(shù)據(jù),99.5%預(yù)測(cè)數(shù)據(jù)的相對(duì)誤差<20%
污染源排放清單動(dòng)態(tài)管理系統(tǒng)是基于污染源普查數(shù)據(jù)及環(huán)境統(tǒng)計(jì)基礎(chǔ)數(shù)據(jù)、GIS地理信息系統(tǒng)和區(qū)域土地利用信息,整合重點(diǎn)點(diǎn)源實(shí)時(shí)排放數(shù)據(jù),形成針對(duì)點(diǎn)源、線源、面源等各類(lèi)大氣污染源,綜合反映區(qū)域污染源空間分布和時(shí)間排放規(guī)律信息的網(wǎng)格化區(qū)域大氣污染物排放清單數(shù)據(jù)庫(kù)平臺(tái)。
40
它不僅為區(qū)域?qū)崟r(shí)污染物排放狀況提供了最為詳實(shí)和全面的實(shí)時(shí)數(shù)據(jù)信息及空間、時(shí)間變化模型,為區(qū)域重污染天氣及空氣質(zhì)量預(yù)測(cè)預(yù)報(bào)工作提供有效的基礎(chǔ)數(shù)據(jù)支持。更重要的還為環(huán)保部門(mén)提供了區(qū)域污染源系統(tǒng)化管理工具,為區(qū)域落實(shí)污染防治政策和總量削減行動(dòng)計(jì)劃提供快速?zèng)Q策工具,從而服務(wù)于國(guó)家及地方環(huán)境保護(hù)總體戰(zhàn)略。
(二)大數(shù)據(jù)下的職業(yè)定位 事實(shí)上,麥肯錫全球研究院的研究預(yù)測(cè)在未來(lái)6年,僅在美國(guó)本土就可能面臨缺乏14萬(wàn)至19萬(wàn)具備深入分析數(shù)據(jù)能力人才的情況,同時(shí)具備通過(guò)分析大數(shù)據(jù)并為企業(yè)做出有效決策的數(shù)據(jù)的管理人員和分析師也有150萬(wàn)人的缺口。
Ventana研究公司的分析師DavidMenninger指出在其公司最近所作的一項(xiàng)調(diào)查顯示,在169位公司高管中有四分之三的人認(rèn)為技術(shù)人員缺乏是企業(yè)無(wú)從應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)的重要因素。
Hadoop除了核心設(shè)計(jì)思想MapReduce和HDFS(HadoopDistributedFileSystem)外,Hadoop還包括了從類(lèi)SQL查詢語(yǔ)言HQL,到NoSQLHBase數(shù)據(jù)庫(kù)(NoSQL數(shù)據(jù)庫(kù)通常用來(lái)處理非結(jié)構(gòu)化的數(shù)據(jù),包括音頻、視頻等。),以及機(jī)器學(xué)習(xí)庫(kù)Mahout等內(nèi)容。Cloudera、Hortonworks和MapR都已在他們的分布式系統(tǒng)中加入了Hadoop項(xiàng)目。
而MapReduce編程模式可以被認(rèn)作是云計(jì)算技術(shù)實(shí)現(xiàn)的靈魂。MapReduce是一種處理大型及超大型數(shù)據(jù)集并生成相關(guān)的的執(zhí)行的編程模型,其主要思想是從函數(shù)式編程語(yǔ)言借鑒而來(lái),同時(shí)包括從矢量編程語(yǔ)言借來(lái)的特性。
TechTarget的特約編輯BethStackpole就指出當(dāng)今管理傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)環(huán)境的團(tuán)隊(duì)確實(shí)相當(dāng)專(zhuān)業(yè),但面對(duì)向Hadoop和MapReduce等開(kāi)源大數(shù)據(jù)技術(shù)時(shí)則顯得有些無(wú)從應(yīng)對(duì)。導(dǎo)致這其中的原因是應(yīng)對(duì)傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的技能無(wú)法轉(zhuǎn)化為應(yīng)對(duì)大數(shù)據(jù)世界中海量非結(jié)構(gòu)化數(shù)據(jù)的技能。而NoSQL數(shù)據(jù)庫(kù)技術(shù)恰恰是根據(jù)新型平臺(tái)核心構(gòu)建的。
大數(shù)據(jù)時(shí)代的熱門(mén)職業(yè)將會(huì)有以下多種:
1.大數(shù)據(jù)處理平臺(tái)開(kāi)發(fā)人員
大數(shù)據(jù)處理平臺(tái)開(kāi)發(fā)人員負(fù)責(zé)構(gòu)建大數(shù)據(jù)處理平臺(tái)以及用來(lái)分析數(shù)據(jù)的應(yīng)用。由于其在開(kāi)發(fā)領(lǐng)域已具備相關(guān)的經(jīng)驗(yàn),所以比較熟悉相關(guān)的工具或算法。這在編寫(xiě)、優(yōu)化以及部署各種復(fù)雜的MapReduce的工作時(shí)會(huì)有所幫助。運(yùn)用大數(shù)據(jù)相關(guān)技術(shù)的從業(yè)人員的作用類(lèi)似傳統(tǒng)數(shù)據(jù)庫(kù)世界中DBA的定位。
2.大數(shù)據(jù)處理系統(tǒng)管理員
大數(shù)據(jù)處理系統(tǒng)管理員負(fù)責(zé)日常Hadoop集群正常運(yùn)行。例如直接或間接的管理硬件,當(dāng)需要添加硬件時(shí)需保證集群仍能夠穩(wěn)定運(yùn)行。同時(shí)還要負(fù)責(zé)系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機(jī)結(jié)合。
3.數(shù)據(jù)管家
企業(yè)要提高數(shù)據(jù)質(zhì)量必須考慮任命數(shù)據(jù)管家。數(shù)據(jù)管家需利用Hadoop匯集企業(yè)周?chē)拇罅繑?shù)據(jù),并將數(shù)據(jù)通過(guò)ETL的過(guò)程被清洗和規(guī)范化,進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)中,成為一個(gè)可用的版本。然后,通過(guò)報(bào)表和分析技術(shù),數(shù)據(jù)被切片、切塊,并交付給成千上萬(wàn)的人。擔(dān)當(dāng)數(shù)據(jù)管家保證市場(chǎng)數(shù)據(jù)的完整性,準(zhǔn)確性,唯一性,真實(shí)性和不冗余。
4.數(shù)據(jù)分析和數(shù)據(jù)科學(xué)家
數(shù)據(jù)分析和數(shù)據(jù)科學(xué)家基本屬于同一類(lèi)別的工作,這些具備專(zhuān)業(yè)領(lǐng)域知識(shí)的人士研究相應(yīng)的算法分析對(duì)應(yīng)的問(wèn)題,而數(shù)據(jù)挖掘也是其應(yīng)掌握的重要技術(shù)。幫助創(chuàng)建推動(dòng)業(yè)務(wù)發(fā)展的相應(yīng)的大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)解決方案。
雖然現(xiàn)今面臨技術(shù)人員匱乏的狀況,但也并非絕望。Cloudera公司的OmerTrajman就指出Hadoop做為大數(shù)據(jù)技術(shù)的解決方案并不像學(xué)習(xí)如何制造火箭那樣困難。幾年前,了解Hadoop的人還寥寥無(wú)幾,但現(xiàn)在越來(lái)越多的人開(kāi)始學(xué)習(xí)Hadoop。企業(yè)應(yīng)當(dāng)鼓勵(lì)并培養(yǎng)技術(shù)人員學(xué)習(xí)Hadoop技術(shù)。
六、大數(shù)據(jù)生態(tài)系統(tǒng)科學(xué)圖譜組成及
(一)大數(shù)據(jù)的生態(tài)發(fā)展
在喜新厭舊的技術(shù)初創(chuàng)企業(yè)界,已有3年歷史“大數(shù)據(jù)”聽(tīng)起來(lái)似乎已經(jīng)過(guò)氣了。雖然Hadoop在2006年已經(jīng)出來(lái),但“大數(shù)據(jù)”這個(gè)概念大概是在2011
到2014年左右才真正火起來(lái)的。也就是在這段時(shí)間里,至少是在媒體或者專(zhuān)家眼里,“大數(shù)據(jù)”成為了新的“金子”或者“石油”。然而,至少在我跟業(yè)界人士交談中,大家越來(lái)越感覺(jué)到這項(xiàng)技術(shù)已經(jīng)在某種程度上陷入了停滯。2015年可能是數(shù)據(jù)領(lǐng)域的那些酷小子轉(zhuǎn)移興趣,開(kāi)始沉迷于AI以及機(jī)器智能、深度學(xué)習(xí)等許多相關(guān)概念的年份。
圖6.1:2016年大數(shù)據(jù)版圖
拋開(kāi)不可避免的炒作周期曲線態(tài)勢(shì)不管,我們的“大數(shù)據(jù)版圖”已經(jīng)進(jìn)入第4個(gè)年頭了,趁這個(gè)時(shí)候退一步來(lái)反思一下去年發(fā)生了什么,思考一下這個(gè)行業(yè)的未來(lái)會(huì)怎樣是很有意義的。
大數(shù)據(jù)有趣的一點(diǎn)在于,它不再像當(dāng)初經(jīng)歷過(guò)那樣有可能成為炒作的題材了。 經(jīng)過(guò)炒作周期后仍能引起廣泛興趣的產(chǎn)品和服務(wù)往往那些大家能夠接觸、可以感知,或者與大眾相關(guān)聯(lián)的:比如移動(dòng)應(yīng)用、社交網(wǎng)絡(luò)、可穿戴、虛擬現(xiàn)實(shí)等。
但大數(shù)據(jù)基本上就是管道設(shè)施的一種。當(dāng)然,大數(shù)據(jù)為許多消費(fèi)者或商業(yè)用戶體驗(yàn)提供了動(dòng)力,但它的核心是企業(yè)技術(shù):數(shù)據(jù)庫(kù)、分析等,這些東西都是在后端運(yùn)行的,沒(méi)幾個(gè)人能看得見(jiàn)。就像在那個(gè)世界工作的任何人都知道那樣,用一個(gè)晚上的時(shí)間就想適應(yīng)企業(yè)端的新技術(shù)是不可能的。
大數(shù)據(jù)現(xiàn)象在早期主要是受到了與一批骨干互聯(lián)網(wǎng)公司的共生關(guān)系的推動(dòng),這些公司既是核心大數(shù)據(jù)技術(shù)的重度用戶,同時(shí)也是這些技術(shù)的創(chuàng)造者。
這些公
司突然間面對(duì)著規(guī)模前所未有的龐大數(shù)據(jù)時(shí),由于本身缺乏傳統(tǒng)的(昂貴的)基礎(chǔ)設(shè)施,也沒(méi)有辦法招募到一些最好的工程師,所以只好自己動(dòng)手來(lái)開(kāi)發(fā)所需的技術(shù)。后來(lái)隨著開(kāi)源運(yùn)動(dòng)的迅速發(fā)展,一大批此類(lèi)新技術(shù)開(kāi)始共享到更廣的范圍。然后,一些互聯(lián)網(wǎng)大公司的工程師離職去創(chuàng)辦自己的大數(shù)據(jù)初創(chuàng)企業(yè)。其他的一些“數(shù)字原生”公司,包括嶄露頭角的獨(dú)角獸公司,也開(kāi)始面臨著互聯(lián)網(wǎng)大公司的類(lèi)似需求,由于它們自身也沒(méi)有傳統(tǒng)的基礎(chǔ)設(shè)施,所以自然就成為了那些大數(shù)據(jù)技術(shù)的早期采用者。而早期的成功又導(dǎo)致了更多的創(chuàng)業(yè)活動(dòng)發(fā)生,并獲得了更多的VC資助,從而帶動(dòng)了大數(shù)據(jù)的起勢(shì)。
快速發(fā)展了幾年之后,現(xiàn)在我們面臨的是更加廣闊、但也更加棘手的機(jī)遇:讓中等規(guī)模到跨國(guó)公司級(jí)別的更大一批企業(yè)采用大數(shù)據(jù)技術(shù)。這些公司跟“數(shù)字原生”公司不一樣的是,他們沒(méi)有從零開(kāi)始的有利條件。而且他們失去的會(huì)更多:這些公司絕大部分的現(xiàn)有技術(shù)基礎(chǔ)設(shè)施都是成功的。那些基礎(chǔ)設(shè)施當(dāng)然未必是功能完備的,組織內(nèi)部許多人也意識(shí)到對(duì)自己的遺留基礎(chǔ)設(shè)施進(jìn)行現(xiàn)代化應(yīng)該是早點(diǎn)好過(guò)晚點(diǎn),但他們不會(huì)一夜間就把自己的關(guān)鍵業(yè)務(wù)取代掉。任何革命都需要過(guò)程、預(yù)算、項(xiàng)目管理、試點(diǎn)、局部部署以及完備的安全審計(jì)等。大企業(yè)對(duì)由年輕的初創(chuàng)企業(yè)來(lái)處理自己基礎(chǔ)設(shè)施的關(guān)鍵部分的謹(jǐn)慎是可以理解的。還有,令創(chuàng)業(yè)者感到絕望的是,許多企業(yè)仍頑固地拒絕把數(shù)據(jù)遷移到云端。
(二)大數(shù)據(jù)生態(tài)系統(tǒng)的組建
還需要理解的另一個(gè)關(guān)鍵是:大數(shù)據(jù)的成功組建不在于實(shí)現(xiàn)技術(shù)的某一方面,而是需要把一連串的技術(shù)、人和流程糅合到一起。你得捕捉數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)、清洗數(shù)據(jù)、查詢數(shù)據(jù)、分析數(shù)據(jù)并對(duì)數(shù)據(jù)進(jìn)行可視化。這些工作一部分可以由產(chǎn)品來(lái)完成,而有的則需要人來(lái)做。一切都需要無(wú)縫集成起來(lái)。最后,要想讓所有這一切發(fā)揮作用,整個(gè)公司從上到下都需要樹(shù)立以數(shù)據(jù)驅(qū)動(dòng)的文化,這樣大數(shù)據(jù)才不僅僅是個(gè)“東西”,而且就是那個(gè)關(guān)鍵的“東西”。即有一堆艱苦的工作要做。
所以,這就是在經(jīng)過(guò)幾年引人矚目的初創(chuàng)企業(yè)如雨后春筍冒頭,VC投資頻登頭條后,我們開(kāi)始步入大數(shù)據(jù)的部署期和早期成熟期的原因。
更有前瞻性的大公司在2011到2013年間開(kāi)始實(shí)驗(yàn)大數(shù)據(jù)技術(shù),推出了若干的Hadoop試點(diǎn)計(jì)劃或者嘗試一些點(diǎn)方案。他們招募了各種各樣此前并不存在的
崗位。他們進(jìn)行了各種努力,包括把全部數(shù)據(jù)都堆到一個(gè)數(shù)據(jù)容器,然后希望緊跟著就會(huì)發(fā)生奇跡。在逐步建設(shè)自己的內(nèi)部能力,試驗(yàn)了各種供應(yīng)商,從試點(diǎn)計(jì)劃到生產(chǎn)中的局部部署,然后到現(xiàn)在爭(zhēng)論要不要全企業(yè)鋪開(kāi)。許多情況下,他們正處在這樣一個(gè)重要的拐點(diǎn)上,即經(jīng)過(guò)大數(shù)據(jù)基礎(chǔ)設(shè)施的數(shù)年建設(shè)后,能夠展示的成果還不多,至少在公司內(nèi)部的商業(yè)用戶看來(lái)是這樣的。但是大量吃力不討好的工作已經(jīng)做完了,現(xiàn)在開(kāi)始進(jìn)入到有影響力的應(yīng)用部署階段了。只是從目前來(lái)看,這種建構(gòu)在核心架構(gòu)之上的應(yīng)用數(shù)量還不成比例。
接下來(lái)的一波大公司大多數(shù)時(shí)候?qū)Υ髷?shù)據(jù)技術(shù)是持觀望態(tài)度的,對(duì)于整個(gè)大數(shù)據(jù)方面的東西,他們還在心存一定程度困惑中觀望。直到最近,他們還在指望某個(gè)大型供應(yīng)商會(huì)提供一個(gè)一站式的解決方案,不過(guò)現(xiàn)在看來(lái)這種情況近期內(nèi)并不會(huì)出現(xiàn)。他們看待這個(gè)大數(shù)據(jù)版圖的態(tài)度是心懷恐懼,在想自己是不是真的需要跟這一堆看起來(lái)并沒(méi)有什么不同的初創(chuàng)企業(yè)合作,然后修補(bǔ)出各種解決方案。
隨著該領(lǐng)域的創(chuàng)業(yè)活動(dòng)持續(xù)進(jìn)行以及資金的不斷流入,加上適度的少量退出,以及越來(lái)越活躍的技術(shù)巨頭,使得這個(gè)領(lǐng)域的公司日益增多,最后匯成了這幅2016版的大數(shù)據(jù)版圖。
這張圖已經(jīng)很擠了,而且還有很多都沒(méi)辦法列進(jìn)去,但在基本趨勢(shì)方面,行動(dòng)開(kāi)始慢慢從左轉(zhuǎn)到右,從基礎(chǔ)設(shè)施層轉(zhuǎn)移到分析層乃至應(yīng)用層,“大數(shù)據(jù)原生應(yīng)用”已經(jīng)在迅速冒頭—這多少符合了我們?cè)鹊囊恍╊A(yù)期。
即便在數(shù)據(jù)庫(kù)的世界里,新興的廠家也越來(lái)越多。多到市場(chǎng)已經(jīng)難以承受的地步,這里發(fā)生了很多令人興奮的事情,從圖形數(shù)據(jù)庫(kù)的成熟,到專(zhuān)門(mén)數(shù)據(jù)庫(kù)的推出,乃至于CockroachDB的出現(xiàn),數(shù)據(jù)倉(cāng)庫(kù)也在演變。
其實(shí)最近出現(xiàn)復(fù)興的AI很大程度上算是大數(shù)據(jù)的產(chǎn)物。深度學(xué)習(xí)背后的算法基本上是幾十年前就誕生了的,但直到最近能夠以足夠便宜、足夠快速地應(yīng)用到大規(guī)模數(shù)據(jù)之后才發(fā)揮出了它的最大潛能。AI與大數(shù)據(jù)之間的關(guān)系如此緊密,以至于業(yè)界專(zhuān)家現(xiàn)在認(rèn)為AI已經(jīng)令人懊惱地“與大數(shù)據(jù)陷入了熱戀當(dāng)中”。
不過(guò)反過(guò)來(lái),AI現(xiàn)在也在幫助大數(shù)據(jù)實(shí)現(xiàn)后者的承諾。分析對(duì)AI/機(jī)器學(xué)習(xí)越來(lái)越多的關(guān)注也符合大數(shù)據(jù)下一步演進(jìn)的趨勢(shì):現(xiàn)在數(shù)據(jù)我都有了,但究竟從中能得到什么樣的洞察呢?當(dāng)然,這件事情可以讓數(shù)據(jù)科學(xué)家來(lái)解決,從一開(kāi)始他們的角色就是實(shí)現(xiàn)機(jī)器學(xué)習(xí),否則的話就得想出模型來(lái)發(fā)現(xiàn)數(shù)據(jù)的意義。但是
機(jī)器智能現(xiàn)在正在逐漸發(fā)揮輔助數(shù)據(jù)科學(xué)家的作用—只需要倒騰數(shù)據(jù),新興的產(chǎn)品就能從中提煉出數(shù)學(xué)公式或者自動(dòng)建立和推薦最有可能返回最佳結(jié)果的數(shù)據(jù)科學(xué)模型。一批新的AI公司提供的產(chǎn)品能夠自動(dòng)識(shí)別像圖像這樣的復(fù)雜實(shí)體,或者提供強(qiáng)大的預(yù)測(cè)性分析。
但不管怎樣,AI/機(jī)器學(xué)習(xí)絕不是大數(shù)據(jù)分析唯一值得關(guān)注的趨勢(shì)。大數(shù)據(jù)BI平臺(tái)的普遍成熟及其日益增強(qiáng)的實(shí)時(shí)能力也是一個(gè)令人興奮的趨勢(shì)。
隨著一些核心基礎(chǔ)設(shè)施的挑戰(zhàn)得到解決,大數(shù)據(jù)應(yīng)用層正在快速構(gòu)建。在企業(yè)內(nèi)部,已經(jīng)出現(xiàn)了各種工具來(lái)幫助跨多個(gè)核心職能的企業(yè)用戶。比方說(shuō),銷(xiāo)售和營(yíng)銷(xiāo)的大數(shù)據(jù)應(yīng)用通過(guò)處理大規(guī)模的內(nèi)外部數(shù)據(jù)來(lái)幫助找出哪位客戶可能會(huì)購(gòu)買(mǎi)、續(xù)約或者流失,且速度越來(lái)越實(shí)時(shí)化?头(yīng)用幫助個(gè)性化服務(wù)。人力應(yīng)用幫助找出如何吸引和挽留最好的員工等。
專(zhuān)門(mén)的大數(shù)據(jù)應(yīng)用幾乎在任何一個(gè)垂直行業(yè)都有出現(xiàn),從醫(yī)療保健到金融、時(shí)尚乃至于執(zhí)法。有兩個(gè)趨勢(shì)值得強(qiáng)調(diào)一下:
首先,這些應(yīng)用很多都是“大數(shù)據(jù)原生”的,本身都是依托在最新的大數(shù)據(jù)技術(shù)基礎(chǔ)上開(kāi)發(fā)的,代表了一種客戶無(wú)須部署底層大數(shù)據(jù)技術(shù)即可利用大數(shù)據(jù)的有趣方式—因?yàn)槟切┑讓蛹夹g(shù)已經(jīng)是打包的,至少對(duì)于特定功能來(lái)說(shuō)是這樣的。比方說(shuō),ActionIQ就是在Spark基礎(chǔ)上開(kāi)發(fā)的,所以它的客戶能夠在營(yíng)銷(xiāo)部門(mén)利用Spark的威力而不需要自己部署Spark,這種情況下是沒(méi)有“裝配線”的。
其次,AI在應(yīng)用層也有很強(qiáng)大的存在。比方說(shuō),在貓捉老鼠的安全領(lǐng)域中,AI被廣泛用來(lái)對(duì)付黑客,實(shí)時(shí)識(shí)別和對(duì)抗網(wǎng)絡(luò)攻擊。去年已經(jīng)出現(xiàn)了一個(gè)AI驅(qū)動(dòng)的數(shù)字助手行業(yè),支持從任務(wù)自動(dòng)化到會(huì)議安排以及購(gòu)物等幾乎一切事情。這些解決方案對(duì)AI的依賴程度不一,從幾乎100%自動(dòng)化到“有人參與”等情況各不相同,但是可以明確的是,人的能力在AI幫助下得到了增強(qiáng)。
(三)大數(shù)據(jù)生態(tài)系統(tǒng)的內(nèi)涵
大數(shù)據(jù)企業(yè)生態(tài)系統(tǒng)最早是由美國(guó)學(xué)者JamesMoore提出的,他借用生態(tài)學(xué)的概念來(lái)解釋企業(yè)組織及其與環(huán)境之間的關(guān)系。Moore,J.認(rèn)為企業(yè)生態(tài)系統(tǒng)是指由相互作用的企業(yè)組織與個(gè)人所形成的經(jīng)濟(jì)群體,包括生產(chǎn)商、銷(xiāo)售商、消費(fèi)者、供應(yīng)商、投資商、競(jìng)爭(zhēng)者、互補(bǔ)者、企業(yè)所有者以及有關(guān)的政府。該概念表
示企業(yè)生態(tài)系統(tǒng)是一個(gè)相對(duì)開(kāi)放的系統(tǒng),這個(gè)系統(tǒng)中所有的組成要素相互影響、相互促進(jìn);同時(shí),企業(yè)生態(tài)系統(tǒng)也會(huì)受到外部環(huán)境的制約和影響,企業(yè)生態(tài)系統(tǒng)在各種內(nèi)外部力量的作用下得到演化和發(fā)展。
“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)和外部環(huán)境之間的邊界日趨模糊,信息共享和知識(shí)溢出已成為企業(yè)生態(tài)系統(tǒng)中各成員合作競(jìng)爭(zhēng)與協(xié)同演化的主要方式之
一。在這種競(jìng)爭(zhēng)環(huán)境下,信息和知識(shí)成了企業(yè)經(jīng)營(yíng)管理中的重要生產(chǎn)要素,也是決定企業(yè)創(chuàng)新能力的關(guān)鍵。通過(guò)選擇和構(gòu)建良好的企業(yè)生態(tài)系統(tǒng),從外界獲取有價(jià)值的數(shù)據(jù)和知識(shí),是企業(yè)提高核心競(jìng)爭(zhēng)力、獲取持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的重要途徑。
(四)大數(shù)據(jù)生態(tài)系統(tǒng)的重新審視
6.4.1產(chǎn)業(yè)環(huán)境:行業(yè)融合與細(xì)分協(xié)同演化
企業(yè)生態(tài)理論認(rèn)為,包含眾多企業(yè)的企業(yè)生態(tài)系統(tǒng)與外部環(huán)境相互交流相互影響,企業(yè)生態(tài)系統(tǒng)不僅受到外部環(huán)境的制約,同時(shí)它也具備影響甚至改變環(huán)境的能力。隨著“大數(shù)據(jù)”時(shí)代的到來(lái),企業(yè)生態(tài)系統(tǒng)的產(chǎn)業(yè)環(huán)境發(fā)生了革命性的變化,呈現(xiàn)出產(chǎn)業(yè)融合與細(xì)分協(xié)同演化格局。一方面,產(chǎn)業(yè)融合愈發(fā)明顯,以前認(rèn)為不相關(guān)的行業(yè)通過(guò)“大數(shù)據(jù)”技術(shù)有了內(nèi)在的關(guān)聯(lián),行業(yè)之間潛在的價(jià)值關(guān)聯(lián)有了新的表現(xiàn)形式。如傳統(tǒng)的零售企業(yè)開(kāi)始進(jìn)軍電子商務(wù);物業(yè)管理公司通過(guò)對(duì)社區(qū)視頻數(shù)據(jù)分析能夠開(kāi)展個(gè)性化的廣告業(yè)務(wù);從事電子商務(wù)的阿里巴巴已涉及金融、物流、云計(jì)算等行業(yè)。因此,“大數(shù)據(jù)”的挖掘和應(yīng)用促進(jìn)了行業(yè)間的融合,也創(chuàng)新了企業(yè)的盈利模式。
另一方面,“大數(shù)據(jù)”時(shí)代企業(yè)生態(tài)系統(tǒng)變得更加開(kāi)放,競(jìng)爭(zhēng)異常激烈,廣泛而清晰地對(duì)“大數(shù)據(jù)”進(jìn)行挖掘和細(xì)分,找到企業(yè)在垂直領(lǐng)域的業(yè)務(wù)和應(yīng)用,已經(jīng)成為企業(yè)脫穎而出形成競(jìng)爭(zhēng)優(yōu)勢(shì)的重要方式。如社交網(wǎng)絡(luò)的發(fā)展,誕生了一批專(zhuān)注開(kāi)發(fā)導(dǎo)購(gòu)應(yīng)用程序的企業(yè),通過(guò)收集客戶社交數(shù)據(jù)挖掘其內(nèi)在的商品偏好和需求,為相關(guān)的電子商務(wù)企業(yè)提供商品導(dǎo)購(gòu)服務(wù)。例如,“大數(shù)據(jù)”也不再是企業(yè)生態(tài)系統(tǒng)中的大企業(yè)所獨(dú)占,中小企業(yè)也可以從“大數(shù)據(jù)”中挖掘有價(jià)值的信息,成為細(xì)分市場(chǎng)的核心資源,為自身的業(yè)務(wù)提供支持。
因此,在“大數(shù)據(jù)”時(shí)代,企業(yè)生態(tài)系統(tǒng)面臨的產(chǎn)業(yè)環(huán)境精彩紛呈,這種產(chǎn)
業(yè)環(huán)境的變化改變了企業(yè)對(duì)外部資源需求的內(nèi)容和方式,創(chuàng)新了企業(yè)創(chuàng)造價(jià)值、傳遞價(jià)值的方式和路徑,模糊化了企業(yè)生態(tài)系統(tǒng)的資源邊界、市場(chǎng)邊界和契約邊界,企業(yè)生態(tài)系統(tǒng)必將形成以“大數(shù)據(jù)”為核心資源的業(yè)務(wù)融合與市場(chǎng)細(xì)分協(xié)同演化,重構(gòu)其內(nèi)部?jī)r(jià)值網(wǎng)絡(luò)和外部關(guān)系網(wǎng)絡(luò)。
6.4.2運(yùn)營(yíng)模式:基于“大數(shù)據(jù)”的協(xié)同運(yùn)作
在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的協(xié)同合作更為緊密和精確,基于“大數(shù)據(jù)”資源構(gòu)建以流程優(yōu)化和客戶訂單為導(dǎo)向的協(xié)同運(yùn)作模式已成為企業(yè)生態(tài)系統(tǒng)的主要運(yùn)營(yíng)模式,基于“大數(shù)據(jù)”應(yīng)用的協(xié)同運(yùn)作主要表現(xiàn)為:
協(xié)同設(shè)計(jì)。在產(chǎn)品的設(shè)計(jì)階段,加強(qiáng)伙伴間的合作與溝通,傾聽(tīng)客戶的心聲、考慮產(chǎn)品對(duì)環(huán)境的影響是提高產(chǎn)品競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵,這就需要企業(yè)生態(tài)系統(tǒng)的各成員共同參與進(jìn)行協(xié)同設(shè)計(jì)。傳統(tǒng)的設(shè)計(jì)都是基于企業(yè)自身收集的歷史數(shù)據(jù)和靜態(tài)數(shù)據(jù),不能實(shí)時(shí)動(dòng)態(tài)的把握客戶的需求變化。“大數(shù)據(jù)”資源的開(kāi)發(fā)和應(yīng)用,為企業(yè)生態(tài)系統(tǒng)的協(xié)同設(shè)計(jì)提供了數(shù)據(jù)支撐和智力支持,企業(yè)通過(guò)構(gòu)建基于“大數(shù)據(jù)”的協(xié)同產(chǎn)品設(shè)計(jì)平臺(tái),實(shí)時(shí)獲取設(shè)計(jì)研發(fā)企業(yè)、生產(chǎn)制造企業(yè)、銷(xiāo)售企業(yè)等成員企業(yè)的反饋信息和知識(shí)溢出,為提高產(chǎn)品設(shè)計(jì)質(zhì)量提供了智力支持。同時(shí),“大數(shù)據(jù)”技術(shù)的應(yīng)用,能實(shí)時(shí)捕捉客戶的需求數(shù)據(jù),針對(duì)每一個(gè)消費(fèi)者進(jìn)行完全個(gè)性化設(shè)計(jì)。例如,玩具行業(yè)巨頭樂(lè)高基于在線訂購(gòu)的允許客戶組裝他們自己樂(lè)高套件的樂(lè)高工廠,對(duì)其所需的玩具進(jìn)行自我設(shè)計(jì),以實(shí)現(xiàn)客戶參與玩具的創(chuàng)造。
協(xié)同生產(chǎn)。協(xié)同生產(chǎn)的本質(zhì)就是企業(yè)在應(yīng)用CAD、CAM、CAPP、ERP等管理信息系統(tǒng)的基礎(chǔ)上,將任務(wù)實(shí)時(shí)合理的安排給各成員企業(yè)和企業(yè)內(nèi)部的各制造單元。這個(gè)過(guò)程難度最大的就是對(duì)來(lái)自企業(yè)內(nèi)外部制造過(guò)程中多態(tài)的、異構(gòu)的、實(shí)時(shí)數(shù)據(jù)的整合和應(yīng)用,“大數(shù)據(jù)”技術(shù)開(kāi)發(fā)和平臺(tái)應(yīng)用為實(shí)現(xiàn)協(xié)同生產(chǎn)提供了便利。如以MapReduce和Hadoop為代表的非關(guān)系數(shù)據(jù)分析技術(shù),可以直接對(duì)復(fù)雜異構(gòu)的數(shù)據(jù)進(jìn)行分析,避免了傳統(tǒng)數(shù)據(jù)庫(kù)耗費(fèi)大量時(shí)間從不同來(lái)源抽取數(shù)據(jù)加以合并才能用于分析的復(fù)雜過(guò)程。通過(guò)應(yīng)用這些“大數(shù)據(jù)”處理技術(shù),企業(yè)實(shí)時(shí)收集處理供應(yīng)商數(shù)據(jù)、客戶訂單數(shù)據(jù)、生產(chǎn)車(chē)間信息、競(jìng)爭(zhēng)對(duì)手信息、外部市場(chǎng)需求等信息,協(xié)調(diào)原材料提供商、半成品生產(chǎn)企業(yè)、產(chǎn)品生產(chǎn)企業(yè)等合作伙伴的生產(chǎn)決
策,優(yōu)化企業(yè)生態(tài)系統(tǒng)的流程,實(shí)現(xiàn)協(xié)同生產(chǎn)。
協(xié)同庫(kù)存。傳統(tǒng)的企業(yè)庫(kù)存管理中,滿足客戶需求的同時(shí)又盡可能地降低庫(kù)存成本一直是企業(yè)需要破解的難題,“大數(shù)據(jù)”的開(kāi)發(fā)和應(yīng)用為解決這一難題提供了可能。企業(yè)生態(tài)系統(tǒng)中的合作伙伴,通過(guò)對(duì)客戶企業(yè)的實(shí)時(shí)交易數(shù)據(jù)、實(shí)時(shí)生產(chǎn)信息、消費(fèi)信息等數(shù)據(jù)的分析,能提前預(yù)判客戶市場(chǎng)的需要并進(jìn)行庫(kù)存補(bǔ)給和管理。例如,全球最大的零售企業(yè)沃爾瑪和寶潔公司,建立了基于衛(wèi)星分析的聯(lián)合庫(kù)存管理系統(tǒng),寶潔公司每天能對(duì)沃爾瑪銷(xiāo)售自己產(chǎn)品的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析,并根據(jù)分析結(jié)果預(yù)測(cè)和補(bǔ)充庫(kù)存,既保證了客戶的需要又降低了庫(kù)存成本。
協(xié)同物流。物流運(yùn)輸規(guī)劃的基石是數(shù)據(jù),“大數(shù)據(jù)”的特征為企業(yè)生態(tài)系統(tǒng)中各合作伙伴實(shí)施協(xié)同物流提供了天然優(yōu)勢(shì)。企業(yè)通過(guò)實(shí)時(shí)收集和分析供應(yīng)鏈系統(tǒng)中原材料、半成品、產(chǎn)品的物流運(yùn)輸信息,從供應(yīng)鏈系統(tǒng)視角對(duì)各節(jié)點(diǎn)企業(yè)的倉(cāng)儲(chǔ)選址、物流配送線路、逆向物流進(jìn)行協(xié)調(diào)優(yōu)化,充分利用物流信息資源提高物流效率。如Teradata天睿公司通過(guò)建立了“大數(shù)據(jù)”分析系統(tǒng),通過(guò)獲取、整合、分析客戶企業(yè)、物流設(shè)備、物流運(yùn)輸線路、天氣等的信息數(shù)據(jù),做到智能化的實(shí)時(shí)安排物流線路,實(shí)現(xiàn)整個(gè)合作伙伴的協(xié)同物流。
因此,通過(guò)“大數(shù)據(jù)”的整合和分析,企業(yè)生態(tài)系統(tǒng)的合作伙伴能優(yōu)化企業(yè)內(nèi)外部流程,提高產(chǎn)品質(zhì)量,降低資源消耗,實(shí)現(xiàn)個(gè)性化定制生產(chǎn)的同時(shí)能更好地適應(yīng)環(huán)境的變化,以實(shí)現(xiàn)協(xié)同運(yùn)作。
(五)大數(shù)據(jù)生態(tài)系統(tǒng)資源的多元化
在“大數(shù)據(jù)”背景下,信息數(shù)據(jù)已經(jīng)成為企業(yè)生態(tài)系統(tǒng)中核心資產(chǎn),數(shù)據(jù)傳遞、信息共享已經(jīng)成為企業(yè)生態(tài)系統(tǒng)中成員的重要合作途徑。由于“大數(shù)據(jù)”資源的動(dòng)態(tài)配置和應(yīng)用,企業(yè)生態(tài)系統(tǒng)的合作方式呈現(xiàn)出多元化,主要有:
業(yè)務(wù)外包(Outsourcing)。以“大數(shù)據(jù)”為核心資源的運(yùn)營(yíng)體系中,“大數(shù)據(jù)”運(yùn)行的基礎(chǔ)設(shè)施和技術(shù)開(kāi)發(fā)具有投入成本大、風(fēng)險(xiǎn)高等特征;同時(shí),“大數(shù)據(jù)”資源具有易復(fù)制、易傳播、價(jià)值流失快等特點(diǎn),這就使得企業(yè)在“大數(shù)據(jù)”資源獲取和利用方面傾向選擇生態(tài)系統(tǒng)中合作伙伴的分享與合作,以實(shí)現(xiàn)企業(yè)生態(tài)系統(tǒng)中“大數(shù)據(jù)”資源的柔性配置和規(guī)模效率,因此,業(yè)務(wù)外包已經(jīng)成為企業(yè)生態(tài)系統(tǒng)協(xié)同商務(wù)的主要形式之一,如IT設(shè)施外包、“大數(shù)據(jù)”軟件開(kāi)發(fā)外包、數(shù)據(jù)
管理外包等。
眾包(Crowdsourcing)。眾包是指把傳統(tǒng)上由指定代理人(如雇員)完成的任務(wù)以公開(kāi)選拔的形式外包給大量不特定的個(gè)人去做的行為。眾包模式的實(shí)質(zhì)是對(duì)離散、零亂的資源的有效利用,深度挖掘“大數(shù)據(jù)”蘊(yùn)含企業(yè)生態(tài)系統(tǒng)的集體智慧,為企業(yè)提供創(chuàng)意設(shè)計(jì)、生產(chǎn)規(guī)劃、市場(chǎng)推廣、策略評(píng)估等服務(wù)。如IT產(chǎn)業(yè),開(kāi)源社區(qū)(openSourceCommunity)就是眾包的典型模式,各大IT巨頭都爭(zhēng)相采取這種模式構(gòu)建自己的創(chuàng)新生態(tài)系統(tǒng)。許多世界性大公司也都建立了自己的網(wǎng)絡(luò)平臺(tái)或者借助眾包中介(CrowdsourcingIntermediates)以眾包方式解決技術(shù)、創(chuàng)意、設(shè)計(jì)等原來(lái)由企業(yè)內(nèi)部流程和資源完成的活動(dòng)。例如,加拿大礦產(chǎn)公司GoldCorp為解決RedLake礦區(qū)的礦脈定位問(wèn)題,在網(wǎng)絡(luò)上公布了該礦區(qū)幾十年來(lái)全部的地質(zhì)數(shù)據(jù),在短短幾周內(nèi)收到大量網(wǎng)民的積極反饋,并根據(jù)網(wǎng)民建議從110個(gè)礦點(diǎn)中準(zhǔn)確地發(fā)現(xiàn)了80多處礦藏。
共同創(chuàng)造(Co-creation)。共同創(chuàng)造就是讓企業(yè)生態(tài)系統(tǒng)中各成員企業(yè)、消費(fèi)者、投資商、競(jìng)爭(zhēng)者、互補(bǔ)者、政府組織等主體共同參與產(chǎn)品的價(jià)值創(chuàng)造。從企業(yè)生態(tài)系統(tǒng)商務(wù)圈的視角看,實(shí)現(xiàn)共同創(chuàng)造的基本途徑就是企業(yè)整合來(lái)自多元系統(tǒng)的數(shù)據(jù),包括外部生態(tài)系統(tǒng)、外部供應(yīng)商、消費(fèi)者等獲取信息數(shù)據(jù)以共創(chuàng)產(chǎn)品。例如,玩具行業(yè)巨頭樂(lè)高基于在線訂購(gòu)的允許客戶組裝他們自己樂(lè)高套件的樂(lè)高工廠,以實(shí)現(xiàn)客戶參與玩具的創(chuàng)造。
(六)大數(shù)據(jù)生態(tài)系統(tǒng)的個(gè)性化精準(zhǔn)細(xì)分
當(dāng)今市場(chǎng)的競(jìng)爭(zhēng)日趨激烈,客戶需求高度個(gè)性化,產(chǎn)品的生命周期越來(lái)越短,傳統(tǒng)的企業(yè)數(shù)據(jù)主要來(lái)自客戶信息、產(chǎn)品、交易等結(jié)構(gòu)化數(shù)據(jù),難以對(duì)客戶的潛在需求進(jìn)行精確的預(yù)判和個(gè)性化的細(xì)分!按髷(shù)據(jù)”技術(shù)的開(kāi)發(fā)和應(yīng)用,使得企業(yè)進(jìn)行客戶市場(chǎng)決策所依賴的市場(chǎng)信息在數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)模態(tài)和時(shí)效上都發(fā)生了根本性的變化,能對(duì)客戶的行為、狀態(tài)、商務(wù)圈等非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行動(dòng)態(tài)的監(jiān)控和實(shí)時(shí)挖掘,深刻洞察用戶消費(fèi)動(dòng)機(jī)和偏好。
因此,這種“大數(shù)據(jù)”的變化引發(fā)了企業(yè)生態(tài)系統(tǒng)營(yíng)銷(xiāo)環(huán)境的變革,讓企業(yè)在目標(biāo)市場(chǎng)選擇和營(yíng)銷(xiāo)管理決策時(shí)進(jìn)行定量分析和提前預(yù)判,通過(guò)對(duì)其生態(tài)系統(tǒng)中客戶信息全面的分析和處理,就能實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),降低營(yíng)銷(xiāo)成本,提高營(yíng)銷(xiāo)效
果。
(七)大數(shù)據(jù)生態(tài)系統(tǒng)的演化
6.7.1“大數(shù)據(jù)”時(shí)代企業(yè)生態(tài)系統(tǒng)演化的內(nèi)在機(jī)理
企業(yè)生態(tài)系統(tǒng)是一個(gè)動(dòng)態(tài)、復(fù)雜系統(tǒng),其演化過(guò)程表現(xiàn)出很強(qiáng)的自組織過(guò)程特征,根據(jù)耗散結(jié)構(gòu)理論,系統(tǒng)產(chǎn)生自組織現(xiàn)象,形成耗散結(jié)構(gòu),必須滿足以下條件:開(kāi)放及開(kāi)放到一定程度、遠(yuǎn)離平衡態(tài)、非線性相互作用和漲落。這些條件在企業(yè)生態(tài)系統(tǒng)的形成過(guò)程中均有著自己的作用,也是促使企業(yè)生態(tài)系統(tǒng)演化的內(nèi)在條件和動(dòng)力。在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)這些自組織形成的條件顯得更加明顯和充分。
企業(yè)生態(tài)系統(tǒng)的開(kāi)放性及開(kāi)放程度。企業(yè)生態(tài)系統(tǒng)不是封閉孤立的系統(tǒng),一方面,它必須不斷從周?chē)h(huán)境輸入維持其運(yùn)行與發(fā)展所必需的能量、物質(zhì)與信息;另一方面,它又必須將自身所產(chǎn)生的能量、物質(zhì)或信息輸出給周?chē)h(huán)境,如產(chǎn)品提供、知識(shí)溢出、環(huán)境污染等。在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的開(kāi)放性更加明顯,開(kāi)放程度更高。表現(xiàn)為:①以互聯(lián)網(wǎng)、海量數(shù)據(jù)存儲(chǔ)、云計(jì)算等為代表的信息技術(shù)讓企業(yè)生態(tài)系統(tǒng)的成員從外界獲取產(chǎn)品、客戶、市場(chǎng)、競(jìng)爭(zhēng)對(duì)手等方面的數(shù)據(jù)更加便利;②“大數(shù)據(jù)”的處理和應(yīng)用,企業(yè)生態(tài)系統(tǒng)內(nèi)部各合作伙伴之間的數(shù)據(jù)傳遞和信息共享更加頻繁,對(duì)企業(yè)決策的影響愈發(fā)明顯;③各企業(yè)生態(tài)系統(tǒng)之間的知識(shí)溢出更加豐富,合作與競(jìng)爭(zhēng)呈現(xiàn)出多元化趨勢(shì)。
因此,基于“大數(shù)據(jù)”的連接與融合,企業(yè)生態(tài)系統(tǒng)傳統(tǒng)的企業(yè)邊界、行業(yè)邊界愈發(fā)模糊,企業(yè)生態(tài)系統(tǒng)的開(kāi)放性更加明顯,企業(yè)不僅要適應(yīng)環(huán)境,參與開(kāi)放系統(tǒng)的競(jìng)爭(zhēng),而且也具備了影響和改變環(huán)境的條件和能力。
企業(yè)生態(tài)系統(tǒng)遠(yuǎn)離平衡態(tài)。企業(yè)生態(tài)系統(tǒng)遠(yuǎn)離平衡態(tài)意味著系統(tǒng)內(nèi)部存在著物質(zhì)轉(zhuǎn)換、能量流動(dòng)、信息傳遞等各種活動(dòng)狀態(tài),呈現(xiàn)出各種活動(dòng)的交鋒與激烈碰撞,這種碰撞在企業(yè)生態(tài)系統(tǒng)中表現(xiàn)為遠(yuǎn)離平衡態(tài)的企業(yè)間橫向整合和縱向應(yīng)用,如行業(yè)競(jìng)爭(zhēng)對(duì)手的消失以及潛在威脅者的加入、企業(yè)戰(zhàn)略聯(lián)盟的形成與瓦解、供應(yīng)鏈中節(jié)點(diǎn)企業(yè)的退出與新合作伙伴的加入,客戶的維系與流失。
企業(yè)生態(tài)系統(tǒng)內(nèi)部的非線性相互作用。根據(jù)自組織理論,企業(yè)生態(tài)系統(tǒng)的自組織演化就是在其內(nèi)部大量子系統(tǒng)以及企業(yè)和其他組織在既競(jìng)爭(zhēng)又協(xié)同的非線
性相互作用下發(fā)生、發(fā)展的。“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的非線性作用一方面表現(xiàn)為企業(yè)間的競(jìng)爭(zhēng)關(guān)系,各企業(yè)力爭(zhēng)通過(guò)對(duì)“大數(shù)據(jù)”的分析來(lái)獲取資源、技術(shù)、客戶,并采取保密和限制等措施防止自身的數(shù)據(jù)外泄和知識(shí)溢出,以使自身取得功能上的有利態(tài)勢(shì)與協(xié)商中的有利地位,從而加速了非平衡的競(jìng)爭(zhēng)關(guān)系。另一方面,“大數(shù)據(jù)”技術(shù)促使企業(yè)生態(tài)系統(tǒng)內(nèi)部進(jìn)一步協(xié)同合作,以電子商務(wù)平臺(tái)以及中介網(wǎng)絡(luò)平臺(tái)的雙方或多方互動(dòng)數(shù)據(jù),掌握了更精確更豐富的決策信息,對(duì)降低市場(chǎng)中供需雙方的信息不對(duì)稱、解決市場(chǎng)失效、提高企業(yè)利潤(rùn)起著關(guān)鍵的作用;如供應(yīng)鏈伙伴之間通過(guò)監(jiān)測(cè)、分析、共享各環(huán)節(jié)的數(shù)據(jù)實(shí)現(xiàn)聯(lián)合庫(kù)存和準(zhǔn)時(shí)制造,提升了整個(gè)生態(tài)系統(tǒng)伙伴的競(jìng)爭(zhēng)力。因此,“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)各要素之間表現(xiàn)為既競(jìng)爭(zhēng)又合作的非線性作用,推動(dòng)企業(yè)生態(tài)系統(tǒng)的優(yōu)化和動(dòng)態(tài)發(fā)展。
企業(yè)生態(tài)系統(tǒng)的漲落。漲落指系統(tǒng)參量在一個(gè)數(shù)值上下震蕩的現(xiàn)象,它是系統(tǒng)形成有序結(jié)構(gòu)的原始動(dòng)力,企業(yè)生態(tài)系統(tǒng)漲落的結(jié)果是使偏離平衡態(tài)的系統(tǒng)恢復(fù)到原來(lái)的狀態(tài),或者使處于某一臨界點(diǎn)上的系統(tǒng)達(dá)到一種新的穩(wěn)定狀態(tài),呈現(xiàn)出原有狀態(tài)所不具備的新功能,實(shí)現(xiàn)企業(yè)生態(tài)系統(tǒng)的升級(jí)與進(jìn)化。“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的各成員表現(xiàn)得更為動(dòng)態(tài)和不確定性,其結(jié)構(gòu)也更具脆弱性,以知識(shí)為核心要素的技術(shù)創(chuàng)新對(duì)企業(yè)生態(tài)系統(tǒng)漲落的沖擊力更大。因此,有價(jià)值的數(shù)據(jù)是企業(yè)制定戰(zhàn)略決策、技術(shù)創(chuàng)新、挖掘顧客需求的指南針,也是改變企業(yè)生態(tài)系統(tǒng)的有序結(jié)構(gòu)、形成企業(yè)生態(tài)系統(tǒng)耗散結(jié)構(gòu)的觸發(fā)器,從而促使企業(yè)生態(tài)系統(tǒng)偏離原有的穩(wěn)定狀態(tài),進(jìn)入新的穩(wěn)定狀態(tài)。
6.7.2“大數(shù)據(jù)”時(shí)代企業(yè)生態(tài)系統(tǒng)演化的外部機(jī)制
上面基于自組織理論分析了“大數(shù)據(jù)”時(shí)代企業(yè)生態(tài)系統(tǒng)演化的內(nèi)在機(jī)理,這是決定企業(yè)生態(tài)系統(tǒng)演化的方向和狀態(tài),但各組織在企業(yè)生態(tài)系統(tǒng)演化的過(guò)程中還得經(jīng)過(guò)環(huán)境的選擇,只有適應(yīng)環(huán)境并得以健康發(fā)展的企業(yè)生態(tài)系統(tǒng)才是真正的演化,所以,環(huán)境選擇成為企業(yè)生態(tài)系統(tǒng)演化的外部機(jī)制。
在“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)面對(duì)的環(huán)境選擇更為復(fù)雜,外部環(huán)境可能是企業(yè)生態(tài)系統(tǒng)的穩(wěn)定有序演化的助推器,也可能是破壞和干擾企業(yè)生態(tài)系統(tǒng)有序運(yùn)行的導(dǎo)火線。外部環(huán)境的選擇主要包括三個(gè)方面:第一,企業(yè)生態(tài)系統(tǒng)之間的復(fù)雜競(jìng)爭(zhēng)關(guān)系,企業(yè)生態(tài)系統(tǒng)之間基于數(shù)據(jù)情報(bào)的市場(chǎng)爭(zhēng)奪、技術(shù)競(jìng)爭(zhēng)和產(chǎn)
品較量更為直接和激烈;另一方面,被“大數(shù)據(jù)”信息包圍的企業(yè)生態(tài)系統(tǒng)開(kāi)放程度更高、界限更為模糊,企業(yè)生態(tài)系統(tǒng)之間呈現(xiàn)出協(xié)同、融合等狀態(tài),如企業(yè)生態(tài)系統(tǒng)之間的知識(shí)溢出、技術(shù)創(chuàng)新呈現(xiàn)出相互學(xué)習(xí)、相互促進(jìn)。這種基于“大數(shù)據(jù)”的連接與融合,會(huì)突破傳統(tǒng)的企業(yè)生態(tài)系統(tǒng)邊界,引發(fā)基于“大數(shù)據(jù)”的產(chǎn)業(yè)鏈延伸和行業(yè)變革。第二,“大數(shù)據(jù)”背景下,社會(huì)、經(jīng)濟(jì)、文化等環(huán)境因素的改變,包括客戶需求和消費(fèi)習(xí)慣呈現(xiàn)出完全的個(gè)性化和多樣化、“大數(shù)據(jù)”技術(shù)引導(dǎo)的政府政策的設(shè)計(jì)和選擇、企業(yè)生態(tài)文化融合性等方面都會(huì)直接沖擊到企業(yè)生態(tài)系統(tǒng)演化的速度和效果。第三,自然界因素,如企業(yè)生態(tài)系統(tǒng)生存發(fā)展過(guò)程中所需的自然資源、物質(zhì)介質(zhì)等自然界的因素。
因此,“大數(shù)據(jù)”的處理和應(yīng)用,企業(yè)不僅能適應(yīng)環(huán)境,參與開(kāi)放系統(tǒng)的競(jìng)爭(zhēng),而且也具備了影響和改變環(huán)境的條件和能力。在企業(yè)生態(tài)系統(tǒng)自組織的內(nèi)部動(dòng)力和外部環(huán)境相互作用下,會(huì)進(jìn)行方向性的戰(zhàn)略選擇,實(shí)現(xiàn)整個(gè)企業(yè)生態(tài)系統(tǒng)的優(yōu)化和升級(jí)。
(八)大數(shù)據(jù)生態(tài)系統(tǒng)的構(gòu)建策略
在“大數(shù)據(jù)”時(shí)代,遵循企業(yè)生態(tài)系統(tǒng)的特征和演化規(guī)律,建構(gòu)良好的企業(yè)生態(tài)系統(tǒng)是企業(yè)獲取持續(xù)競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵。
6.8.1構(gòu)筑以“大數(shù)據(jù)”為核心資源的企業(yè)生態(tài)系統(tǒng)商業(yè)模式
“大數(shù)據(jù)”技術(shù)的發(fā)展為信息的分離提供了平臺(tái)和工具,通過(guò)對(duì)“大數(shù)據(jù)”資源的分類(lèi)整理和重新聚合,能夠形成新的信息和資源。對(duì)“大數(shù)據(jù)”資源規(guī)模經(jīng)濟(jì)和范圍經(jīng)濟(jì)的追求促使了以“大數(shù)據(jù)”為中心的價(jià)值鏈延伸,通過(guò)數(shù)據(jù)挖掘、分享、價(jià)值傳遞,必將引起企業(yè)生態(tài)系統(tǒng)的價(jià)值主張、業(yè)務(wù)流程、盈利模式、價(jià)值網(wǎng)絡(luò)等商業(yè)模式要素的改變,形成企業(yè)生態(tài)系統(tǒng)新的商業(yè)模式。例如,淘寶網(wǎng)在運(yùn)行的過(guò)程中采集和存儲(chǔ)了海量的交易數(shù)據(jù),并構(gòu)建了自己高性能的云存儲(chǔ)系統(tǒng)OceanBase,該云存儲(chǔ)系統(tǒng)形成了面向進(jìn)駐商家的多項(xiàng)數(shù)據(jù)產(chǎn)品,不僅能為商品企業(yè)、淘寶賣(mài)家、交易中介、消費(fèi)者提供各類(lèi)優(yōu)化工具和數(shù)據(jù)服務(wù);同時(shí),利用OceanBase開(kāi)源還可以為非淘寶的其他電子商務(wù)網(wǎng)站提供數(shù)據(jù)產(chǎn)品服務(wù),為各類(lèi)網(wǎng)站及社區(qū)提供電子商務(wù)解決方案,徹底完成了從交易平臺(tái)到為整個(gè)生態(tài)系統(tǒng)
提供商務(wù)服務(wù)的角色轉(zhuǎn)變,創(chuàng)新了以“大數(shù)據(jù)”為核心資源的商業(yè)模式。
6.8.2暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道
“大數(shù)據(jù)”具有多樣化、數(shù)據(jù)量大、生產(chǎn)的和處理的速度快等特征,一般無(wú)法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理和服務(wù)。因此,建立在“大數(shù)據(jù)”基礎(chǔ)的企業(yè)生態(tài)系統(tǒng)必須打造先進(jìn)的基礎(chǔ)設(shè)施,構(gòu)建良好的數(shù)據(jù)處理和知識(shí)共享環(huán)境,暢通企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)交流渠道。這主要包括:
①加大對(duì)計(jì)算機(jī)基礎(chǔ)設(shè)施建設(shè)的投入,建設(shè)高效的企業(yè)生態(tài)系統(tǒng)網(wǎng)絡(luò)、服務(wù)器處理和存儲(chǔ)系統(tǒng)、云計(jì)算平臺(tái)等硬件系統(tǒng),提高處理數(shù)據(jù)的效率;
②促進(jìn)數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建設(shè),建立對(duì)非結(jié)構(gòu)化數(shù)據(jù)、非數(shù)值型數(shù)據(jù)進(jìn)行有效管理的數(shù)據(jù)存儲(chǔ)系統(tǒng);
③開(kāi)發(fā)科學(xué)的數(shù)據(jù)挖掘系統(tǒng),建立良好的數(shù)據(jù)收集、處理、挖掘、決策支持等軟件系統(tǒng);
④要結(jié)合企業(yè)生態(tài)系統(tǒng)的實(shí)際應(yīng)用開(kāi)辟數(shù)據(jù)交流與共享的渠道,如電子社區(qū)、企業(yè)生態(tài)系統(tǒng)內(nèi)部網(wǎng)、供應(yīng)鏈協(xié)同知識(shí)管理系統(tǒng)等。通過(guò)構(gòu)建良好的數(shù)據(jù)處理和知識(shí)共享系統(tǒng),就能形成“大數(shù)據(jù)”核心資產(chǎn),提高“大數(shù)據(jù)”的傳遞和應(yīng)用效益。
6.8.3創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動(dòng)流程
“大數(shù)據(jù)”背景下,企業(yè)生態(tài)系統(tǒng)的主體、資源、結(jié)構(gòu)、價(jià)值、邊界網(wǎng)絡(luò)等要素進(jìn)行不斷的動(dòng)態(tài)演化和重構(gòu),創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動(dòng)流程是企業(yè)生態(tài)系統(tǒng)獲取競(jìng)爭(zhēng)優(yōu)勢(shì)的動(dòng)力源泉。創(chuàng)新以“大數(shù)據(jù)”為基礎(chǔ)的關(guān)鍵業(yè)務(wù)和活動(dòng)流程主要包括:
①基于“大數(shù)據(jù)”的流程優(yōu)化,提高業(yè)務(wù)流程的處理效率。如物流企業(yè)通過(guò)對(duì)合作伙伴多維“大數(shù)據(jù)”的分析,找出企業(yè)物流配送的最優(yōu)運(yùn)輸模式和路線,提高物流配送效率;
②應(yīng)用“大數(shù)據(jù)”作為企業(yè)活動(dòng)的關(guān)鍵資源,創(chuàng)新企業(yè)生態(tài)系統(tǒng)的價(jià)值活動(dòng)。如玩具制造企業(yè),通過(guò)挖掘企業(yè)生態(tài)系統(tǒng)中合作伙伴的交易數(shù)據(jù)、客戶購(gòu)買(mǎi)行為
數(shù)據(jù)、產(chǎn)品質(zhì)量數(shù)據(jù)等關(guān)鍵資源,改進(jìn)產(chǎn)品的設(shè)計(jì)和性能,創(chuàng)造企業(yè)新的價(jià)值增長(zhǎng)點(diǎn);
③以“大數(shù)據(jù)”活動(dòng)取代企業(yè)傳統(tǒng)的業(yè)務(wù)和流程,形成企業(yè)生態(tài)系統(tǒng)新的經(jīng)營(yíng)方式和合作模式。如沃爾瑪和寶潔公司,通過(guò)對(duì)商業(yè)數(shù)據(jù)的分析形成聯(lián)合庫(kù)存管理,改變了傳統(tǒng)的庫(kù)存管理的業(yè)務(wù)類(lèi)型和活動(dòng)流程。
6.8.4構(gòu)建精確的客戶關(guān)系管理系統(tǒng)
當(dāng)今經(jīng)濟(jì)已進(jìn)入買(mǎi)方市場(chǎng),實(shí)時(shí)的、動(dòng)態(tài)的、個(gè)性化的客戶需求愈發(fā)難以預(yù)測(cè),并成為企業(yè)生態(tài)系統(tǒng)中最不確定的因素,F(xiàn)有的企業(yè)CRM其數(shù)據(jù)主要來(lái)自客戶、產(chǎn)品、交易等結(jié)構(gòu)化數(shù)據(jù),對(duì)客戶的行為、狀態(tài)、商務(wù)圈等非結(jié)構(gòu)化的數(shù)據(jù)還不能動(dòng)態(tài)的實(shí)時(shí)挖掘和處理,難以對(duì)客戶的潛在需求進(jìn)行精確的預(yù)判和定位。在大數(shù)據(jù)背景下,數(shù)據(jù)量成倍增長(zhǎng),數(shù)據(jù)的類(lèi)型也不斷地豐富,網(wǎng)頁(yè)、文件、日志,新的數(shù)據(jù)存儲(chǔ)形式不斷地興起,因此,如何構(gòu)建先進(jìn)的CRM,對(duì)客戶的信息進(jìn)行全面的分析和處理,是企業(yè)決勝市場(chǎng)的關(guān)鍵。
6.8.5培育以“大數(shù)據(jù)”處理和應(yīng)用為中心的企業(yè)生態(tài)系統(tǒng)文化
企業(yè)從海量雜亂無(wú)章的“大數(shù)據(jù)”里要挖掘出對(duì)企業(yè)決策有參考價(jià)值的數(shù)據(jù),需要經(jīng)歷發(fā)現(xiàn)、提取、加工、創(chuàng)新等一系列復(fù)雜過(guò)程,同時(shí)需要企業(yè)生態(tài)系統(tǒng)全體成員參與數(shù)據(jù)的管理和控制,形成以數(shù)據(jù)為支持的決策導(dǎo)向。這就需要完善企業(yè)生態(tài)系統(tǒng)的數(shù)據(jù)處理制度,形成重視數(shù)據(jù)處理與應(yīng)用的企業(yè)生態(tài)系統(tǒng)文化,主要措施包括:
①建立數(shù)據(jù)收集和與處理的制度文化,包括數(shù)據(jù)收集、存儲(chǔ)制度、數(shù)據(jù)傳遞、共享制度、保障數(shù)據(jù)安全制度等;
②建立起企業(yè)員工對(duì)數(shù)據(jù)處理和應(yīng)用的理念,通過(guò)員工技能培訓(xùn)、學(xué)習(xí)、討論、考核等方式深化企業(yè)員工對(duì)數(shù)據(jù)開(kāi)發(fā)和應(yīng)用的意識(shí),讓企業(yè)生態(tài)系統(tǒng)全體成員普遍接受以數(shù)據(jù)應(yīng)用和核心的工作方式;
③在企業(yè)生態(tài)系統(tǒng)成員之間建立行之有效的知識(shí)激勵(lì)機(jī)制,包括知識(shí)明晰機(jī)制、知識(shí)績(jī)效機(jī)制、知識(shí)獎(jiǎng)懲機(jī)制,以形成特有的、規(guī)模化的、不斷創(chuàng)新的知識(shí)資產(chǎn)和核心生產(chǎn)要素,培育重視“大數(shù)據(jù)”處理和應(yīng)用的企業(yè)生態(tài)系統(tǒng)文化。
(九)大數(shù)據(jù)分析系統(tǒng)架構(gòu)之探討
6.9.1 Hadoop生態(tài)圈
Hadoop是Apache軟件基金會(huì)所開(kāi)發(fā)的并行計(jì)算框架與分布式文件系統(tǒng)。最核心的模塊包括Hadoop Common、HDFS與MapReduce。HDFS是Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System)的縮寫(xiě),為分布式計(jì)算存儲(chǔ)提供了底層支持。采用Java語(yǔ)言開(kāi)發(fā),可以部署在多種普通的廉價(jià)機(jī)器上,以集群處理數(shù)量積達(dá)到大型主機(jī)處理性能。HDFS采用master/slave架構(gòu)。一個(gè)HDFS集群包含一個(gè)單獨(dú)的NameNode和多個(gè)DataNode。NameNode作為master服務(wù),它負(fù)責(zé)管理文件系統(tǒng)的命名空間和客戶端對(duì)文件的訪問(wèn)。NameNode會(huì)保存文件系統(tǒng)的具體信息,包括文件信息、 文件被分割成具體block塊的信息、以及每一個(gè)block塊歸屬的DataNode的信息。對(duì)于整個(gè)集群來(lái)說(shuō),HDFS通過(guò)NameNode對(duì)用戶提供 了一個(gè)單一的命名空間。DataNode作為slave服務(wù),在集群中可以存在多個(gè)。通常每一個(gè)DataNode都對(duì)應(yīng)于一個(gè)物理節(jié)點(diǎn)。DataNode負(fù)責(zé)管理節(jié)點(diǎn)上它們擁有 的存儲(chǔ),它將存儲(chǔ)劃分為多個(gè)block塊,管理block塊信息,同時(shí)周期性的將其所有的block塊信息發(fā)送給NameNode。
在Hadoop的系統(tǒng)中,會(huì)有一臺(tái)master,主要負(fù)責(zé)NameNode的工作以及JobTracker的工作。JobTracker的主要職責(zé)就是啟 動(dòng)、跟蹤和調(diào)度各個(gè)Slave的任務(wù)執(zhí)行。還會(huì)有多臺(tái)slave,每一臺(tái)slave通常具有DataNode的功能并負(fù)責(zé)TaskTracker的工作。 TaskTracker根據(jù)應(yīng)用要求來(lái)結(jié)合本地?cái)?shù)據(jù)執(zhí)行Map任務(wù)以及Reduce任務(wù)。
MapReduce用于大規(guī)模數(shù)據(jù)集群分布式運(yùn)算。任務(wù)的分解 (Map)與結(jié)果的匯總(Reduce)是其主要思想。Map就是將一個(gè)任務(wù)分解成多個(gè)任務(wù),Reduce就是將分解后多任務(wù)分別處理,并將結(jié)果匯總為最終結(jié)果。
HBase是基于HDFS存儲(chǔ)的一個(gè)分布式的、面向列的開(kāi)源數(shù)據(jù)庫(kù)。它是Apache Hadoop在HDFS基礎(chǔ)上提供的一個(gè)類(lèi)Bigatable。 是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)?梢赃@么理解,在 HDFS上,我們看到的是一些非結(jié)構(gòu),零散的文件數(shù)據(jù),透過(guò)HBase可以將這些零散的、非結(jié)構(gòu)文件數(shù)據(jù)結(jié)構(gòu)化。從而可以進(jìn)行一些高層次的操作,例如建表、增加、刪除、更改、查找
等,與傳統(tǒng)的數(shù)據(jù)庫(kù)不同的是HBase采用的是列式存儲(chǔ)而不是行式存儲(chǔ)。
Hive是建立在 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架。它提供了一系列的工具,可以用來(lái)進(jìn)行數(shù)據(jù)提取轉(zhuǎn)化加載(ETL),這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive 定義了簡(jiǎn)單的類(lèi) SQL 查詢語(yǔ)言,稱為 HQL,它允許熟悉 SQL 的用戶查詢數(shù)據(jù)。同時(shí),這個(gè)語(yǔ)言也允許熟悉 MapReduce 開(kāi)發(fā)者的開(kāi)發(fā)自定義的 mapper 和 reducer 來(lái)處理內(nèi)建的 mapper 和 reducer 無(wú)法完成的復(fù)雜的分析工作。
Hive 構(gòu)建在基于靜態(tài)批處理的Hadoop 之上,Hadoop 通常都有較高的延遲并且在作業(yè)提交和調(diào)度的時(shí)候需要大量的開(kāi)銷(xiāo)。因此,Hive 并不能夠在大規(guī)模數(shù)據(jù)集上實(shí)現(xiàn)低延遲快速的查詢,例如,Hive 在幾百M(fèi)B 的數(shù)據(jù)集上執(zhí)行查詢一般有分鐘級(jí)的時(shí)間延遲。因此,Hive 并不適合那些需要低延遲的應(yīng)用,例如,聯(lián)機(jī)事務(wù)處理(OLTP)。Hive 查詢操作過(guò)程嚴(yán)格遵守Hadoop MapReduce 的作業(yè)執(zhí)行模型,Hive 將用戶的HiveQL 語(yǔ)句通過(guò)解釋器轉(zhuǎn)換為MapReduce 作業(yè)提交到Hadoop 集群上,Hadoop 監(jiān)控作業(yè)執(zhí)行過(guò)程,然后返回作業(yè)執(zhí)行結(jié)果給用戶。Hive 并非為聯(lián)機(jī)事務(wù)處理而設(shè)計(jì),Hive 并不提供實(shí)時(shí)的查詢和基于行級(jí)的數(shù)據(jù)更新操作。Hive 的最佳使用場(chǎng)合是大數(shù)據(jù)集的批處理作業(yè),例如,網(wǎng)絡(luò)日志分析。
ApachePig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析工具,它提供的SQL-LIKE語(yǔ)言叫Pig Latin,該語(yǔ)言的編譯器會(huì)把類(lèi)SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過(guò)優(yōu)化處理的MapReduce運(yùn)算。
Impala是Cloudera公司主導(dǎo)開(kāi)發(fā)的新型查詢系統(tǒng),它提供SQL語(yǔ)義,能夠查詢存儲(chǔ)在Hadoop的HDFS和HBase中的PB級(jí)大數(shù)據(jù)。已 有的Hive系統(tǒng)雖然也提供了SQL語(yǔ)義,但是由于Hive底層執(zhí)行使用的是MapReduce引擎,仍然是一個(gè)批處理過(guò)程,難以滿足查詢的交互性;相比 之下,Impala的最大特點(diǎn)就是快速。
Flume是Cloudera提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持在日志系統(tǒng)中定制各類(lèi)數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),F(xiàn)lume提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫(xiě)到各種數(shù)據(jù)接受方(可定制)的能力。
Sqoop是一個(gè)用來(lái)將Hadoop和關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)相互轉(zhuǎn)移的工具,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中數(shù)據(jù)導(dǎo)入Hadoop的HDFS中,也可以將HDFS中數(shù)據(jù)導(dǎo)入關(guān)系型數(shù)據(jù)庫(kù)中。
Chukwa是一個(gè)開(kāi)源的用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),它可以將各種各樣類(lèi)型的數(shù)據(jù)收集成適合 Hadoop 處理的文件保存在 HDFS 中供 Hadoop 進(jìn)行各種 MapReduce 操作。
Apache Mahout是基于Hadoop的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的一個(gè)分布式框架。Mahout用MapReduce實(shí)現(xiàn)了部分?jǐn)?shù)據(jù)挖掘算法,解決了并行挖掘的問(wèn)題。
Hama是一個(gè)基于HDFS的BSP(Bulk Synchronous Parallel)并行計(jì)算框架, Hama可用于包括圖、矩陣和網(wǎng)絡(luò)算法在內(nèi)的大規(guī)模、大數(shù)據(jù)計(jì)算。
6.9.2 Spark生態(tài)圈
Spark是基于內(nèi)存分布式的計(jì)算框架。spark立足于內(nèi)存計(jì)算,從多迭代批量處理出發(fā),兼收并蓄數(shù)據(jù)倉(cāng)庫(kù)、流處理和圖計(jì)算等多種計(jì)算范式,是罕見(jiàn)的全能選手。Spark 啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。Spark 是在 Scala 語(yǔ)言中實(shí)現(xiàn)的,它將 Scala 用作其應(yīng)用程序框架,而Scala的語(yǔ)言特點(diǎn)也鑄就了大部分Spark的成功。與 Hadoop 不同,Spark 和 Scala 能夠緊密集成,其中的 Scala 可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì) Hadoop 的補(bǔ)充,可以在 Hadoop文件系統(tǒng)中并行運(yùn)行。通過(guò)名為 Mesos 的第三方集群框架可以支持此行為。
雖然 Spark 與 Hadoop 有相似之處,但它提供了具有有用差異的一個(gè)新的集群計(jì)算框架。首先,Spark 是為集群計(jì)算中的特定類(lèi)型的工作負(fù)載而設(shè)計(jì),即那些在并行操作之間重用工作數(shù)據(jù)集(比如機(jī)器學(xué)習(xí)算法)的工作負(fù)載。為了優(yōu)化這些類(lèi)型的工作負(fù) 載,Spark 引進(jìn)了內(nèi)存集群計(jì)算的概念,可在內(nèi)存集群計(jì)算中將數(shù)據(jù)集緩存在內(nèi)存中,以縮短訪問(wèn)延遲。
Spark 還引進(jìn)了名為 彈性分布式數(shù)據(jù)集 (RDD) 的抽象。RDD 是分布在一組節(jié)點(diǎn)中的只讀對(duì)象集合。這些集合是彈性的,如果數(shù)據(jù)集一部分丟失,則可以對(duì)它們進(jìn)行重建。重建部分?jǐn)?shù)據(jù)集的過(guò)程依賴于容錯(cuò)機(jī)制,該機(jī)制可以維 護(hù) “血
統(tǒng)”(即充許基于數(shù)據(jù)衍生過(guò)程重建部分?jǐn)?shù)據(jù)集的信息)。RDD 被表示為一個(gè) Scala 對(duì)象,并且可以從文件中創(chuàng)建它;一個(gè)并行化的切片(遍布于節(jié)點(diǎn)之間);另一個(gè) RDD 的轉(zhuǎn)換形式;并且最終會(huì)徹底改變現(xiàn)有 RDD 的持久性,比如請(qǐng)求緩存在內(nèi)存中。
Spark 中的應(yīng)用程序稱為驅(qū)動(dòng)程序,這些驅(qū)動(dòng)程序可實(shí)現(xiàn)在單一節(jié)點(diǎn)上執(zhí)行的操作或在一組節(jié)點(diǎn)上并行執(zhí)行的操作。與 Hadoop 類(lèi)似,Spark 支持單節(jié)點(diǎn)集群或多節(jié)點(diǎn)集群。對(duì)于多節(jié)點(diǎn)操作,Spark 依賴于 Mesos 集群管理器。Mesos 為分布式應(yīng)用程序的資源共享和隔離提供了一個(gè)有效平臺(tái)。該設(shè)置充許 Spark 與 Hadoop 共存于節(jié)點(diǎn)的一個(gè)共享池中。
GraphX是基于Spark的圖處理和圖并行計(jì)算API。GraphX定義了一個(gè)新的概念:彈性分布式屬性圖,一個(gè)每個(gè)頂點(diǎn)和邊都帶有屬性的定向多重 圖;并引入了三種核心RDD:Vertices、Edges、Triplets;還開(kāi)放了一組基本操作(如subgraph, joinVertices, and mapReduceTriplets),并且在不斷的擴(kuò)展圖形算法和圖形構(gòu)建工具來(lái)簡(jiǎn)化圖分析工作。
Tachyon是一個(gè)分布式內(nèi)存文件系統(tǒng),可以在集群里以訪問(wèn)內(nèi)存的速度來(lái)訪問(wèn)存在tachyon里的文件。把 Tachyon是架構(gòu)在最底層的分布式文件存儲(chǔ)和上層的各種計(jì)算框架之間的一種中間件。主要職責(zé)是將那些不需要落地到DFS里的文件,落地到分布式內(nèi)存文 件系統(tǒng)中,來(lái)達(dá)到共享內(nèi)存,從而提高效率。同時(shí)可以減少內(nèi)存冗余,GC時(shí)間等。
Tachyon的架構(gòu)是傳統(tǒng)的Master—slave架構(gòu),這里和Hadoop類(lèi)似,TachyonMaster里WorkflowManager是 Master進(jìn)程,因?yàn)槭菫榱朔乐箚吸c(diǎn)問(wèn)題,通過(guò)Zookeeper做了HA,可以部署多臺(tái)Standby Master。Slave是由Worker Daemon和Ramdisk構(gòu)成。這里個(gè)人理解只有Worker Daemon是基于JVM的,Ramdisk是一個(gè)off heap memory。Master和Worker直接的通訊協(xié)議是Thrift。
Mesos master是一個(gè)分布式集群資源調(diào)度器,采用某種策略將某個(gè)slave上的空閑資源分配給某一個(gè)framework,各種framework通過(guò)自己的 調(diào)度器向Mesos master注冊(cè),以接入到Mesos中;而Mesos slave主要功能是匯報(bào)任務(wù)的狀態(tài)和啟動(dòng)各個(gè)framework的executor。
Yarn是一個(gè)實(shí)現(xiàn)分布式集群資源管理和調(diào)度的框架。Yarn調(diào)度器根據(jù)容量,
隊(duì)列等限制條件(如每個(gè)隊(duì)列分配一定的資源,最多執(zhí)行一定數(shù)量的作業(yè)等),將系統(tǒng)中的資源分配給各個(gè)正在運(yùn)行的應(yīng)用。這里的調(diào)度器是一個(gè) “純調(diào)度器”,因?yàn)樗辉儇?fù)責(zé)監(jiān)控或者跟蹤應(yīng)用的執(zhí)行狀態(tài)等,此外,他也不負(fù)責(zé)重新啟動(dòng)因應(yīng)用執(zhí)行失敗或者硬件故障而產(chǎn)生的失敗任務(wù)。調(diào)度器僅根據(jù)各個(gè)應(yīng) 用的資源需求進(jìn)行調(diào)度,這是通過(guò)抽象概念“資源容器”完成的,資源容器(Resource Container)將內(nèi)存,CPU,磁盤(pán),網(wǎng)絡(luò)等資源封裝在一起,從而限定每個(gè)任務(wù)使用的資源量。
BlinkDB是一個(gè)很有意思的交互式查詢系統(tǒng),就像一個(gè)蹺蹺板,用戶需要在查詢精度和查詢時(shí)間上做一權(quán)衡;如果用戶想更快地獲取查詢結(jié)果,那么將犧牲查 詢結(jié)果的精度;同樣的,用戶如果想獲取更高精度的查詢結(jié)果,就需要犧牲查詢響應(yīng)時(shí)間。用戶可以在查詢的時(shí)候定義一個(gè)失誤邊界。
三、結(jié)構(gòu)化數(shù)據(jù)生態(tài)圈:
DBSync數(shù)據(jù)庫(kù)同步備份工具是一款異構(gòu)數(shù)據(jù)庫(kù)之 間同步的工具,支持市面上大多數(shù)主流數(shù)據(jù)庫(kù),主要有:SqlServer、ORACLE、 DB2、Sybase Access,該軟件提供的ODBC的同步功能,可以間接實(shí)現(xiàn)對(duì)MYSQL、SYBASE、INTERBASE等其他數(shù)據(jù)庫(kù)的支 持。DBSync可以實(shí)現(xiàn)計(jì)劃、增量、兩表記錄一致等方式的同步操作,利用該軟件,可以實(shí)現(xiàn)企業(yè)內(nèi)部應(yīng)用系統(tǒng)數(shù)據(jù)的互通互聯(lián)。該軟件性能穩(wěn)定,能提供 7*24小時(shí)不間斷同步的支持,具備單表千萬(wàn)級(jí)記錄甚至更多記錄的同步能力。該軟件的專(zhuān)業(yè)版提供局域網(wǎng)或企業(yè)內(nèi)部網(wǎng)之間數(shù)據(jù)庫(kù)的同步(數(shù)據(jù)庫(kù)都具備獨(dú)立的 IP);企業(yè)版則提供集團(tuán)在世界范圍內(nèi)的各分支機(jī)構(gòu)的數(shù)據(jù)庫(kù)同步。
聯(lián)機(jī)分析處理(OLAP)系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)系 統(tǒng)最主要的應(yīng)用,專(zhuān)門(mén)設(shè)計(jì)用于支持復(fù)雜的分析操作,側(cè)重對(duì)決策人員和高層管理人員的決策支持,可以根據(jù)分析人員的要求快速、靈活地進(jìn)行大數(shù)據(jù)量的復(fù)雜查詢 處理,并且以一種直觀而易懂的形式將查詢結(jié)果提供給決策人員,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營(yíng)狀況,了解對(duì)象的需求,制定正確的方案。
HANA是一個(gè)軟硬件結(jié)合體,提供高性能的數(shù)據(jù)查詢功能,用戶可以直接對(duì)大量實(shí)時(shí)業(yè)務(wù)數(shù)據(jù)進(jìn)行查詢和分析,而不需要對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行建模、聚合等。
這些多種多樣的數(shù)據(jù)集操作類(lèi)型,給給開(kāi)發(fā)上層應(yīng)用的用戶提供了方便。各個(gè)處理節(jié)點(diǎn)之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模
式。用戶可以命名,物化,控制中間結(jié)果的存儲(chǔ)、分區(qū)等?梢哉f(shuō)編程模型比Hadoop更靈活。
在討論Hadoop系統(tǒng)架構(gòu)之前,首先,我們應(yīng)該明確一件事,Hadoop是做什么用的,簡(jiǎn)單的說(shuō),Hadoop就是一個(gè)基于大量數(shù)據(jù)進(jìn)行計(jì)算的一個(gè)平臺(tái),它的計(jì)算的核心就是MapReduce,也就是去繁從簡(jiǎn),剔除無(wú)用數(shù)據(jù)把有用的留下。HDFS是它的存儲(chǔ)組件,也是它計(jì)算最直接的數(shù)據(jù)源。我們的目的就是,首先,將原始的數(shù)據(jù),如數(shù)據(jù)庫(kù)中數(shù)據(jù)或日志文件數(shù)據(jù)提取并按一定格式寫(xiě)入Hadoop計(jì)算的數(shù)據(jù)中心——HDFS,然后再通過(guò)一系列的計(jì)算算法,計(jì)算出有用的數(shù)據(jù),再將小量的結(jié)果數(shù)據(jù)存入到結(jié)果數(shù)據(jù)庫(kù)中。
同樣的,對(duì)于數(shù)據(jù)源,同樣有關(guān)系型數(shù)據(jù)庫(kù),非關(guān)系型數(shù)據(jù)庫(kù),以及日志文件等。對(duì)于數(shù)據(jù)庫(kù)的數(shù)據(jù),由于已經(jīng)有規(guī)范的物理存儲(chǔ),我們就無(wú)需將其再次存入HDFS,可以考慮在spark與數(shù)據(jù)庫(kù)間加入一層內(nèi)存存儲(chǔ)——Tachyon,先將參與計(jì)算的數(shù)據(jù)提到分布式的內(nèi)存中,這樣提高計(jì)算的效率。而對(duì)于日志文件,由于其本身為非結(jié)構(gòu)化的數(shù)據(jù),可能需要經(jīng)過(guò)一定的加工處理,因此,有必要先將其統(tǒng)一結(jié)構(gòu)化,所以可以考慮將結(jié)構(gòu)化后的結(jié)果先存入HDFS,再參與計(jì)算。另外,考慮到業(yè)務(wù)需求,有的系統(tǒng)可能需要將結(jié)果存入到物理的存儲(chǔ)空間,有的可能希望直接得到例如報(bào)表的結(jié)果,所以這里分別針對(duì)這兩種需求給出方案:
(1)將Tachyon與HDFS上的數(shù)據(jù)通過(guò)機(jī)器學(xué)習(xí)后存入數(shù)據(jù)庫(kù),以便后續(xù)加工處理;
(2)引入SparkR統(tǒng)計(jì)分析工具,通過(guò)SparkR結(jié)合R算法、MLLib算法對(duì)數(shù)據(jù)進(jìn)行學(xué)習(xí),分析,計(jì)算后直接得出結(jié)果。
七、結(jié)論
從很多方面來(lái)看,我們?nèi)匀惶幵诖髷?shù)據(jù)現(xiàn)象的早期發(fā)展階段。盡管已經(jīng)花費(fèi)了數(shù)年時(shí)間,但減少基礎(chǔ)設(shè)施來(lái)存儲(chǔ)和處理大規(guī)模數(shù)據(jù)還只是第一階段。從這個(gè)角度來(lái)說(shuō),大數(shù)據(jù)的機(jī)會(huì)也許要比我們想象的還要大。然而,隨著大數(shù)據(jù)繼續(xù)走向成熟,這個(gè)術(shù)語(yǔ)本身可能會(huì)消失,或者變得太過(guò)時(shí)以至于沒(méi)有人會(huì)再使用這個(gè)詞。這就是成功賦能技術(shù)令人諷刺的命運(yùn)歸宿—由于技術(shù)的廣泛傳播,然后到達(dá)
無(wú)所不在的地步,最后被人熟視無(wú)睹。
當(dāng)前,“大數(shù)據(jù)”在我國(guó)的理論研究和實(shí)踐應(yīng)用的商業(yè)價(jià)值已經(jīng)突顯,對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),如何清晰的把握“大數(shù)據(jù)”時(shí)代企業(yè)生態(tài)系統(tǒng)的特征和演化規(guī)律,構(gòu)筑合理的企業(yè)生態(tài)系統(tǒng)是企業(yè)脫穎而出形成競(jìng)爭(zhēng)優(yōu)勢(shì)和核心競(jìng)爭(zhēng)力的關(guān)鍵。同時(shí),“大數(shù)據(jù)”時(shí)代的到來(lái),必將孕育新的生產(chǎn)模式、商業(yè)模式、管理模式,企業(yè)生態(tài)系統(tǒng)必將置身于更加開(kāi)放、更加復(fù)雜、非線性作用的動(dòng)蕩環(huán)境之中,各種非特定的競(jìng)爭(zhēng)因素會(huì)促使企業(yè)生態(tài)系統(tǒng)發(fā)生持續(xù)的創(chuàng)新和變革。企業(yè)必須洞悉其生態(tài)系統(tǒng)的變化,應(yīng)勢(shì)而變,不斷創(chuàng)新,以實(shí)現(xiàn)企業(yè)和生態(tài)系統(tǒng)的協(xié)同演化與升級(jí)。
盡管大數(shù)據(jù)的發(fā)展已經(jīng)有了較大的進(jìn)步,但是要想用好大數(shù)據(jù)的資源,我們還是要有一定的方法,即要運(yùn)用好大數(shù)據(jù)要做到以下幾點(diǎn):
目標(biāo)要明確。就算一個(gè)公司擁有再多的數(shù)據(jù),也不能代表它就一定會(huì)獲得商業(yè)上的成功。只有真正懂得如何利用大數(shù)據(jù),了解到公司利用大數(shù)據(jù)可以達(dá)到什么目標(biāo),公司最終才有可能真正成功。在公司在發(fā)展過(guò)程中往往也會(huì)面臨諸多選擇,也只有目標(biāo)設(shè)定明確了,才能夠縮小選擇范圍聚焦精力去發(fā)展。企業(yè)應(yīng)時(shí)刻保持頭腦清醒,朝著自己定好的目標(biāo)前進(jìn),才有助于公司進(jìn)行持續(xù)長(zhǎng)久的良好運(yùn)作。有時(shí)候,利用太復(fù)雜先進(jìn)的數(shù)據(jù)分析工具往往也會(huì)帶來(lái)很多問(wèn)題,不過(guò)如果我們能夠通過(guò)分析大量的數(shù)據(jù)來(lái)得到最終的結(jié)果,那就不用懷疑了,至少方向肯定是對(duì)的。
做好團(tuán)隊(duì)的協(xié)調(diào)。在大數(shù)據(jù)的世界里,最有價(jià)值和作用的數(shù)據(jù)往往十分稀少。要想找到真正有價(jià)值的數(shù)據(jù),就如同大海撈針一樣困難。所以,為了找到這些有價(jià)值的數(shù)據(jù),企業(yè)內(nèi)部應(yīng)齊心協(xié)力通力合作,要經(jīng)常保持有效的溝通和協(xié)作。
用機(jī)器代替人工。機(jī)器學(xué)習(xí)指計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,從而對(duì)自身功能進(jìn)行改進(jìn)。機(jī)器學(xué)習(xí)相比人工學(xué)習(xí),,速度更快,學(xué)習(xí)規(guī)模也更大,一個(gè)公司能通過(guò)機(jī)器學(xué)習(xí)較快地發(fā)現(xiàn)新的問(wèn)題。所以,企業(yè)如果有大量的數(shù)據(jù)需要進(jìn)行分析處理,最好的辦法就是讓機(jī)器代替人工來(lái)做,機(jī)器學(xué)習(xí)的速度很快,能在短時(shí)間內(nèi)同時(shí)分析大量的數(shù)據(jù),這樣一來(lái),所需的分析時(shí)間就會(huì)大大縮短。與人工分析相比,成本也會(huì)大大降低。
要謹(jǐn)慎對(duì)待數(shù)據(jù)。有時(shí),企業(yè)是沒(méi)有能力去獲取數(shù)據(jù)的,也就沒(méi)法用數(shù)據(jù)去
解決問(wèn)題。就算公司獲得了一些數(shù)據(jù),他們往往也不清楚這些數(shù)據(jù)最終能否解決他們的問(wèn)題。企業(yè)不僅應(yīng)該了解收集到的數(shù)據(jù)到底能解決哪些問(wèn)題,更應(yīng)該知道,哪些問(wèn)題還不能通過(guò)這些數(shù)據(jù)得到解決。如果還有一些問(wèn)題解決不了,公司便需要繼續(xù)收集其他維度的數(shù)據(jù)來(lái)補(bǔ)充。有時(shí)候,重要的數(shù)據(jù)可能會(huì)被忽略。所以,應(yīng)謹(jǐn)慎認(rèn)真對(duì)待數(shù)據(jù),數(shù)據(jù)會(huì)真實(shí)客觀地告訴你想要的答案。有時(shí),數(shù)據(jù)能告訴你的會(huì)讓你大吃一驚。
要避免得出錯(cuò)誤的結(jié)論。由于人為主觀因素和不相關(guān)數(shù)據(jù)的干擾,有時(shí)候得出的結(jié)論往往是錯(cuò)誤的!安灰尣幌喔傻臄(shù)據(jù)影響到整個(gè)結(jié)果,有相當(dāng)一部分的數(shù)據(jù)并不重要,這些不相關(guān)的‘樹(shù)’往往并不能代表整個(gè)‘森林’!盠uzzi說(shuō),“如果使用了錯(cuò)誤的數(shù)據(jù),得出的結(jié)論往往也是錯(cuò)的!睌(shù)據(jù)選擇上的錯(cuò)誤會(huì)影響人們解決問(wèn)題的過(guò)程,也會(huì)影響人們?nèi)绾慰创@些數(shù)據(jù)和結(jié)果。錯(cuò)誤的數(shù)據(jù)選擇可能影響到公司做出相關(guān)決策。
大數(shù)據(jù)的發(fā)展就是為了人們更好地利用數(shù)據(jù),而大數(shù)據(jù)生態(tài)的建立為大數(shù)據(jù)的利用提供了系統(tǒng)的科學(xué)理論及實(shí)踐方法,為以后的大數(shù)據(jù)發(fā)展奠定基礎(chǔ),本文也是能夠讓更多人了解大數(shù)據(jù)生態(tài)系統(tǒng)的組織結(jié)構(gòu)和科學(xué)內(nèi)涵。
參考文獻(xiàn)
[1]李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014,01:10-17.
[2]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,02:10-19.
[3]涂新莉,劉波,林偉偉.大數(shù)據(jù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2014,06:1612-1616+1623.
[4]任磊,杜一,馬帥,張小龍,戴國(guó)忠.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報(bào),2014,09:1909-1936.
[5]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,09:1889-1908.
[6]方巍,鄭玉,徐江.大數(shù)據(jù):概念、技術(shù)及應(yīng)用研究綜述[J].南京信息工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,05:405-419.
[7]李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013,06:1147-1162.
[8]王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,06:1125-1138.
[9]申德榮,于戈,王習(xí)特,聶鐵錚,寇月.支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J].軟件學(xué)報(bào),2013,08:1786-1803.
[10]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟(jì)學(xué)[J].中國(guó)軟科學(xué),2013,07:177-183.
[11]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013,S1:142-146.
[12]姜強(qiáng),趙蔚,王朋嬌,王麗萍.基于大數(shù)據(jù)的個(gè)性化自適應(yīng)在線學(xué)習(xí)分析模型及實(shí)現(xiàn)[J].中國(guó)電化教育,2015,01:85-92.
[13]何克抗.大數(shù)據(jù)面面觀[J].電化教育研究,2014,10:8-16+22.
[14]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國(guó)科學(xué):信息科學(xué),2015,01:1-44.
[15]彭宇,龐景月,劉大同,彭喜元.大數(shù)據(jù):內(nèi)涵、技術(shù)體系與展望[J].電子測(cè)量與儀器學(xué)報(bào),2015,04:469-482.
[16]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013,S2:216-233.
[17]王珊,王會(huì)舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,10:1741-1752.
[18]James M.TIEN. BIG DATA:UNLEASHING INFORMATION[J]. Journal of Systems Science and Systems Engineering,2013,02:127-151.
[19]劉越,賀佳,郭敏杰,楊青,張新生. 中國(guó)大數(shù)據(jù)行業(yè)發(fā)展綜述(英文)[J]. 中國(guó)通信,2014,12:1-10.
[20]彭宇,龐景月,劉大同,彭喜元. 大數(shù)據(jù):內(nèi)涵、技術(shù)體系與展望[J]. 電子測(cè)量與儀器學(xué)報(bào),2015,04:469-482.
[21]Hua-Ping Zhang,Rui-Qi Zhang,Yan-Ping Zhao,Bao-Jun Ma. Big Data Modeling and Analysis of Microblog Ecosystem[J]. International Journal of Automation and Computing,2014,02:119-127.
[22]Huadong Guo,Lizhe Wang,Fang Chen,Dong Liang. Scientific big data and Digital Earth[J]. Chinese Science Bulletin,2014,35:5066-5073.
[23]Changjun Jiang,Zhijun Ding,Junli Wang,Chungang Yan. Big data resource service platform for the internet financial industry[J]. Chinese Science Bulletin,2014,35:5051-5058.
[24]Howard Elias. The Big Data Challenge:How to Develop a Winning Strategy[J]. 中國(guó)制造業(yè)信息化,2012,14:53-55.
[25]Ronald ROUSSEAU. A view on big data and its relation to Informetrics[J]. Chinese Journal of Library and Information Science,2012,03:12-26.
百度搜索“就愛(ài)閱讀”,專(zhuān)業(yè)資料,生活學(xué)習(xí),盡在就愛(ài)閱讀網(wǎng)92to.com,您的在線圖書(shū)館
歡迎轉(zhuǎn)載:
分享:
推薦: 2002 2003 2005年環(huán)境心理學(xué)試卷
如何解答歷史選擇題
標(biāo)簽: 知識(shí)圖譜構(gòu)建技術(shù)綜述
猜你喜歡
本文關(guān)鍵詞:大數(shù)據(jù)系統(tǒng)綜述,由筆耕文化傳播整理發(fā)布。
本文編號(hào):228588
本文鏈接:http://www.sikaile.net/wenshubaike/xxkj/228588.html