駕馭大數(shù)據(jù)時代必修的技術(shù)課
本文關(guān)鍵詞:駕馭大數(shù)據(jù),由筆耕文化傳播整理發(fā)布。
大數(shù)據(jù)中的“大”和“數(shù)據(jù)”哪個更重要
現(xiàn)在讓我們先做一個小測驗!在你繼續(xù)閱讀之前,請先停下片刻,并思考這個問題:術(shù)語“大數(shù)據(jù)”中,哪部分是最重要的?是(1)“大”,(2)“數(shù)據(jù)”,(3)二者同等重要,還是(4)都不重要? 請花一分鐘時間來思考這個問題,如果你已經(jīng)鎖定了自己的答案,請繼續(xù)閱讀后面的內(nèi)容。同時,想象一下正在播放著“參賽者正在思考”音樂的游戲節(jié)目場景。
好了,既然你已經(jīng)鎖定了答案,讓我們來看一下它是否正確。這個問題的答案應(yīng)該選(4),其實“大”和“數(shù)據(jù)”都不是大數(shù)據(jù)中最重要的。根本而言,最重要的應(yīng)該是企業(yè)如何來駕馭這些大數(shù)據(jù)。你的企業(yè)對大數(shù)據(jù)進行的分析,以及隨之采取的業(yè)務(wù)改進措施才是最重要的。
無論如何,擁有大量的數(shù)據(jù)本身并不會增加任何價值。也許你擁有的數(shù)據(jù)比我擁有的數(shù)據(jù)多,可那又如何?事實上,擁有任何一個數(shù)據(jù)集,無論它們多大或者多小,其自身都不會帶來任何價值。被收集來的數(shù)據(jù)如果從不使用,不會比存放在閣樓或地下室的垃圾更有價值。如果不投入具體的環(huán)境中并付諸使用,數(shù)據(jù)將毫無意義。對于任何大量或少量的大數(shù)據(jù),大數(shù)據(jù)的威力體現(xiàn)在如何處理這些數(shù)據(jù)上。如何分析這些數(shù)據(jù)?基于這些洞察又將采取怎樣的行動?如何利用這些數(shù)據(jù)來改變業(yè)務(wù)?
或許因為讀了很多炒作大數(shù)據(jù)的文章,很多人開始相信正是由于大數(shù)據(jù)的大容量、高速和多樣性,才使得它們比其他數(shù)據(jù)更具有優(yōu)勢且更重要。但這并不正確。正如我們將在本章后面“絕大多數(shù)大數(shù)據(jù)并不重要”一節(jié)中所討論的,在很多大數(shù)據(jù)中,毫無價值或者價值很小的內(nèi)容所占的比例要比以往數(shù)據(jù)源中高得多。當(dāng)你把大數(shù)據(jù)精簡至實際需要的容量時,它們將不再顯得如此龐大。但這并不重要,因為不管它是保持原始大小,還是被處理后變得很小,容量并不重要,重要的是如何處理它。
大數(shù)據(jù)的風(fēng)險
大數(shù)據(jù)會帶來一些風(fēng)險。其中一個風(fēng)險是企業(yè)可能會被大數(shù)據(jù)壓得不堪重負,從而停滯不前。正如我們將在第8章中討論的,關(guān)鍵是要有合適的掌舵人來保證這些不會發(fā)生。你需要這些掌舵人去征服大數(shù)據(jù),并處理各種問題。有了他們來處理問題,企業(yè)可以避免陷入泥沼而無法前行。
另一個風(fēng)險是當(dāng)收集如此龐大的大數(shù)據(jù)時,其成本的增長速度會快到令企業(yè)措手不及。和處理其他事物的方法一樣,避免這種情況出現(xiàn)的方法是要保證以適當(dāng)?shù)牟椒デ斑M,使得企業(yè)能夠及時跟上。沒有必要從明天開始行動,一條不漏地收集所有的新數(shù)據(jù)。而應(yīng)當(dāng)立即去做的是,開始收集一些新數(shù)據(jù)源的樣本并試圖了解它們?梢允褂眠@些初始樣本進行一些實驗分析,從而弄清楚數(shù)據(jù)源中哪些數(shù)據(jù)是重要的,以及如何使用它們。以樣本數(shù)據(jù)為基礎(chǔ),企業(yè)已經(jīng)做好了有效地處理更大規(guī)模數(shù)據(jù)源的準(zhǔn)備。
對于很多大數(shù)據(jù)源,其最大的風(fēng)險或許是隱私。如果世界上的每個人都是善良和誠實的,那么我們就沒有必要去擔(dān)心隱私問題了。但不是每個人都是善良和誠實的。事實上,進一步講,還有很多并不善良和誠實的公司,甚至有的政府機構(gòu)都不善良和誠實。這使得大數(shù)據(jù)存在一些潛在的風(fēng)險。在處理大數(shù)據(jù)時,必須考慮到隱私問題,否則就無法完全發(fā)揮其潛能。如果沒有適當(dāng)?shù)南拗,大?shù)據(jù)有可能會激發(fā)一股抗議風(fēng)潮,以至于可能會被完全禁止。
回想一下最近受到廣泛關(guān)注的一些安全性事件,例如,信用卡卡號和政府機密文件被竊取并發(fā)布在網(wǎng)上的泄密事件。因此毫不夸張地說,如果把數(shù)據(jù)儲存在那里,總會有人試圖去偷取它。一旦壞人拿到了這些數(shù)據(jù),他們一定會利用這些數(shù)據(jù)去做壞事。已經(jīng)有過幾起倍受矚目的案件,一些大公司由于其含糊不明的隱私政策而陷入麻煩之中。由于數(shù)據(jù)是以一種顧客不知情、不支持的方式被使用的,因此會產(chǎn)生沖突。隨著大數(shù)據(jù)的爆炸式增長,必須同時對其使用自我約束和施加法律約束。
自我約束非常關(guān)鍵,畢竟它表明了行業(yè)對隱私保護的關(guān)注程度。每個行業(yè)都應(yīng)該對自身進行約束,并且制定一些所有人都要遵守的法則。自愿接受的法則通常要比政府機構(gòu)參與制定的法規(guī)效果更好一些,但約束力要更差一些,這是因為行業(yè)并不善于約束自身。
你為什么需要駕馭大數(shù)據(jù)
目前為止,很多企業(yè)在大數(shù)據(jù)上所做的事情還非常少。幸運的是,在2012年,如果你的企業(yè)還沒重視大數(shù)據(jù),你們落后得還不算很遠,除非你是在電子商務(wù)這樣的行業(yè)(在這些行業(yè)中,大數(shù)據(jù)分析已經(jīng)被標(biāo)準(zhǔn)化了)。然而,隨著勢頭的飛快增長,這種情況會很快改變。迄今為止,大部分企業(yè)所錯過的僅僅是做領(lǐng)導(dǎo)者的機會。事實上,這對于很多企業(yè)來說并不是什么問題。今天,它們?nèi)杂袡C會迎頭趕上。然而再過幾年,如果一家企業(yè)還沒有分析大數(shù)據(jù),那么它在這場游戲中將很難再趕上別的企業(yè)。駕馭大數(shù)據(jù)最好的時機正是現(xiàn)在!
一家企業(yè)完全可以借助新的數(shù)據(jù)源來獲取業(yè)務(wù)價值,而其競爭對手卻沒有做同樣的事情,這種情況并不常見。這是如今大數(shù)據(jù)所帶來的巨大商機,你將有機會超過你的競爭對手并擊敗它們。在未來幾年內(nèi),我們將會繼續(xù)看到通過大數(shù)據(jù)分析進行成功業(yè)務(wù)轉(zhuǎn)型的案例。你將會從很多案例分析中看到,競爭對手是如何被猝不及防地拋進歷史的塵埃中。在很多文章、會議以及其他的討論中,已經(jīng)有很多此類案例引人矚目。一些案例正是來自于行業(yè)中那些遲鈍、落后以及守舊的企業(yè)。在電子商務(wù)這樣新興而火爆的行業(yè)中,情況則完全兩樣。在第2章和第3章中,我們將會看到很多如何使用大數(shù)據(jù)的案例。
有效過濾大數(shù)據(jù)
大數(shù)據(jù)帶來的最大挑戰(zhàn)可能并不是你要對它做的分析工作,而是你為分析做的一系列準(zhǔn)備,而是提取、轉(zhuǎn)換和加載(ETL)流程。ETL是指獲取原始大數(shù)據(jù)流,然后對其進行解析,并產(chǎn)生可用輸出數(shù)據(jù)集的過程。從數(shù)據(jù)源中提。‥)數(shù)據(jù),然后經(jīng)過各種聚合、函數(shù)、組合等轉(zhuǎn)換(T),使其變?yōu)榭捎脭?shù)據(jù)。最終,數(shù)據(jù)會被加載(L)到對它進行具體分析的環(huán)境中。這就是ETL流程。
讓我們再回頭看一下之前討論過的那個比喻:通過一個吸管吸水。當(dāng)你從吸管中吸水的時候,你并不關(guān)心喝到你嘴里的水是來自于哪一部分。然而對大數(shù)據(jù)來說,你對收集數(shù)據(jù)流的哪一部分卻非常在乎。有必要事先探索和理解整個數(shù)據(jù)流,只有這樣你才能過濾出你想要的那部分信息。這也解釋了為什么駕馭大數(shù)據(jù)需要付出如此之多的前期努力。
今天的大數(shù)據(jù)將不再是明天的大數(shù)據(jù)
正如我們在本章最開始所討論的,大數(shù)據(jù)被公認的定義多少還有一些模糊。沒有一個明確和廣泛的定義,什么樣的數(shù)據(jù)可以被視為大數(shù)據(jù)。相反地,大數(shù)據(jù)的定義是相對于當(dāng)前可用的技術(shù)和資源而言的。結(jié)果,某一個企業(yè)或行業(yè)所認為的大數(shù)據(jù),,可能對于另一個企業(yè)或行業(yè)就不再是大數(shù)據(jù)。對于大的電子商務(wù)企業(yè),它們眼里的大數(shù)據(jù)要比小廠商眼里的大數(shù)據(jù)“大”得多。
更重要的是,隨著時間的推移,處理數(shù)據(jù)的工具和技術(shù)、原始存儲空間和處理能力都會不斷演進,大數(shù)據(jù)的界定也必然會發(fā)生變化。10年或20年之前,幾百個領(lǐng)域,幾百萬個顧客的年家庭人口檔案是非常龐大并難以管理的。而如今,這些數(shù)據(jù)可以存入一個U盤中,并可以使用低端的筆記本電腦對其進行分析。對大容量、高速度、高復(fù)雜度的界定會一直演變,對大數(shù)據(jù)也同樣如此。
10年以前,零售業(yè)、電信業(yè)以及金融業(yè)的交易數(shù)據(jù)非常龐大,并且難以處理。事實上,在20世紀90年代后期之前,對于很多企業(yè),這些數(shù)據(jù)都沒有被用在分析和報表中。如今,這些數(shù)據(jù)已被認為是一項必要且基本的資產(chǎn)。事實上每一家公司,不論大小,都會使用到這些數(shù)據(jù)。
類似地,我們今天所懼怕的事情,幾年之后將不會再如此可怕。來自網(wǎng)頁的點擊流數(shù)據(jù)也許在10年內(nèi)便可以成為標(biāo)準(zhǔn)化的、易于處理的數(shù)據(jù)源。對于大多數(shù)企業(yè),積極地處理每封電子郵件、每次顧客服務(wù)談話、每條社交媒體評論都可能成為標(biāo)準(zhǔn)化的實踐行為。每秒鐘在搜索引擎中跟蹤幾百個指標(biāo)對任何人來說都不再是什么費力的事情。
在我們正在駕馭這一代大數(shù)據(jù)的同時,其他一些更大的數(shù)據(jù)源正在逐漸登上歷史舞臺。它們會是什么樣子?如今還沒有人可以完全回答這個問題。然而,以下是一些關(guān)于當(dāng)前數(shù)據(jù)源如何迅速升級到更大量級的觀點。
想象一下網(wǎng)絡(luò)瀏覽數(shù)據(jù)會從網(wǎng)頁點擊數(shù)據(jù)擴展到毫秒級的眼動和鼠標(biāo)移動數(shù)據(jù),因此用戶上網(wǎng)沖浪的每一個微小細節(jié)都能夠被捕捉到,而不只是點擊數(shù)據(jù)。這是大數(shù)據(jù)的另一個層次。
想象一下視頻游戲遙感數(shù)據(jù)將會升級到不僅僅只包含按鍵和移動數(shù)據(jù)。想象一下它同樣會包括玩家的眼動、身體移動以及游戲場景中涉及的每個對象的位置和狀態(tài),而不僅僅是直接交互的對象。這使得數(shù)據(jù)變得非常龐大。
想象一下全球每家商店、分銷商以及制造工廠中的每一件商品都擁有可用的RFID信息。想象一下那些可以每秒鐘收集幾十個指標(biāo),例如,溫度、濕度、速度、加速度、壓強等信息的芯片。這類數(shù)據(jù)的體積在今天看來是無法想象的。
想象一下將顧客服務(wù)或電話銷售的每一次談話都記錄并轉(zhuǎn)譯為文本。再加上所有相關(guān)的電子郵件、在線聊天,以及社交網(wǎng)站或產(chǎn)品點評網(wǎng)站上的評論,F(xiàn)在,去解析、整合并分析所有這些文本吧,你的大腦是不是已經(jīng)要爆炸了?
大數(shù)據(jù)會一直存在下去。盡管幾年之后,今天我們覺得恐怖的大數(shù)據(jù)會變得不再那么嚇人,但總會有令人恐怖的新數(shù)據(jù)源出現(xiàn)。企業(yè)需要持續(xù)地調(diào)整它們的方法和目標(biāo),以適應(yīng)企業(yè)所涉及數(shù)據(jù)的變化。然而,如果企業(yè)還不具備處理大數(shù)據(jù)的能力,也便談不上對數(shù)據(jù)處理方法的調(diào)整和升級。所以,你需要現(xiàn)在開始!
本文摘自《駕馭大數(shù)據(jù)》
下面必修課書目中給大家分享“駕馭大數(shù)據(jù)系列”圖書。
Hadoop技術(shù)詳解
HBase管理指南
HBase實戰(zhàn)
HBase權(quán)威指南
Hive編程指南
Pig編程指南
MapReduce 2.0源碼分析與編程實戰(zhàn)
駕馭大數(shù)據(jù)
大數(shù)據(jù)分析:點“數(shù)”成金
本文關(guān)鍵詞:駕馭大數(shù)據(jù),由筆耕文化傳播整理發(fā)布。
本文編號:319156
本文鏈接:http://www.sikaile.net/wenshubaike/mishujinen/319156.html