hadoop實戰(zhàn)中文版+電子版
本文關鍵詞:Hadoop實戰(zhàn),由筆耕文化傳播整理發(fā)布。
本書是一本系統(tǒng)且極具實踐指導意義的hadoop工具書和參考書。內容全面,對hadoop整個技術體系進行了全面的講解,不僅包括hdfs和mapreduce這兩大核心內容,而且還包括hive、hbase、mahout、pig、zookeeper、avro、chukwa等與hadoop相關的子項目的內容。實戰(zhàn)性強,為各個知識點精心設計了大量經典的小案例,易于理解,可操作性強! 全書一共18章:第1章全面介紹了hadoop的概念、優(yōu)勢、項目結構、體系結構,以及它與分布式計算的關系;第2章詳細講解了hadoop集群的安裝和配置,,以及常用的日志分析技巧;第3章分析了hadoop在yahoo!、ebay、facebook和百度的應用案例,以及hadoop平臺上海量數據的排序;第4-7章深入地講解了mapreduce計算模型、mapreduce應用的開發(fā)方法、mapreduce的工作機制,同時還列出了多個mapreduce的應用案例,涉及單詞計數、數據去重、排序、單表關聯(lián)和多表關聯(lián)等內容;第8-11章全面地闡述了hadoop的i/o操作、hdfs的原理與基本操作,以及hadoop的各種管理操作,如集群的維護等;第12-17章詳細而系統(tǒng)地講解了hive、hbase、mahout、pig、zookeeper、avro、chukwa等所有與hadoop相關的子項目的原理及使用,以及這些子項目與hadoop的整合使用;第18章以實例的方式講解了常用hadoop插件的使用和hadoop插件的開發(fā)! 本書既適合沒有hadoop基礎的初學者系統(tǒng)地學習,又適合有一定hadoop基礎但是缺乏實踐經驗的讀者實踐和參考。 《Hadoop實戰(zhàn)》作為云計算所青睞的分布式架構,Hadoop是一個用Java語言實現的軟件框架,在由大量計算機組成的集群中運行海量數據的分布式計算,是谷歌實現云計算的重要基石。《Hadoop實戰(zhàn)》分為3個部分,深入淺出地介紹了Hadoop框架、編寫和運行Hadoop數據處理程序所需的實踐技能及Hadoop之外更大的生態(tài)系統(tǒng)。 《Hadoop實戰(zhàn)》適合需要處理大量離線數據的云計算程序員、架構師和項目經理閱讀參考。 書籍目錄: 第一部分 Hadoop——一種分布式編程框架 第1章 Hadoop簡介 1.1 為什么寫《Hadoop 實戰(zhàn)》 1.2 什么是Hadoop 1.3 了解分布式系統(tǒng)和Hadoop 1.4 比較SQL 數據庫和Hadoop 1.5 理解MapReduce 1.5.1 動手擴展一個簡單程序 1.5.2 相同程序在MapReduce中的擴展 1.6 用Hadoop統(tǒng)計單詞——運行第一個程序 1.7 Hadoop歷史 1.8 小結 1.9 資源 第2章 初識Hadoop 2.1 Hadoop 的構造模塊顯示全部信息 第一部分 Hadoop——一種分布式編程框架 第1章 Hadoop簡介 1.1 為什么寫《Hadoop 實戰(zhàn)》 1.2 什么是Hadoop 1.3 了解分布式系統(tǒng)和Hadoop 1.4 比較SQL 數據庫和Hadoop 1.5 理解MapReduce 1.5.1 動手擴展一個簡單程序 1.5.2 相同程序在MapReduce中的擴展 1.6 用Hadoop統(tǒng)計單詞——運行第一個程序 1.7 Hadoop歷史 1.8 小結 1.9 資源 第2章 初識Hadoop 2.1 Hadoop 的構造模塊 2.1.1 NameNode 2.1.2 DataNode 2.1.3 Secondary NameNode 2.1.4 JobTracker 2.1.5 TaskTracker 2.2 為Hadoop 集群安裝SSH 2.2.1 定義一個公共賬號 2.2.2 驗證SSH安裝 2.2.3 生成SSH密鑰對 2.2.4 將公鑰分布并登錄驗證 2.3 運行Hadoop 2.3.1 本地(單機)模式 2.3.2 偽分布模式 2.3.3 全分布模式 2.4 基于Web 的集群用戶界面 2.5 小結 第3章 Hadoop組件 3.1 HDFS 文件操作 3.1.1 基本文件命令 3.1.2 編程讀寫HDFS 3.2 剖析MapReduce 程序 3.2.1 Hadoop數據類型 3.2.2 Mapper 3.2.3 Reducer 3.2.4 Partitioner:重定向Mapper輸出 3.2.5 Combiner:本地reduce 3.2.6 預定義mapper和Reducer類的單詞計數 3.3 讀和寫 3.3.1 InputFormat 3.3.2 OutputFormat 3.4 小結 第二部分 實戰(zhàn) 第4章 編寫MapReduce基礎程序 4.1 獲得專利數據集 4.1.1 專利引用數據 4.1.2 專利描述數據 4.2 構建MapReduce 程序的基礎模板 4.3 計數 4.4 適應Hadoop API 的改變 4.5 Hadoop 的Streaming 4.5.1 通過Unix命令使用Streaming 4.5.2 通過腳本使用Streaming 4.5.3 用Streaming處理鍵/值對 4.5.4 通過Aggregate包使用Streaming 4.6 使用combiner 提升性能 4.7 溫故知新 4.8 小結 4.9 更多資源 第5章 高階MapReduce 5.1 鏈接MapReduce 作業(yè) 5.1.1 順序鏈接MapReduce作業(yè) 5.1.2 具有復雜依賴的MapReduce鏈接 5.1.3 預處理和后處理階段的鏈接 5.2 聯(lián)結不同來源的數據 5.2.1 Reduce側的聯(lián)結 5.2.2 基于DistributedCache的復制聯(lián)結 5.2.3 半聯(lián)結:map側過濾后在reduce側聯(lián)結 5.3 創(chuàng)建一個Bloom filter 5.3.1 Bloom filter做了什么 5.3.2 實現一個Bloom filter 5.3.3 Hadoop 0.20 以上版本的Bloom filter 5.4 溫故知新 5.5 小結 5.6 更多資源 第6章 編程實踐 6.1 開發(fā)MapReduce 程序 6.1.1 本地模式 6.1.2 偽分布模式 6.2 生產集群上的監(jiān)視和調試 6.2.1 計數器 6.2.2 跳過壞記錄 6.2.3 用IsolationRunner重新運行出錯的任務 6.3 性能調優(yōu) 6.3.1 通過combiner來減少網絡流量 6.3.2 減少輸入數據量 6.3.3 使用壓縮 6.3.4 重用JVM 6.3.5 根據猜測執(zhí)行來運行 6.3.6 代碼重構與算法重寫 6.4 小結 第7章 細則手冊 7.1 向任務傳遞作業(yè)定制的參數 7.2 探查任務特定信息 7.3 劃分為多個輸出文件 7.4 以數據庫作為輸入輸出 7.5 保持輸出的順序 7.6 小結 第8章 管理Hadoop 8.1 為實際應用設置特定參數值 8.2 系統(tǒng)體檢 8.3 權限設置 8.4 配額管理 8.5 啟用回收站 8.6 刪減DataNode 8.7 增加DataNode 8.8 管理NameNode 和SNN 8.9 恢復失效的NameNode 8.10 感知網絡布局和機架的設計 8.11 多用戶作業(yè)的調度 8.11.1 多個JobTracker 8.11.2 公平調度器 8.12 小結 第三部分 Hadoop也瘋狂 第9章 在云上運行Hadoop 9.1 Amazon Web Services 簡介 9.2 安裝AWS 9.2.1 獲得AWS身份認證憑據 9.2.2 獲得命令行工具 9.2.3 準備SSH密鑰對 9.3 在EC2 上安裝Hadoop 9.3.1 配置安全參數 9.3.2 配置集群類型 9.4 在EC2 上運行MapReduce 程序 9.4.1 將代碼轉移到Hadoop集群上 9.4.2 訪問Hadoop集群上的數據 9.5 清空和關閉EC2 實例 9.6 Amazon Elastic MapReduce 和其他AWS 服務 9.6.1 Amazon Elastic MapReduce 9.6.2 AWS導入/導出 9.7 小結 第10章 用Pig編程 10.1 像Pig 一樣思考 10.1.1 數據流語言 10.1.2 數據類型 10.1.3 用戶定義函數 10.2 安裝Pig 10.3 運行Pig 10.4 通過Grunt 學習Pig Latin 10.5 談談Pig Latin 10.5.1 數據類型和schema 10.5.2 表達式和函數 10.5.3 關系型運算符 10.5.4 執(zhí)行優(yōu)化 10.6 用戶定義函數 10.6.1 使用UDF 10.6.2 編寫UDF 10.7 腳本 10.7.1 注釋 10.7.2 參數替換 10.7.3 多查詢執(zhí)行 10.8 Pig 實戰(zhàn)——計算相似專利的例子 10.9 小結 第11章 Hive及Hadoop群 11.1 Hive 11.1.1 安裝與配置Hive 11.1.2 查詢的示例 11.1.3 深入HiveQL 11.1.4 Hive小結 11.2 其他Hadoop 相關的部分 11.2.1 HBase 11.2.2 ZooKeeper 11.2.3 Cascading 11.2.4 Cloudera 11.2.5 Katta 11.2.6 CloudBase 11.2.7 Aster Data和Greenplum 11.2.8 Hama和Mahout 11.2.9 search-hadoop.com 11.3 小結 第12章 案例研究 12.1 轉換《紐約時報》1100 萬個庫存圖片文檔 12.2 挖掘中國移動的數據 12.3 在StumbleUpon 推薦最佳網站 12.3.1 分布式StumbleUpon 的開端 12.3.2 HBase 和StumbleUpon 12.3.3 StumbleUpon 上的更多Hadoop 應用 12.4 搭建面向企業(yè)查詢的分析系統(tǒng)——IBM的ES2 項目 12.4.1 ES2 系統(tǒng)結構 12.4.2 ES2 爬蟲 12.4.3 ES2 分析 12.4.4 小結 12.4.5 參考文獻 附錄A HDFS文件命令
本文關鍵詞:Hadoop實戰(zhàn),由筆耕文化傳播整理發(fā)布。
本文編號:105735
本文鏈接:http://www.sikaile.net/wenshubaike/mishujinen/105735.html