發表於2024-12-23
第1版廣受好評,第2版基於Hadoop及其相關技術新版本撰寫,從多角度做瞭全麵的修訂和補充。《Hadoop實戰(第2版)》不僅詳細講解瞭新一代的Hadoop技術,而且全麵介紹瞭Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等重要技術,是係統學習Hadoop技術的先選之作!
海報:
《Hadoop實戰(第2版)》能滿足讀者全麵學習新的Hadoop技術及其相關技術(Hive、HBase等)的需求,是一本係統且極具實踐指導意義的Hadoop工具書和參考書。第1版上市後廣受好評,被譽為學習Hadoop技術的經典著作之一。與第1版相比,第2版技術更新穎,所有技術都針對新版進行瞭更新;內容更全麵,幾乎每一個章節都增加瞭新內容,而且增加瞭新的章節;實戰性更強,案例更豐富;細節更完美,對第1版中存在的缺陷和不足進行瞭修正。
本書內容全麵,對Hadoop整個技術體係進行瞭全麵的講解,不僅包括HDFS、MapReduce、YARN等核心內容,而且還包括Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等與Hadoop技術相關的重要內容。實戰性強,不僅為各個知識點精心設計瞭大量經典的小案例,而且還包括Yahoo!等多個大公司的企業級案例,可操作係極強。
《Hadoop實戰(第2版)》全書一共19章:第1~2章首先對Hadoop進行瞭全方位的宏觀介紹,然後介紹瞭Hadoop在三大主流操作係統平颱上的安裝與配置方法;第3~6章分彆詳細講解瞭MapReduce計算模型、MapReduce的工作機製、MapReduce應用的開發方法,以及多個精巧的MapReduce應用案例;第7章全麵講解瞭Hadoop的I/O操作;第8章對YARN進行瞭介紹;第9章對HDFS進行瞭詳細講解和分析;第10章細緻地講解瞭Hadoop的管理;第11~17章對Hadoop大生態係統中的Hive、HBase、Mahout、Pig、ZooKeeper、Avro、Chukwa等技術進行瞭詳細的講解;第18章講解瞭Hadoop的各種常用插件,以及Hadoop插件的開發方法;第19章分析瞭Hadoop在Yahoo!、eBay、百度、Facebook等企業中的應用案例。
陸嘉恒,資深數據庫專傢和雲計算技術專傢,對Hadoop及其相關技術有非常深入的研究,主持瞭多個分布式雲計算項目的研究與實施,積纍瞭豐富的實踐經驗。獲得新加坡國立大學博士學位,美國加利福尼亞大學爾灣分校(University of California, Irvine) 博士後,現為中國人民大學教授,博士生導師。此外,他對數據挖掘和Web信息搜索等技術也有深刻的認識。
前 言
第1章 Hadoop簡介
1.1 什麼是Hadoop
1.1.1 Hadoop概述
1.1.2 Hadoop的曆史
1.1.3 Hadoop的功能與作用
1.1.4 Hadoop的優勢
1.1.5 Hadoop應用現狀和發展趨勢
1.2 Hadoop項目及其結構
1.3 Hadoop體係結構
1.4 Hadoop與分布式開發
1.5 Hadoop計算模型—MapReduce
1.6 Hadoop數據管理
1.6.1 HDFS的數據管理
1.6.2 HBase的數據管理
1.6.3 Hive的數據管理
1.7 Hadoop集群安全策略
1.8 本章小結
第2章 Hadoop的安裝與配置
2.1 在Linux上安裝與配置Hadoop
2.1.1 安裝JDK 1.6
2.1.2 配置SSH免密碼登錄
2.1.3 安裝並運行Hadoop
2.2 在Mac OSX上安裝與配置Hadoop
2.2.1 安裝Homebrew
2.2.2 使用Homebrew安裝Hadoop
2.2.3 配置SSH和使用Hadoop
2.3 在Windows上安裝與配置Hadoop
2.3.1 安裝JDK 1.6或更高版本
2.3.2 安裝Cygwin
2.3.3 配置環境變量
2.3.4 安裝sshd服務
2.3.5 啓動sshd服務
2.3.6 配置SSH免密碼登錄
2.3.7 安裝並運行Hadoop
2.4 安裝和配置Hadoop集群
2.4.1 網絡拓撲
2.4.2 定義集群拓撲
2.4.3 建立和安裝Cluster
2.5 日誌分析及幾個小技巧
2.6 本章小結
第3章 MapReduce計算模型
3.1 為什麼要用MapReduce
3.2 MapReduce計算模型
3.2.1 MapReduce Job
3.2.2 Hadoop中的Hello World程序
3.2.3 MapReduce的數據流和控製流
3.3 MapReduce任務的優化
3.4 Hadoop流
3.4.1 Hadoop流的工作原理
3.4.2 Hadoop流的命令
3.4.3 兩個例子
3.5 Hadoop Pipes
3.6 本章小結
第4章 開發MapReduce應用程序
4.1 係統參數的配置
4.2 配置開發環境
4.3 編寫MapReduce程序
4.3.1 Map處理
4.3.2 Reduce處理
4.4 本地測試
4.5 運行MapReduce程序
4.5.1 打包
4.5.2 在本地模式下運行
4.5.3 在集群上運行
4.6 網絡用戶界麵
4.6.1 JobTracker頁麵
4.6.2 工作頁麵
4.6.3 返迴結果
4.6.4 任務頁麵
4.6.5 任務細節頁麵
4.7 性能調優
4.7.1 輸入采用大文件
4.7.2 壓縮文件
4.7.3 過濾數據
4.7.4 修改作業屬性
4.8 MapReduce工作流
4.8.1 復雜的Map和Reduce函數
4.8.2 MapReduce Job中全局共享數據
4.8.3 鏈接MapReduce Job
4.9 本章小結
第5章 MapReduce應用案例
5.1 單詞計數
5.1.1 實例描述
5.1.2 設計思路
5.1.3 程序代碼
5.1.4 代碼解讀
5.1.5 程序執行
5.1.6 代碼結果
5.1.7 代碼數據流
5.2 數據去重
5.2.1 實例描述
5.2.2 設計思路
5.2.3 程序代碼
5.3 排序
5.3.1 實例描述
5.3.2 設計思路
5.3.3 程序代碼
5.4 單錶關聯
5.4.1 實例描述
5.4.2 設計思路
5.4.3 程序代碼
5.5 多錶關聯
5.5.1 實例描述
5.5.2 設計思路
5.5.3 程序代碼
5.6 本章小結
第6章 MapReduce工作機製
6.1 MapReduce作業的執行流程
6.1.1 MapReduce任務執行總流程
6.1.2 提交作業
6.1.3 初始化作業
6.1.4 分配任務
6.1.5 執行任務
6.1.6 更新任務執行進度和狀態
6.1.7 完成作業
6.2 錯誤處理機製
6.2.1 硬件故障
6.2.2 任務失敗
6.3 作業調度機製
6.4 Shuffle和排序
6.4.1 Map端
6.4.2 Reduce端
6.4.3 shuffle過程的優化
6.5 任務執行
6.5.1 推測式執行
6.5.2 任務JVM重用
6.5.3 跳過壞記錄
6.5.4 任務執行環境
6.6 本章小結
第7章 Hadoop IO操作
7.1 IO操作中的數據檢查
7.2 數據的壓縮
7.2.1 Hadoop對壓縮工具的選擇
7.2.2 壓縮分割和輸入分割
7.2.3 在MapReduce程序中使用壓縮
7.3 數據的IO中序列化操作
7.3.1 Writable類
7.3.2 實現自己的Hadoop數據類型
7.4 針對Mapreduce的文件類
7.4.1 SequenceFile類
7.4.2 MapFile類
7.4.3 ArrayFile、SetFile和BloomMapFile
7.5 本章小結
第8章 下一代MapReduce:YARN
8.1 MapReduce V2設計需求
8.2 MapReduce V2主要思想和架構
8.3 MapReduce V2設計細節
8.4 MapReduce V2優勢
8.5 本章小結
第9章 HDFS詳解
9.1 Hadoop的文件係統
9.2 HDFS簡介
9.3 HDFS體係結構
9.3.1 HDFS的相關概念
9.3.2 HDFS的體係結構
9.4 HDFS的基本操作
9.4.1 HDFS的命令行操作
9.4.2 HDFS的Web界麵
9.5 HDFS常用Java API詳解
9.5.1 使用Hadoop URL讀取數據
9.5.2 使用FileSystem API讀取數據
9.5.3 創建目錄
9.5.4 寫數據
9.5.5 刪除數據
9.5.6 文件係統查詢
9.6 HDFS中的讀寫數據流
9.6.1 文件的讀取
9.6.2 文件的寫入
9.6.3 一緻性模型
9.7 HDFS命令詳解
9.7.1 通過distcp進行並行復製
9.7.2 HDFS的平衡
9.7.3 使用Hadoop歸檔文件
9.7.4 其他命令
9.8 WebHDFS
9.8.1 WebHDFS的配置
9.8.2 WebHDFS命令
9.9 本章小結
第10章 Hadoop的管理
10.1 HDFS文件結構
10.2 Hadoop的狀態監視和管理工具
10.2.1 審計日誌
10.2.2 監控日誌
10.2.3 Metrics
10.2.4 Java管理擴展
10.2.5 Ganglia
10.2.6 Hadoop管理命令
10.3 Hadoop集群的維護
10.3.1 安全模式
10.3.2 Hadoop的備份
10.3.3 Hadoop的節點管理
10.3.4 係統升級
10.4 本章小結
第11章 Hive詳解
11.1 Hive簡介
11.1.1 Hive的數據存儲
11.1.2 Hive的元數據存儲
11.2 Hive的基本操作
11.2.1 在集群上安裝Hive
11.2.2 配置MySQL存儲Hive元數據
11.2.3 配置Hive
11.3 Hive QL詳解
11.3.1 數據定義(DDL)操作
11.3.2 數據操作(DML)
11.3.3 SQL操作
11.3.4 Hive QL使用實例
11.4 Hive網絡(Web UI)接口
11.4.1 Hive網絡接口配置
11.4.2 Hive網絡接口操作實例
11.5 Hive的JDBC接口
11.5.1 Eclipse環境配置
11.5.2 程序實例
11.6 Hive的優化
11.7 本章小結
第12章 HBase詳解
12.1 HBase簡介
12.2 HBase的基本操作
12.2.1 HBase的安裝
12.2.2 運行HBase
12.2.3 HBase Shell
12.2.4 HBase配置
12.3 HBase體係結構
12.3.1 HRegion
12.3.2 HRegion服務器
12.3.3 HBase Master服務器
12.3.4 ROOT錶和META錶
12.3.5 ZooKeeper
12.4 HBase數據模型
12.4.1 數據模型
12.4.2 概念視圖
12.4.3 物理視圖
12.5 HBase與RDBMS
12.6 HBase與HDFS
12.7 HBase客戶端
12.8 Java API
12.9 HBase編程
12.9.1 使用Eclipse開發HBase應用程序
12.9.2 HBase編程
12.9.3 HBase與MapReduce
12.10 模式設計
12.10.1 模式設計應遵循的原則
12.10.2 學生錶
12.10.3 事件錶
12.11 本章小結
第13章 Mahout詳解
13.1 Mahout簡介
13.2 Mahout的安裝和配置
13.3 Mahout API簡介
13.4 Mahout中的頻繁模式挖掘
13.4.1 什麼是頻繁模式挖掘
13.4.2 Mahout中的頻繁模式挖掘
13.5 Mahout中的聚類和分類
13.5.1 什麼是聚類和分類
13.5.2 Mahout中的數據錶示
13.5.3 將文本轉化成嚮量
13.5.4 Mahout中的聚類、分類算法
13.5.5 算法應用實例
13.6 Mahout應用:建立一個推薦引擎
13.6.1 推薦引擎簡介
13.6.2 使用Taste構建一個簡單的推薦引擎
13.6.3 簡單分布式係統下基於産品的推薦係統簡介
13.7 本章小結
第14章 Pig詳解
14.1 Pig簡介
14.2 Pig的安裝和配置
14.2.1 Pig的安裝條件
14.2.2 Pig的下載、安裝和配置
14.2.3 Pig運行模式
14.3 Pig Latin語言
14.3.1 Pig Latin語言簡介
14.3.2 Pig Latin的使用
14.3.3 Pig Latin的數據類型
14.3.4 Pig Latin關鍵字
14.4 用戶定義函數
14.4.1 編寫用戶定義函數
14.4.2 使用用戶定義函數
14.5 Zebra簡介
14.5.1 Zebra的安裝
14.5.2 Zebra的使用簡介
14.6 Pig實例
14.6.1 Local模式
14.6.2 MapReduce模式
14.7 Pig進階
14.7.1 數據實例
14.7.2 Pig數據分析
14.8 本章小結
第15章 ZooKeeper詳解
15.1 ZooKeeper簡介
15.1.1 ZooKeeper的設計目標
15.1.2 數據模型和層次命名空間
15.1.3 ZooKeeper中的節點和臨時節點
15.1.4 ZooKeeper的應用
15.2 ZooKeeper的安裝和配置
15.2.1 安裝ZooKeeper
15.2.2 配置ZooKeeper
15.2.3 運行ZooKeeper
15.3 ZooKeeper的簡單操作
15.3.1 使用ZooKeeper命令的簡單操作步驟
15.3.2 ZooKeeper API的簡單使用
15.4 ZooKeeper的特性
15.4.1 ZooKeeper的數據模型
15.4.2 ZooKeeper會話及狀態
15.4.3 ZooKeeper watches
15.4.4 ZooKeeper ACL
15.4.5 ZooKeeper的一緻性保證
15.5 使用ZooKeeper進行Leader選舉
15.6 ZooKeeper鎖服務
15.6.1 ZooKeeper中的鎖機製
15.6.2 ZooKeeper提供的一個寫鎖的實現
15.7 使用ZooKeeper創建應用程序
15.7.1 使用Eclipse開發ZooKeeper應用程序
15.7.2 應用程序實例
15.8 BooKeeper
15.9 本章小結
第16章 Avro詳解
第17章 Chukwa詳解
第18章 Hadoop的常用插件與開發
第19章 企業應用實例
……
本章參考資料
附錄A 雲計算在綫檢測平颱
附錄B Hadoop安裝、運行與使用說明
附錄C 使用DistributedCache的MapReduce程序
附錄D 使用ChainMapper和ChainReducer的MapReduce程序
為什麼寫這本書
計算技術已經改變瞭我們的工作、學習和生活。分布式的雲計算技術是當下IT領域最熱門的話題之一,它通過整閤資源,為降低成本和能源消耗提供瞭一種簡化、集中的計算平颱。這種低成本、高擴展、高性能的特點促使其迅速發展,遍地開發,悄然改變著整個行業的麵貌。社會各界對雲計算的廣泛研究和應用無疑證明瞭這一點:在學術界,政府和很多高校十分重視對雲計算技術的研究和投入;在産業界,各大IT公司也在研究和開發相關的雲計算産品上投入瞭大量的資源。這些研究和應用推動與雲計算相關的新興技術和産品不斷湧現,傳統的信息服務産品嚮雲計算模式轉型。
Hadoop作為Apache基金會的開源項目,是雲計算研究和應用最具代錶性的産品。Hadoop分布式框架為開發者提供瞭一個分布式係統的基礎架構,用戶可以在不瞭解分布式係統底層細節的情況下開發分布式的應用,充分利用由Hadoop統一起來的集群存儲資源、網絡資源和計算資源,實現基於海量數據的高速運算和存儲。
在編寫本書第一版時,鑒於Hadoop技術本身和應用環境較為復雜,入門和實踐難度較大,而關於Hadoop的參考資料又非常少,筆者根據自己的實際研究和使用經曆,理論與實踐並重,從基礎齣發,為讀者全麵呈現瞭Hadoop的相關知識,旨在為Hadoop學習者提供一本工具書。但是時至今日,Hadoop的版本已從本書第一版介紹的0.20升級至正式版1.0,讀者的需求也從入門發展到更加深入地瞭解Hadoop的實現細節,瞭解Hadoop的更新和發展的趨勢,瞭解Hadoop在企業中的應用。雖然本書第一版受到廣大Hadoop學習者的歡迎,但是為瞭保持對最新版Hadoop的支持,進一步滿足讀者的需求,繼續推動Hadoop技術在國內的普及和發展,筆者不惜時間和精力,搜集資料,親自實踐,編寫瞭本書第二版。
第2版與第1版的區彆
基於Hadoop 1.0版本和相關項目的最新版,本書在第1版的基礎上進行瞭更新和調整:
每章都增加瞭新內容(如第1章增加瞭與Hadoop安全相關的知識,第2增加瞭在Max OS X係統上安裝Hadoop的介紹,第9章增加瞭WebHDFS等);
部分章節深入剖析瞭Hadoop源碼;
增加瞭對Hadoop接口及實踐方麵的介紹(附錄C和附錄D);
增加瞭對下一代MapReduce的介紹(第8章);
將企業應用介紹移到本書最後並更新瞭內容( Hadoop實戰(第2版) 下載 mobi epub pdf txt 電子書 格式
Hadoop實戰(第2版) 下載 mobi pdf epub txt 電子書 格式 2024
Hadoop實戰(第2版) 下載 mobi epub pdf 電子書內容盡是錯漏,感覺上當瞭,感覺受騙瞭
評分不錯的書,是正版的
評分不錯,很實惠,物流速度很快
評分實用派書籍。
評分送貨速度快,值得擁有,可以購買,好東西!!!!!!
評分喜歡在京東買書,有活動的時候超級劃算
評分好評好評!!!!!!!
評分雖然還沒看呢 但是感覺還不錯
評分Hadoop的實戰書,很不錯的選擇
Hadoop實戰(第2版) mobi epub pdf txt 電子書 格式下載 2024