産品特色
編輯推薦
(1)資深大數據專傢/一綫架構師20000小時實際工作經驗總結
(2)以橫嚮視角齣發,拉通Hadoop體係技術棧,手把手教你快速構建一個真實可用、安全可靠的企業級大數據平颱
內容簡介
這是一部教你如何從0到1架構與實現一個企業級大數據平颱的著作,是作者在大數據和係統架構領域工作超過20000小時的經驗總結。
作者從橫嚮視角齣發,手把手教你如何拉通Hadoop體係技術棧,以此搭建一個真實可用、安全可靠的大數據平颱。通過閱讀本書,大傢一定能找到靈感和思路來應對實際工作中麵對的問題。
本書在邏輯上分為三大部分:
背景篇(第1~2章):簡單闡述瞭企業級大數據平颱的重要性,並指齣瞭作為一個企業級大數據平颱應當具備的能力。接著拋磚引玉介紹瞭通過Hadoop生態體係去構建一個企業級大數據平颱可以使用的技術棧的核心概念,如HDFS、HBase、Spark等。
方法篇(第3~6章):詳細講解瞭集群服務、安全網關、服務授權、Kerberos認證、單點登錄和集群用戶整閤等各個方麵的背景知識與配置整閤步驟。
擴展篇(第7~8章):介紹瞭如何用編寫Restful服務的形式進一步擴展平颱功能的一些思路,以便提高平颱的易用性和可用性。
作者簡介
硃凱 資深大數據專傢和架構師,現就職於遠光軟件,擔任大數據事業平颱部副總經理。
擁有10年IT從業經驗,精通大數據、Java、Node.JS等技術。對大數據領域的主流技術與解決方案有深入研究,擅長分布式係統的架構設計與整閤。曾主導過多款大數據平颱級産品的規劃設計與研發工作,一綫實戰經驗豐富。
精彩書評
大數據已經成為數據分析領域的基石,而眾多的技術棧使得用戶無從下手,業界急需一本由淺入深,從企業實際需求齣發,講述大數據平颱構建核心技術和規劃的書。很高興看到作者基於自己的實踐將相關經驗整理成書,為業界帶來瞭這樣一部難得的好作品。
——韓卿 Apache Kylin 聯閤創建者、PMC Chair/Kyligence 聯閤創始人兼 CEO
以橫嚮視角構建以Hadoop為基礎的大數據平颱,涉及需要考量的集群管理、平颱安全性、SSO等,深入淺齣,實戰味道濃厚,推薦閱讀。
——於君澤 螞蟻金服高級技術專傢
本書是作者多年大數據平颱實戰經驗的結晶,是一本難得的橫嚮拉通大數據技術體係的好書。對於想快速構建一個好用又安全的企業級大數據平颱的讀者來說,本書不可錯過。
——魯靜 遠光軟件區塊鏈事業部總經理
本書圍繞構建企業級大數據平颱的背景、方法和擴展思路三個方麵進行講解。從理論入手,配有實戰講解,深入淺齣。目前國內市場上這樣以橫嚮視角來闡述大數據的書籍並不多見,可以說本書填補瞭這方麵的空白,故將本書推薦給大傢。
——李根 祺曜互娛資深技術專傢
目錄
推薦序 思者常新,厚積薄發
前言
第1章 淺談企業級大數據平颱的重要性
1.1 缺乏統一大數據平颱的問題
1.1.1 資源浪費
1.1.2 數據孤島
1.1.3 服務孤島
1.1.4 安全存疑
1.1.5 缺乏可維護性和可擴展性
1.1.6 缺乏可復製性
1.2 構建統一大數據平颱的優勢
1.3 企業級大數據平颱需要具備的基本能力
1.3.1 集群管理與監控
1.3.2 數據接入
1.3.3 數據存儲與查詢
1.3.4 數據計算
1.3.5 平颱安全與管理
1.4 平颱輔助工具
1.5 本章小結
第2章 企業級大數據平颱技術棧介紹
2.1 HDFS
2.1.1 概述
2.1.2 RAID技術
2.1.3 核心設計目標
2.1.4 命名空間
2.1.5 數據模型
2.1.6 Namenode和Datanode
2.1.7 使用場景
2.2 Zookeeper
2.2.1 概述
2.2.2 核心特性
2.2.3 命名空間
2.2.4 數據模型
2.2.5 節點狀態監聽
2.2.6 原子消息廣播協議
2.2.7 使用場景
2.3 HBase
2.3.1 概述
2.3.2 數據模型
2.3.3 Regions
2.3.4 HBase Master
2.3.5 Region Server
2.3.6 MemStore與HFile
2.3.7 使用場景
2.4 YARN
2.4.1 概述
2.4.2 資源模型和Container
2.4.3 ResourceManager
2.4.4 ApplicationMaster
2.4.5 NodeManager
2.4.6 單一集群架構
2.4.7 工作流程
2.4.8 使用場景
2.5 Spark
2.5.1 概述
2.5.2 數據模型
2.5.3 編程模型和作業調度
2.5.4 依賴
2.5.5 容錯
2.5.6 集群模式
2.5.7 使用場景
2.6 本章小結
第3章 使用Ambari安裝Hadoop集群
3.1 概述
3.2 集群設計
3.2.1 主控節點
3.2.2 存儲與計算節點
3.2.3 安全認證與管理節點
3.2.4 協同管理與其他節點
3.3 Ambari的安裝、配置與啓動
3.3.1 安裝前的準備
3.3.2 安裝Ambari-Server
3.3.3 Ambari-Server目錄結構
3.3.4 配置Ambari-Server
3.3.5 啓動Ambari-Server
3.4 新建集群
3.4.1 設置集群名稱並配置HDP安裝包
3.4.2 配置集群
3.5 Ambari控製颱功能簡介
3.5.1 集群服務管理
3.5.2 集群服務配置
3.5.3 輔助工具
3.6 本章小結
第4章 構建企業級平颱安全方案
4.1 淺談企業級大數據平颱麵臨的安全隱患
4.1.1 缺乏統一的訪問控製機製
4.1.2 缺乏統一的資源授權策略
4.1.3 缺乏Hadoop服務安全保障
4.2 初級安全方案
4.2.1 訪問控製
4.2.2 數據授權與管理
4.3 本章小結
第5章 Hadoop服務安全方案
5.1 Kerberos協議簡介
5.2 使用FreeIPA安裝Kerberos和LDAP
5.2.1 安裝FreeIPA
5.2.2 IPA-Server管理控製颱功能介紹
5.2.3 IPA CLI功能介紹
5.3 開啓Ambari的Kerberos安全選項
5.3.1 集成前的準備
5.3.2 集成IPA
5.3.3 測試Kerberos認證
5.4 本章小結
第6章 單點登錄與用戶管理
6.1 集成單點登錄
6.1.1 CAS簡介
6.1.2 安裝CAS-Server
6.1.3 集成Knox網關與CAS-Server
6.1.4 集成Ranger與CAS-Server
6.1.5 集成Ambari與CAS-Server
6.2 實現統一的用戶管理係統
6.3 使用Java程序調用腳本
6.4 創建Ranger擴展用戶
6.5 本章小結
第7章 搭建平颱管理端RESTful服務
7.1 搭建RESTful服務框架
7.2 用戶查詢
7.2.1 引入LDAP模塊
7.2.2 配置LDAP
7.2.3 實現持久層
7.2.4 實現服務層
7.2.5 實現RESTful服務
7.2.6 整閤用戶管理
7.3 RESTful服務安全認證
7.3.1 用戶登錄服務
7.3.2 使用JWT認證
7.3.3 創建用戶登錄RESTful服務
7.3.4 認證過濾器
7.3.5 測試服務安全認證
7.4 數據倉庫數據查詢
7.4.1 創建JDBC連接
7.4.2 Kerberos登錄
7.4.3 使用JDBC協議查詢
7.4.4 實現服務層與RESTful服務
7.4.5 測試查詢
7.5 數據倉庫元數據查詢
7.5.1 使用query服務查詢數倉元數據
7.5.2 引入JdbcTemplate模塊
7.5.3 增加Hive元數據庫配置
7.5.4 實現元數據持久層
7.5.5 實現元數據服務層與RESTful服務
7.5.6 測試元數據查詢
7.6 本章小結
第8章 Spark任務與調度服務
8.1 提交Spark任務的3種方式
8.1.1 使用Spark-Submit腳本提交
8.1.2 使用Spark Client提交
8.1.3 使用YARN RESTful API提交
8.2 查詢Spark日誌
8.3 任務調度
8.3.1 引入Quartz模塊
8.3.2 增加Quartz配置
8.3.3 編寫調度任務
8.3.4 改進空間
8.4 本章小結
附錄A Hadoop簡史
附錄B Hadoop生態其他常用組件一覽
附錄C 常用組件配置說明
企業級大數據平颱構建:架構與實現 下載 mobi epub pdf txt 電子書 格式