Spark：大数据集群计算的生产实践 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[美] Ilya，Ganelin（伊利亚?甘列林）等著，李刚译

图书标签:

Spark
大数据
集群计算
生产实践
数据处理
分布式计算
Scala
Java
Python
性能优化

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.teaonline.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121313646

版次：1

商品编码：12084241

品牌：Broadview

包装：平装

开本：16开

出版时间：2017-05-01

用纸：胶版纸

页数：220

字数：226500

正文语种：中文

具体描述

产品特色

编辑推荐

适读人群：开发人员、Spark应用的项目经理，以及那些在考虑将开发的Spark应用程序迁移到生产环境的系统管理员（或者DevOps）

本书涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。作者均为大数据社区的知名专家，带着你一步步从概念验证或Spark应用的demo版迁移到生产环境，用真实案例分析常见问题、限制、挑战和机会。

调优Spark应用

管理资源、组织存储、做好监控

了解在生产环境中使用Spark时有哪些潜在的问题

知晓Spark用在何处*能发挥作用

预估集群的规模，搞清楚硬件需求

通过内存管理、分区、shuffle等技术提升性能

用Kerberos保证数据的安全

解决Spark streaming在生产环境中的问题

将Spark与Yarn、Mesos、Tachyon等集成

内容简介

本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助，涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章，第1 ~ 2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义；第3章和第5章阐述了针对配置参数的法则和权衡方案，用来调优Spark，改善性能，获得高可用性和容错性；第4章专门讨论Spark应用中的安全问题；第6章则全面介绍生产流，以及把一个应用迁移到一个生产工作流中时所需要的各种组件，同时对Spark生态系统进行了梳理。

作者简介

Ilya Ganelin 从机器人专家成功跨界成为一名数据工程师。他曾在密歇根大学花费数年时间研究自发现机器人（self-discovering robot），在波音公司从事手机及无线嵌入式DSP（数据信号处理）软件开发项目，随后加入Capital One 的数据创新实验室，由此进入大数据领域。Ilya是Apache Spark核心组件的活跃贡献者以及Apache Apex的提交者（committer），他希望研究构建下一代分布式计算平台。同时，Ilya还是一个狂热的面包烘焙师、厨师、赛车手和滑雪爱好者。

Ema Orhian 是一位对伸缩性算法充满激情的大数据工程师。她活跃于大数据社区，组织会议，在会上发表演讲，积极投身于开源项目。她是jaws-spark-sql-rest（SparkSQL数据仓库上的一种资源管理器）的主要提交者。Ema一直致力于将大数据分析引入医疗领域，开发一个对大型数据集计算统计指标的端到端的管道。

Kai Sasaki 是一位日本软件工程师，对分布式计算和机器学习很感兴趣。但是一开始他并未从事Hadoop或Spark相关的工作，他最初的兴趣是中间件以及提供这些服务的基础技术，是互联网驱使他转向大数据技术领域。Kai一直是Spark的贡献者，开发了不少MLlib和ML库。如今，他正尝试研究将机器学习和大数据结合起来。他相信Spark在大数据时代的人工智能领域也将扮演重要角色。他的GitHub地址为：https://github.com/Lewuathe。

Brennon York既是一名特技飞行员，也是一位计算机科学家。他的爱好是分布式计算、可扩展架构以及编程语言。自2014年以来，他就是Apache Spark的核心贡献者，目标是通过发展GraphX和核心编译环境，培育一个更强大的Spark社区，激发更多合作。从为Spark提交贡献开始，York就一直在用Spark，而且从那个时候开始，就使用Spark将应用带入生产环境。

李刚，曾在IBM工作近20年，在数据中心IT建设、优化及管理领域有深入的研究和丰富的经验。在IBM期间负责IBM系统服务相关解决方案的开发与管理，其中包含数据中心基础设施与IT技术瓶体、数据中心高可用性管理暨灾难恢复，以及企业IT战略及IT架构优化等相关领域。

第1 章成功运行Spark job / 1
安装所需组件 / 2
原生安装Spark Standalone 集群 /3
分布式计算的发展史/ 3
步入云时代 /5
理解资源管理/6
使用各种类型的存储格式 /9
文本文件/11
Sequence 文件/13
Avro 文件/ 13
Parquet 文件 /13
监控和度量的意义/ 14
Spark UI/ 14
Spark Standalone UI/ 17
Metrics REST API / 17
Metrics System / 18
外部监控工具 / 18
总结 /19
第2 章集群管理 /21
背景知识/ 23
Spark 组件 / 26
Driver / 27
workers 与executors /28
配置 / 30
Spark Standalone/33
架构 / 34
单节点设置场景 / 34
多节点设置 / 36
YARN / 36
架构 / 38
动态资源分配 /41
场景 /43
Mesos/ 45
安装/46
架构 / 47
动态资源分配/ 49
基本安装场景 / 50
比较 / 52
总结 /56
第3 章性能调优 /59
Spark 执行模型/ 60
分区 /62
控制并行度/62
分区器/64
shuffle 数据 /65
shuffle 与数据分区 / 67
算子与shuffle / 70
shuffle 并不总是坏事 /75
序列化 / 75
Kryo 注册器 / 77
Spark 缓存 / 77
SparkSQL 缓存 / 81
内存管理 /82
垃圾回收 / 83
共享变量 / 84
广播变量 / 85
累加器 /87
数据局部性 / 90
总结 / 91
第4 章安全/ 93
架构/ 94
Security Manager/ 94
设定配置 / 95
ACL / 97
配置 / 97
提交job / 98
Web UI/ 99
网络安全 / 107
加密/ 108
事件日志 /113
Kerberos/114
Apache Sentry．/114
总结 /115
第5 章容错或job 执行/ 117
Spark job 的生命周期 /118
Spark master /119
Spark driver/ 122
Spark worker /124
job 生命周期 /124
job 调度 /125
应用程序内部调度 / 125
用外部工具进行调度 / 133
容错 /135
内部容错与外部容错 / 136
SLA/ 137
RDD / 138
Batch vs Streaming / 145
测试策略 / 148
推荐配置/ 155
总结 / 158
第6 章超越Spark /159
数据仓库 /159
SparkSQL CLI/161
Thrift JDBC/ODBC 服务器 / 162
Hive on Spark/ 162
机器学习 / 164
DataFrame / 165
MLlib 和ML / 167
Mahout on Spark / 174
Hivemall On Spark/ 175
外部的框架 / 176
Spark Package / 177
XGBoost/ 179
spark-jobserver / 179
未来的工作 /182
与参数服务器集成 / 184
深度学习 / 192
Spark 在企业中的应用 / 200
用Spark 及Kafka 收集用户活动日志 / 200
用Spark 做实时推荐/ 202
Twitter Bots 的实时分类 / 204
总结 / 205

精彩书摘

　　《Spark：大数据集群计算的生产实践》：
　　1.有一个需要连接（join）两个大数据集的应用程序。它要求两个文件的所有数据以及对于给定的join条件数据集的所有行都驻留在内存中。假设每个数据集有512 GB，Spark集群的每个数据节点只有256 GB的内存。在16个数据节点上，哪一个节点都放不下这两个文件。在这个实例中，构建一个2 TB内存的客户端比较理想，在客户端上本地启动driver应用并执行join操作。
　　2.多个应用共享一个Spark集群。它们通过客户端节点访问集群，该节点仅有60 GB的内存。这个集群管理着50个数据节点，每个节点有48个CPU和256 GB的内存。所有应用的负载每次在不超过40 GB的单个数据集上操作。在这种情况下，对于给定的driver应用，使用它时最多只需要存储40 GB的数据，而且它能被放置在到任意可用的数据节点。此外，因为这是一个共享的集群，客户端机器（用户在这台机器上启动各自的应用）上的资源使用是有限制的，由多个用户共享。在这个例子中，在Spark集群的节点上启动driver应用是非常明智的选择。
　　……

前言/序言

引言

Apache Spark 一个易于掌握的、面向大规模计算的分布式计算框架。它又被称为“计算网格”或者“计算框架”——考虑到Spark 使开发人员能够便捷地获得大量数据且进行分析，这些说法也是正确的。

Apache Spark 由Matei Zaharia 2009 年在加州大学伯克利分校创建，一开始把它作为一个研究项目，后来在2010 年捐给开源社区。2013 年，Spark 作为一个孵化项目加入Apache 软件基金会，并于2014 年成为顶级项目（TLP），一直发展到现在。

本书面向的读者

如果你拿起这本书，我们认为你应该对Spark 非常感兴趣。本书面向的读者群体是开发人员、Spark 应用的项目经理，以及那些准备考虑将开发的Spark 应用程序迁移到生产环境的系统管理员（或者DevOps）。

涵盖的内容

本书涵盖了开发及维护生产级Spark 应用的各种方法论、组件与最佳实践。也就是说，我们假设你已经有一个或者打算开发一个Spark 应用，并且具备Spark 的一些基础知识。

内容结构

本书分为6 章，旨在传授给读者以下知识：

? 深入理解Spark 的内部机制以及它们在生产流程中的含义。

? 一组针对配置参数的法则和权衡方案，用来调优Spark 以获得高可用性和容错性。

? 全面了解生产流，以及把一个应用迁移到一个生产工作流中时所需要的各种组件。

读者需要具备的知识

作为读者，你应该具备基本的Spark 开发及使用的知识。本书不会讲述入门级内容。市面上有许多关于Spark 入门的书籍、论坛及各类资源，如果你对某部分的知识点有所缺失，可以阅读相关主题的资料以便更好地理解本书所表达的内容。本书示例的源代码可从Wiley 网站上下载：（ www.wiley.com/go/sparkbigdataclustercomputing。）

格式的约定

为帮助你了解本书的内容及主线，在本书用了一些格式约定。

注意这个样例表示注意事项、小提示、暗示、技巧，或者当前讨论的旁白。

? 当介绍一些新的术语和重要的词时，会采用黑体（中文）或者加粗（英文）。

? 在文本里显示代码时会使用代码体，譬如： persistence.properties。

源码

学习本书中的示例时，你可以选择手动输入所有代码，或使用本书所配套的源

码文件。所有的源码均可从www.wiley.com 下载。对于本书，下载页面在

www.wiley.com/go/sparkbigdataclustercomputing 的“Download Code”

标签页上。

可以在www.wiley.com 上通过英文版的ISBN（978-1-119-25401-0）来搜索本

书。

你也可以在https://github.com/backstopmedia/sparkbook 上找到

这些文件。

下载完代码，随便用哪种解压工具解压即可。

读者服务

轻松注册成为博文视点社区用户（www.broadview.com.cn），扫码直达本书页面。

? 提交勘误：您对书中内容的修改意见可在提交勘误处提交，若被采纳，将获赠博文视点社区积分（在您购买电子书时，积分可用来抵扣相应金额）。

? 交流互动：在页面下方读者评论处留下您的疑问或观点，与我们和其他读者一同学习交流。

页面入口：http://www.broadview.com.cn/31364

璀璨星河中的数据洪流：解锁企业级数据处理的无限可能在这个数据爆炸式增长的时代，企业正以前所未有的速度积累着海量信息。如何有效地管理、处理和分析这些数据，从中挖掘出驱动业务增长的洞察，已经成为企业能否在激烈竞争中脱颖而出的关键。传统的单机数据处理方式早已无法满足需求，分布式计算技术应运而生，而其中一颗耀眼的明星，以其卓越的性能和广泛的应用，正引领着大数据处理的新浪潮。本书并非聚焦于某个具体工具的详尽技术手册，而是旨在描绘一幅宏大的图景：在企业级数据处理的广阔领域中，如何构建、管理和优化一个高效、稳定且能够应对复杂挑战的分布式计算集群。我们将一同探索，如何从零开始，构筑一套能够处理PB级别数据的坚实基础设施，并在此基础上，实现对数据的深度加工和智能化应用。第一篇：分布式计算的基石——理解与构建在踏上企业级数据处理的征程之前，我们必须牢固掌握分布式计算的核心理念。我们将从最基础的分布式系统原理讲起，深入剖析CAP定理、最终一致性等概念，理解它们在实际应用中的权衡与选择。只有深刻理解了这些理论的精髓，才能在后续的实践中做出明智的技术选型和架构设计。接下来，我们将聚焦于构建企业级分布式集群的实际步骤。这不仅仅是简单地部署几台服务器，而是需要系统性的规划和精细化的实施。我们将详细讲解服务器选型、网络配置、存储方案的选择，以及如何根据业务场景需求，合理规划集群的规模和资源分配。这包括对硬件性能指标的解读，对不同存储技术的优劣势分析，以及如何搭建一个稳定、高可用的网络环境，为后续的数据处理奠定坚实的基础。第二篇：集群管理的艺术——稳定、高效与可维护一个稳定且高效的分布式集群，是数据处理能力得以充分发挥的前提。本篇将深入探讨集群管理的方方面面，将理论知识转化为实操能力。资源调度与管理：在多任务、多用户的复杂环境中，如何公平且高效地分配计算资源，确保关键任务的优先执行，避免资源闲置或拥堵，是我们面临的重要挑战。我们将探讨各种资源调度策略，从静态分配到动态调度，以及如何通过精细化的资源监控和调优，提升集群的整体利用率。作业提交与执行：如何设计一套灵活、易用的作业提交和管理机制，让数据工程师和分析师能够方便地提交、监控和管理他们的数据处理任务？我们将解析不同的作业调度器（如YARN）的工作原理，讲解如何编写高效的作业脚本，以及如何进行作业的性能调优和故障排查。故障检测与恢复：分布式系统 inherently 存在故障的可能。如何构建一套健壮的故障检测机制，并能快速、准确地进行故障恢复，最大限度地减少业务中断时间，是集群稳定性的生命线。我们将深入研究各种容错机制，包括数据副本、节点冗余、以及自动化故障转移策略，并讲解如何进行灾难恢复演练，确保业务的连续性。安全与权限管理：随着数据量的增长，数据安全和隐私保护的重要性日益凸显。我们将详细讲解如何在分布式集群中建立完善的安全体系，包括身份认证、访问控制、数据加密等，确保敏感数据的安全，并满足合规性要求。第三篇：数据处理的引擎——不仅仅是计算集群的最终目的是为了处理数据。本篇将着眼于数据处理的核心环节，探索如何利用分布式计算能力，实现对海量数据的深度挖掘和价值提取。数据存储与优化：海量数据的存储方案选择至关重要。我们将探讨多种分布式存储技术（如HDFS、对象存储等）的特性，分析它们的适用场景，并讲解如何根据数据类型和访问模式，进行有效的存储优化，降低存储成本，提升读写性能。数据处理框架的选型与应用：不同的数据处理任务需要不同的工具和框架。我们将全面解析当前主流的分布式数据处理框架，深入剖析它们的架构设计、核心算法和应用场景。这包括对批处理、流处理、交互式查询等不同处理模式的深入理解，以及如何根据具体业务需求，选择最适合的框架组合。数据质量与治理：垃圾进，垃圾出。保证数据的质量是数据处理的首要前提。我们将探讨数据清洗、校验、去重等关键的数据质量保障措施，并讲解如何构建完善的数据治理体系，确保数据的准确性、一致性和完整性，从而为上层分析提供可靠的数据基础。数据安全与隐私保护：在数据处理的各个环节，数据安全和隐私保护都需要贯穿其中。我们将进一步探讨在数据处理过程中，如何进行敏感数据的脱敏、匿名化处理，以及如何构建端到端的数据加密方案，确保数据在生命周期内的安全。第四篇：智能化应用与未来展望构建强大的分布式计算集群，其最终目的是驱动智能化应用，实现业务的创新与增长。本篇将展望企业级数据处理的未来发展方向，以及如何将集群能力与前沿技术相结合。与机器学习的融合：如何将海量数据高效地输入到机器学习模型中进行训练和推理？我们将探讨分布式计算集群如何为机器学习提供强大的算力支持，讲解如何利用集群进行大规模模型训练，以及如何部署模型进行在线推理。实时数据处理与即时洞察：在瞬息万变的商业环境中，实时获取数据洞察至关重要。我们将探讨流处理技术如何实现对实时数据的捕获、处理和分析，以及如何构建实时预警和决策系统，赋能企业即时响应业务变化。数据虚拟化与数据湖的构建：如何打破数据孤岛，实现对异构数据的统一访问和管理？我们将探讨数据虚拟化和数据湖等先进的数据架构理念，以及如何利用分布式集群构建一个灵活、可扩展的数据平台，满足企业多样化的数据需求。持续优化与自动化运维：随着数据量的增长和业务复杂度的提升，持续优化和自动化运维是保持集群高性能和稳定性的关键。我们将探讨如何通过性能监控、瓶颈分析，以及自动化脚本和工具，不断提升集群的效率和可维护性。本书将以清晰的逻辑、丰富的案例和实用的建议，帮助您全面掌握构建和管理企业级大数据处理集群的核心技术和最佳实践。我们不承诺提供一套放之四海而皆准的“银弹”，因为每个企业的数据处理需求都是独一无二的。然而，通过本书的学习，您将具备独立分析问题、设计解决方案、并最终构建出满足自身业务需求的强大分布式数据处理能力的信心和能力。让我们一同踏上这段探索数据价值、释放计算潜能的精彩旅程。

用户评价

评分☆☆☆☆☆

哇，刚入手《Spark：大数据集群计算的生产实践》，迫不及待想和大家分享一下我这几天的“探索”历程！这本书的封面设计就挺吸引人的，那种科技感十足的蓝色调，加上“Spark”这个名字，感觉扑面而来一股强大的计算能力。我之前接触过一些大数据工具，但总觉得少了点实战的深度，很多概念停留在理论层面，遇到实际问题就束手无策。这本《Spark：大数据集群计算的生产实践》光看目录就感觉内容相当扎实，特别是那些关于“生产实践”的章节，听起来就特别接地气。我特别好奇它会如何讲解Spark的部署、调优，还有在实际生产环境中遇到的各种坑和解决方案。这本书会不会像一个经验丰富的技术前辈，手把手地教我如何在真实的大数据场景中驾驭Spark，让我的项目跑得更快、更稳、更高效？我真的很期待书中能有那些“干货”满满的案例分析，让我能对照着自己的工作，找到改进的方向。毕竟，理论知识再多，不如实际操作中能解决问题来得实在。希望能在这本书里找到通往Spark高手之路的秘籍！

评分☆☆☆☆☆

这本书的出现，简直是给我在大数据领域摸爬滚打的同行们送上了一份及时雨！我们经常会在项目中遇到性能瓶颈，明明数据量没到爆炸的程度，Spark作业却跑得像蜗牛一样慢，那时候真是抓耳挠腮。阅读《Spark：大数据集群计算的生产实践》，我最期待的就是它能揭示那些隐藏在代码背后的性能奥秘。是不是有关于内存管理、Shuffle过程、数据序列化的深度解析？会不会有那种一看就懂、一用就灵的调优技巧？我特别想知道，那些在大型企业生产环境中，Spark集群是如何被规划、部署和维护的，有没有什么最佳实践可以借鉴？这本书的标题里“生产实践”四个字，让我感觉它不像是一本枯燥的教科书，而更像是一本实战手册，里面充满了作者们在血与泪的教训中提炼出来的宝贵经验。我希望它能给我带来一些“啊，原来是这样！”的顿悟时刻，让我能够更有信心地去应对那些复杂的大数据计算挑战。

评分☆☆☆☆☆

说实话，自从工作以来，大数据一直是我学习路上的一个重要课题，而Spark更是其中的重中之重。市面上关于Spark的书籍很多，但总感觉有些不够“深入”，或者不够“实战”。《Spark：大数据集群计算的生产实践》这个书名，立刻就吸引了我的目光。我希望这本书能够超越那些流于表面的介绍，真正地剖析Spark在生产环境中的应用。它会不会深入讲解Spark的内部原理，比如RDD的演进、DAG调度器的优化、Catalyst的查询优化过程？我特别期待书中关于Spark集群资源管理、作业调度、故障恢复等方面的实践经验分享。在实际工作中，我们经常会遇到各种各样意想不到的问题，我希望这本书能够提供一些处理这些问题的有效方法和工具。如果它能包含一些真实的案例分析，并且分析得深入透彻，那就太棒了！这本书会不会让我感觉，我不是一个人在战斗，而是有这位“前辈”在身后指点迷津？

评分☆☆☆☆☆

这次入手《Spark：大数据集群计算的生产实践》，完全是冲着它“生产实践”这几个字去的。我太需要一本能够指导我在实际生产环境中如何将Spark用到极致的书了。市面上很多书都讲概念，讲API，但真正到了落地的时候，问题就层出不穷。我非常好奇这本书会不会讲解如何针对不同的业务场景，选择合适的Spark应用策略？比如，是使用Spark Core、Spark SQL、Spark Streaming还是MLlib？书中会不会有关于Spark集群的监控、日志分析、性能瓶颈定位的实用技巧？我期待这本书能够解答我在工作中遇到的那些“疑难杂症”，比如如何优化Spark作业的内存占用，如何有效进行数据倾斜的处理，如何在分布式环境下保证数据的一致性。这本书会不会像一本“武功秘籍”，将那些高深莫测的大数据计算的“内功心法”和“招式套路”都一一揭示，让我能够融会贯通，真正成为一名合格的大数据工程师？

评分☆☆☆☆☆

拿到《Spark：大数据集群计算的生产实践》，我的第一反应就是“这下有救了”！市面上关于Spark的书籍不少，但很多都停留在API的介绍，或者是一些基础概念的解释，对于如何在复杂的生产环境中真正地利用好Spark，却语焉不详。我希望这本书能够填补这个空白。我特别关注它在“生产实践”方面的内容，比如如何进行Spark集群的高可用配置，如何处理海量数据的ETL流程，如何在Spark Streaming中实现低延迟的数据处理，以及如何与HDFS、Hive、HBase等其他大数据组件进行无缝集成。有没有关于Spark安全性的讨论？在生产环境中，安全问题可是重中之重。我设想书中会有很多图表和代码示例，能够清晰地展示各种场景下的解决方案，让我能够快速理解并应用到自己的工作中。这本书会不会像一个经验丰富的架构师，指导我如何从零开始搭建一个健壮、高效、可扩展的Spark大数据平台？

评分☆☆☆☆☆

基础基本没有，适合学习了spark基础以后来看

评分☆☆☆☆☆

好书，值得阅读，收藏呀

评分☆☆☆☆☆

基础基本没有，适合学习了spark基础以后来看

评分☆☆☆☆☆

好书，值得阅读，收藏呀

评分☆☆☆☆☆

速度快，服务好，加油！

评分☆☆☆☆☆

这本书还是可以作为参考书大概看看，书很薄，现在写书的都特么不专业了