| 机工 spark快数数据处理 | ||
| 定价 | 29.00 | |
| 出版社 | 机械工业出版社 | |
| 版次 | 1版1次印刷 | |
| 出版时间 | 2014年05月 | |
| 开本 | 大32开 | |
| 作者 | (美)凯洛 著,余璜 张磊 译 | |
| 装帧 | 平装 | |
| 页数 | 114 | |
| 字数 | --- | |
| ISBN编码 | 9787111463115 | |
Spark是个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
本书系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置个Spark集群,如何在交互模式下运行个Spark作业,如何在Spark集群上构建个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。
译者序
作者简介
前言
1章 安装Spark以及构建Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
2章 Sparkshell的使用
2.1 加载个简单的text文件
2.2 用Sparkshell运行逻辑回归
2.3 交互式地从S3加载数据
2.4 小结
3章 构建并运行Spark应用
3.1 用sbt构建Spark作业
3.2 用Maven构建Spark作业
3.3 用其他工具构建Spark作业
3.4 小结
4章 创建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 链接和参考
4.6 小结
5章 加载与保存数据
5.1 RDD
5.2 加载数据到RDD中
5.3 保存数据
5.4 连接和参考
5.5 小结
6章 操作RDD
6.1 用Scala和Java操作RDD
6.2 用Python操作RDD
6.3 链接和参考
6.4 小结
7章 Shark-Hive和Spark的综合运用
7.1 为什么用HiveShark
7.2 安装Shark
7.3 运行Shark
7.4 加载数据
7.5 在Spark程序中运行HiveQL查询
7.6 链接和参考
7.7 小结
8章 测试
8.1 用Java和Scala测试
8.2 用Python测试
8.3 链接和参考
8.4 小结
9章 技巧和窍门
9.1 日志位置
9.2 并发限制
9.3 内存使用与垃圾回收
9.4 序列化
9.5 IDE集成环境
9.6 Spark与其他语言
9.7 安全提示
9.8 邮件列表
9.9 链接和参考
9.10 小结
Holden Karau 资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。
译者简介
余璜 阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。
张磊 Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。
从实用角度系统讲解Spark的数据处理工具及使用方法
手把手教你充分利用Spark提供的各种功能,快速编写高效分布式程序
1章 安装Spark以及构建
Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
本章将详细介绍搭建Spark的常用方法。Spark的单机版便于测试,同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群,使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署,本章将介绍在EC2(基本环境和EC2MR)上的部署。如果你的机器或者集群中已经部署了Spark,可以跳过本章直接开始使用Spark编程。
不管如何部署Spark,首先得获得Spark的个版本,截止到写本书时,Spark的新版本为0.7版。对于熟悉github的程序员,则可以从git://github.com/mesos/spark.git直接复制Spark项目。Spark提供基本源码压缩包,同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统(HDFS)交互,需要在编译源码前设定相应的集群中所使用的Hadoop版本。对于0.7版本的Spark,已经编译好的压缩包依赖的是1.0.4版本的Hadoop。如果想更深入地学习Spark,推荐自己编译基本源码,因为这样可以灵活地选择HDFS的版本,如果想对Spark源码有所贡献,比如提交补丁,自己编译源码是必须的。你需要安装合适版本的Scala和与之对应的JDK版本。对于Spark的0.7.1版本,需要Scala 2.9.2或者更高的Scala 2.9版本(如2.9.3版)。在写本书时,Linux发行版Ubuntu的LTS版本已经有Scala 2.9.1版,除此之外,近的稳定版本已经有2.9.2版。Fedora 18已经有2.9.2版。Scala官网上的新版在选择Spark支持的Scala版本十分重要,Spark对Scala的版本很敏感。.........
对于我这种常年混迹于分布式系统一线的老兵来说,想要在Spark这个领域找到一本既有深度又有实用性的书并不容易。然而,《【正版】Spark快速数据处理 系统讲解Spark的数据处理工具及使用方法》这本书,无疑给了我很大的惊喜。它没有回避Spark底层复杂的调度机制和内存模型,而是以一种非常清晰、有条理的方式进行剖析。我特别欣赏书中对Spark SQL的性能优化策略的讲解,从数据源的选择、分区策略、到执行计划的理解,都给了我很多启发。作者还提到了如何利用Spark的原生API(如mapPartitions, zipPartitions等)来实现更精细化的控制,这对于在一些特殊场景下追求极致性能的开发者来说,简直是福音。而且,这本书不仅仅局限于Spark Core,对于Spark Streaming、GraphX以及MLlib这些组件的应用也进行了深入的探讨,并且提供了许多实战经验。它让我意识到,Spark不仅仅是一个分布式计算框架,更是一个集数据处理、流计算、图计算和机器学习于一体的强大生态系统。这本书真正做到了“授人以鱼不如授人以渔”,它教会了我如何去思考和解决Spark相关的性能问题,而不仅仅是告诉我要怎么写代码。
评分我是一名有几年Python开发经验的数据工程师,一直对Spark在大数据处理方面的能力很感兴趣,但苦于没有一个系统性的学习资料。在网上搜索了很久,最终选择了《【正版】Spark快速数据处理 系统讲解Spark的数据处理工具及使用方法》。这本书的优点在于它真的做到了“系统讲解”。它没有停留在表面的API调用,而是深入剖析了Spark的运行机制,包括RDD、DAG、Spark Core、Spark SQL、Spark Streaming以及MLlib等组件的底层原理。我之前理解Spark,总感觉像是在“拆盲盒”,不知道为什么这样写就快,那样写就慢。读了这本书之后,我才恍然大悟,原来这一切都与Spark的调度器、内存管理、以及数据序列化方式息息相关。书中关于Spark SQL的优化部分,让我受益匪浅。特别是它讲解了Catalyst优化器是如何工作的,以及如何通过调整执行计划来提升查询性能。我还尝试了书中的一些MLlib案例,发现它在机器学习模型训练和部署方面也提供了非常便捷的接口。总的来说,这本书的深度和广度都恰到好处,既能让初学者快速入门,也能让有一定基础的开发者进一步深化理解,是提升Spark技术功力的绝佳选择。
评分这本书简直是我的救星!最近项目上需要用到Spark,但之前完全没接触过,看到这本书的标题《【正版】Spark快速数据处理 系统讲解Spark的数据处理工具及使用方法》就抱着试试看的心态入手了。没想到,从零基础小白到能快速上手,这本书真的给了我巨大的帮助。作者的讲解非常系统,一步一步地引导我理解Spark的核心概念,从它的分布式计算原理到各种数据处理工具的详解,都讲得通俗易懂。我尤其喜欢书中对Spark SQL和Spark Streaming的讲解,不仅理论知识扎实,还提供了大量实际案例,让我能够直接套用。比如,在处理日志分析的场景下,我之前用Python脚本处理效率非常低,经常卡顿。看了书中的Spark SQL章节后,我学会了如何用DataFrame进行高效的数据查询和转换,速度提升了好几个数量级!而且,作者对于如何编写高效Spark代码也给出了很多实用的技巧和建议,比如如何进行数据分区、如何优化Shuffle过程等等,这些都是我之前从未意识到的。这本书真的让我感觉Spark不再是高不可攀的技术,而是可以掌握并且能解决实际问题的利器。对于所有想快速入门Spark,或者想提升Spark处理效率的开发者来说,这本书绝对是不可多得的宝藏。
评分这本书绝对是想在数据工程领域有所建树的同学们的“必读”清单之一!《【正版】Spark快速数据处理 系统讲解Spark的数据处理工具及使用方法》这本书的内容,我只能用“干货满满”来形容。它不像很多技术书籍那样,只是罗列API,而是真正从“如何快速”和“如何高效”这两个核心点出发,深入浅出地讲解了Spark的方方面面。我最喜欢的部分是关于Spark的执行过程和内存管理的内容。作者用非常形象的比喻和图示,解释了RDD的懒加载、DAG的构建、以及Shuffle的过程,让我瞬间就明白了为什么某些操作会成为性能瓶颈。而且,书中还详细介绍了Spark Streaming和Structured Streaming,对于实时数据处理的应用场景,比如实时推荐、实时监控等,都提供了非常实用的代码示例和解决方案。我之前在项目中使用Spark Streaming,总是遇到各种连接和性能问题,看了这本书之后,我才意识到是自己在数据源的设置和窗口函数的运用上存在问题。现在,我能够更自信地构建和优化我的实时数据处理管道了。这本书绝对是我提升Spark技能路上的“点睛之笔”。
评分作为一名在学术界研究大数据分析的学者,我一直对Spark在科研领域的应用潜力抱有浓厚兴趣。最近读了《【正版】Spark快速数据处理 系统讲解Spark的数据处理工具及使用方法》这本书,感觉非常契合我的需求。作者在书中不仅讲解了Spark的基本概念和常用API,更侧重于如何在实际应用场景中高效地运用Spark。我特别欣赏书中关于大规模数据预处理和特征工程的章节,这对于我们进行复杂的数据挖掘和模型训练至关重要。书中提供了多种数据处理工具的详细用法,并且结合了许多实际案例,例如如何在处理海量文本数据时利用Spark进行高效的清洗和分词,如何构建大规模图数据分析的流程等等。这些内容对我研究如何加速科学计算和模拟提供了新的思路。此外,书中对于Spark集群的配置和调优也进行了详尽的阐述,这对于我们在有限的计算资源下最大化Spark的性能非常有指导意义。总而言之,这本书不仅是一本技术手册,更是一份关于如何利用Spark解决复杂大数据问题的行动指南,对于学术研究者和有志于在大数据领域深耕的同学们来说,都非常有价值。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有