|
| ||||||||||||
| 机工 spark快数数据处理 | ||
| 定价 | 29.00 | |
| 出版社 | 机械工业出版社 | |
| 版次 | 1版1次印刷 | |
| 出版时间 | 2014年05月 | |
| 开本 | 大32开 | |
| 作者 | (美)凯洛 著,余璜 张磊 译 | |
| 装帧 | 平装 | |
| 页数 | 114 | |
| 字数 | --- | |
| ISBN编码 | 9787111463115 | |
Spark是个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
本书系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置个Spark集群,如何在交互模式下运行个Spark作业,如何在Spark集群上构建个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。
译者序
作者简介
前言
1章 安装Spark以及构建Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
2章 Sparkshell的使用
2.1 加载个简单的text文件
2.2 用Sparkshell运行逻辑回归
2.3 交互式地从S3加载数据
2.4 小结
3章 构建并运行Spark应用
3.1 用sbt构建Spark作业
3.2 用Maven构建Spark作业
3.3 用其他工具构建Spark作业
3.4 小结
4章 创建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 链接和参考
4.6 小结
5章 加载与保存数据
5.1 RDD
5.2 加载数据到RDD中
5.3 保存数据
5.4 连接和参考
5.5 小结
6章 操作RDD
6.1 用Scala和Java操作RDD
6.2 用Python操作RDD
6.3 链接和参考
6.4 小结
7章 Shark-Hive和Spark的综合运用
7.1 为什么用HiveShark
7.2 安装Shark
7.3 运行Shark
7.4 加载数据
7.5 在Spark程序中运行HiveQL查询
7.6 链接和参考
7.7 小结
8章 测试
8.1 用Java和Scala测试
8.2 用Python测试
8.3 链接和参考
8.4 小结
9章 技巧和窍门
9.1 日志位置
9.2 并发限制
9.3 内存使用与垃圾回收
9.4 序列化
9.5 IDE集成环境
9.6 Spark与其他语言
9.7 安全提示
9.8 邮件列表
9.9 链接和参考
9.10 小结
Holden Karau 资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。
译者简介
余璜 阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。
张磊 Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。
从实用角度系统讲解Spark的数据处理工具及使用方法
手把手教你充分利用Spark提供的各种功能,快速编写高效分布式程序
1章 安装Spark以及构建
Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
本章将详细介绍搭建Spark的常用方法。Spark的单机版便于测试,同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群,使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署,本章将介绍在EC2(基本环境和EC2MR)上的部署。如果你的机器或者集群中已经部署了Spark,可以跳过本章直接开始使用Spark编程。
不管如何部署Spark,首先得获得Spark的个版本,截止到写本书时,Spark的新版本为0.7版。对于熟悉github的程序员,则可以从git://github.com/mesos/spark.git直接复制Spark项目。Spark提供基本源码压缩包,同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统(HDFS)交互,需要在编译源码前设定相应的集群中所使用的Hadoop版本。对于0.7版本的Spark,已经编译好的压缩包依赖的是1.0.4版本的Hadoop。如果想更深入地学习Spark,推荐自己编译基本源码,因为这样可以灵活地选择HDFS的版本,如果想对Spark源码有所贡献,比如提交补丁,自己编译源码是必须的。你需要安装合适版本的Scala和与之对应的JDK版本。对于Spark的0.7.1版本,需要Scala 2.9.2或者更高的Scala 2.9版本(如2.9.3版)。在写本书时,Linux发行版Ubuntu的LTS版本已经有Scala 2.9.1版,除此之外,近的稳定版本已经有2.9.2版。Fedora 18已经有2.9.2版。Scala官网上的新版在选择Spark支持的Scala版本十分重要,Spark对Scala的版本很敏感。.........
|
这本书简直是为我们这种在工作中被海量数据压得喘不过气来的工程师量身打造的!“现货正版”四个字给了我极大的信心,不用担心买到盗版或者内容陈旧的问题。我最头疼的就是那些理论讲得天花乱坠,但实际操作起来却无从下手的大数据书籍。而这本书的重点在于“快速数据处理”和“系统讲解Spark的数据处理工具及使用方法”,这让我看到了希望。我尤其关注它如何讲解Spark的各个组件,比如Spark SQL在处理结构化数据时的性能优势,Spark Streaming在实时数据分析方面的应用,以及MLlib在机器学习中的作用。我希望这本书能提供大量的代码示例和实操指导,让我们能够边学边练,真正将理论知识转化为解决实际问题的能力。我希望通过这本书,我能深刻理解Spark的内存计算机制,掌握RDD、DataFrame、Dataset的精髓,并且能够灵活运用Spark来构建高效的数据处理管道。这本书的及时出版,简直就是给困扰于大数据处理瓶颈的我们注入了一剂强心针。
评分当我看到这本书名时,脑海中立刻闪过“专业”、“实用”这样的词语。《现货正版】Spark快速数据处理 系统讲解Spark的数据处理工具及使用方法》这个书名,精准地传达了这本书的核心价值。我一直认为,学习Spark不仅仅是掌握一些API调用,更重要的是理解它背后的原理和设计理念,这样才能在面对复杂问题时,找到最有效的解决方案。这本书的“系统讲解”让我想象到它会深入剖析Spark的各个模块,从分布式计算的模型到具体的执行引擎,再到各种数据源的集成。我尤其期待它在“数据处理工具及使用方法”方面的讲解,希望能够看到大量贴合实际业务场景的案例,例如如何使用Spark处理日志数据、如何构建用户画像、如何进行实时推荐等。这本书的内容能否真正帮助我解决实际工作中遇到的数据处理挑战,将是我衡量它价值的关键。我相信,一本优秀的Spark书籍,不仅能传授知识,更能激发读者的思考,引导他们走向更深层次的学习和应用。
评分这本书的吸引力在于它精准地击中了我在大数据领域的核心痛点:效率!“快速数据处理”这四个字,就像是一声召唤,让我这个一直被处理速度困扰的从业者毫不犹豫地选择了它。我之前尝试过一些其他框架,但总觉得在处理大规模数据集时,速度是一个难以逾越的瓶颈。而Spark以其内存计算的特性闻名,我一直渴望能系统地学习如何充分发挥它的潜力。这本书的“系统讲解Spark的数据处理工具及使用方法”的承诺,正是我所需要的。我希望它能带我深入了解Spark的各种API,不仅仅是会用,更要理解其背后的设计思想,这样才能写出更高效、更优雅的代码。比如,它会不会讲如何优化Spark的shuffle过程?如何选择合适的算子来提高性能?如何进行JVM调优来配合Spark的内存管理?这些都是我在实际工作中经常会遇到的问题。这本书的出现,给了我一个绝佳的机会,去系统地学习并掌握Spark这门强大的数据处理利器。
评分拿到这本书,我真的是迫不及待地想立刻开始我的Spark学习之旅!封面设计简洁大气,书名直接点明了主题,让我这种需要快速掌握Spark技术的小伙伴一眼就能抓住重点。我之前接触过一些大数据处理框架,但总感觉不够高效,听说了Spark的名声很久了,一直想系统地学习一下,这本书的内容涵盖了Spark的核心概念、架构原理,以及各种常用组件的详细介绍,像是Spark SQL、Spark Streaming、MLlib等等,这些都是我工作中最需要用到的。特别吸引我的是,它声称能够“系统讲解Spark的数据处理工具及使用方法”,这正是我想要的!我希望这本书能帮我理清Spark的脉络,理解它的执行机制,并且能够通过实际案例快速上手,解决实际工作中遇到的数据处理难题。读完这本书,我希望能真正掌握Spark的强大之处,让我的数据分析和处理效率得到质的飞跃。这本书的篇幅看起来也很充实,感觉能挖到很多干货,我非常期待它能成为我手中不可或缺的Spark学习宝典。
评分说实话,我之前对Spark的了解一直停留在“听说过,很厉害”的阶段,真正想深入学习的时候,却发现市面上的资料要么太零散,要么太理论化,要么就是针对性太强,无法形成一个完整的知识体系。这本《现货正版】Spark快速数据处理 系统讲解Spark的数据处理工具及使用方法》的出现,简直是填补了我的学习空白!我特别看重它“系统讲解”的定位,这意味着它不会像一些碎片化的教程那样,只教你某个具体的功能,而是会从整体架构到具体工具,一步步带你构建起对Spark的全面认知。我期待书中能深入剖析Spark的执行流程,比如DAG调度器、Catalyst优化器等核心组件的工作原理,这样我才能更好地理解为什么Spark能做到“快速”。同时,它承诺的“数据处理工具及使用方法”也让我充满期待,我希望通过书中详实的案例,能够掌握Spark SQL进行复杂查询,利用Spark Streaming实现流式计算,甚至能通过MLlib构建自己的机器学习模型。这本书的出现,让我看到了快速提升Spark技能的曙光。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有