作 者:夏俊鸾 等 著 定 价:65 出 版 社:电子工业出版社 出版日期:2015年01月01日 页 数:336 装 帧:平装 ISBN:9787121250811 优选首部全面介绍Spark及Spark生态圈相关技术的技术书籍俯览未来大局,不失精细剖析,呈现一个现代大数据框架的架构原理和实现细节透彻讲解Spark原理和架构,以及部署模式、调度框架、存储管理及应用监控等重要模块Spark生态圈深度检阅:SQL处理Shark和SparkSQL、流式处理SparkStreaming、图计算Graphx及内存文件系统Tachyon。
●第1章Spark系统概述1
●1.1大数据处理框架1
●1.2Spark大数据处理框架3
●1.2.1RDD表达能力3
●1.2.2Spark子系统4
●1.3小结7
●●第2章SparkRDD及编程接口9
●2.1Spark程序“HelloWorld”9
●2.2SparkRDD12
●2.2.1RDD分区(partitions)13
●2.2.2RDD优先位置(preferredLocations)13
●2.2.3RDD依赖关系(dependencies)15
●2.2.4RDD分区计算(compute)19
●2.2.5RDD分区函数(partitioner)20
●2.3创建操作23
●2.3.1集合创建操作23
●2.3.2存储创建操作23
●2.4转换操作26
●2.4.1RDD基本转换操作26
●部分目录
内容简介
本书以Spark0.9版本为基础进行编写,是一本全面介绍Spark及Spark生态圈相关技术的书籍,是靠前首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部重要模块分析,包括部署模式、调度框架、存储管理以及应用监控;同时也详细介绍了Spark生态圈中其他的软件和模块,包括SQL处理引擎Shark和SparkSQL、流式处理引擎SparkStreaming、图计算框架Graphx以及分布式内存文件系统Tachyon。本书从概念和原理上对Spark核心框架和生态圈做了详细的解读,并对Spark的应用现状和未来发展做了一定的介绍,旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。
本书适合任何大数据、Spark领域的从业人员阅读,同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习本等 夏俊鸾 等 著 夏俊鸾,现任阿里巴巴数据平台部不错技术专家,ApacheSpark项目Committer,曾就职于英特尔亚太研发中心,微博账号@Andrew-Xia。
刘旭晖,现任蘑菇街数据平台资历架构师(花名天火),曾就职于英特尔亚太研发中心大数据软件部,Spark/Hadoop/Hbase/Phoenix等众多大数据相关开源项目的积极贡献者。乐于分享,著有CSDN博客。
邵赛赛,英特尔亚太研发有限公司开发工程师,专注于大数据领域,开源爱好者,现从事Spark相关工作,Spark代码贡献者。
程浩,英特尔大数据技术团队软件工程师,Shark和SparkSQL活跃开发者,致力于SQLo等 2009年的时候,Netflix公司举办了一个叫作NetflixPrize的推荐算法比赛。这个比赛匿名公布了Netflix五十万用户对近两万部电影的一亿个评分数据,希望参赛者能够开发出更好的推荐算法,以提高推荐系统的质量。这个比赛的奖金有一百万美元。一百万美元看似很多,但是和一个更好的推荐算法给Netflix带来的效益相比,实则九牛一毛。高昂的奖金和Netflix提供的真实数据吸引了不少的参赛者,其中也包括了来自加州大学伯克利分校(UCBerkeley)的博士生LesterMackey。Lester师从机器学习领域泰斗MichaelJordan,在一个叫作AMPLab的大数据实验室里进行博士研究。AMPLab和大多数学术界实验室不同的地方在于实验室内有多个教授和他们带领的学生一起合作。这些研究人员来自不同的领域,包括机器学习、数据库、计算机网等
Spark 大数据处理技术 下载 mobi epub pdf txt 电子书 格式