发表于2024-11-25
本书是关于大数据和Spark的一个简明手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理、如何使用集群管理员部署Spark、如何监控Spark应用等。本书还对其他配合Spark一起使用的大数据技术进行了介绍,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本书也对机器学习和图的概念进行了介绍。
前言Preface本书是大数据和Spark方面的一本简明易懂的手册。它将助你学习如何用Spark来完成很多大数据分析任务。它覆盖了高效利用Spark所需要知道的一切内容。
购买本书的好处之一就是:帮你高效学习Spark,节省你大量时间。本书所覆盖的主题在互联网上都可以找到,网上有很多关于Spark的博客、PPT和视频。事实上,Spark的资料浩如烟海,你可能需要在网络上不同地方花费数月来阅读关于Spark的点滴和碎片知识。本书提供了一个更好的选择:内容组织精妙,并以易懂的形式表现出来。
本书的内容和材料的组织基于我在不同的大数据相关会议上所组织的Spark研讨会。与会者对于内容和流程方面的积极反馈激励我写了这本书。
书和研讨会的区别之一在于后者具有交互性。然而,组织过几次Spark研讨会后,我了解到了人们普遍存在的问题,我把这些内容也收录在本书中。如果阅读本书时有问题,我鼓励你们通过LinkedIn或Twitter联系我。任何问题都可以问,不存在什么“愚蠢的问题”。
本书没有覆盖Spark的每一个细节,而是包含了高效使用Spark所需要知道的重要主题。我的目标是帮你建立起坚实的基础。一旦基础牢固,就可以轻松学习一项新技术的所有细节。另外,我希望保持本书尽可能简单。如果读完本书后发现Spark看起来也挺简单的,那我的目的也就达到了。
本书中的任何主题都不要求有先验知识。本书会一步步介绍关键概念,每一节建立在前一节的基础上。同样,每一章都是下一章的基石。如果当下不需要,你可以略过后面一些章节中讲解的不同的Spark库。不过我还是鼓励你阅读所有章节。即使可能和你当前的项目不相关,那些部分也可能会给你新的灵感。
通过本书你会学到很多Spark及其相关技术的知识。然而,要充分利用本书,建议亲自运行书中所展示的例子:用代码示例做实验。当你写代码并执行时,很多事情就变得更加清晰。如果你一边阅读一边练习并用示例来实验,当读完本书时,你将成为一名基础扎实的Spark开发者。
在我开发Spark应用时,我发现了一个有用的资源—Spark官方API文档,其访问地址为http://spark.apache.org/docs/latest/api/scala。初学者可能觉得它难以理解,不过一旦你学习了基本概念后,会发现它很有用。
另一个有用的资源是Spark邮件列表。Spark社区很活跃、有用。不仅Spark开发者会回答问题,有经验的Spark用户也会志愿帮助新人。无论你遇到什么问题,很有可能Spark邮件列表中有人已经解决过这个问题了。
而且,也可以联系我,我很乐意倾听,欢迎反馈、建议和提问。
—MohammedGullerLinkedIn:www.linkedin.com/in/mohammedgullerTwitter:@MohammedGuller致谢Acknowledgements许多人都直接地或间接地为本书作出了贡献。如果没有他们的支持、鼓励与帮助,我是无法完成本书的编写的。我想借此机会向他们表示感谢。
首先,也是最重要的,我想要感谢我的妻子Tarannum和我的三个可爱的孩子Sarah、Soha、Sohail。写书是一项艰巨的任务。在从事全职工作的同时写书意味着我无法花费太多的时间在我的家人身上。上班时间我忙于工作,晚上和周末我则全身投入到本书的写作上。我对我家人给予的全方位的支持和鼓励表示感谢。有时候,Soha和Sohail会提出一些有意思的想法让我陪他们一起玩,但是在大部分时候,他们还是让我在本应该陪他们玩耍的时候专注于写书。
接下来,感谢MateiZaharia、ReynoldXin、MichaelArmbrust、TathagataDas、PatrickWendell、JosephBradley、XiangruiMeng、JosephGonzalez、AnkurDave以及其他Spark开发者。他们不仅创造出了一项卓越的技术,还持续快速改进它。没有他们的发明,本书将不会存在。
当我在Glassbeam公司提议使用Spark来解决当时困扰我们的一些问题时,Spark还是一项新技术且少有人了解。我想要感谢工程副总裁AshokAgarwal和首席执行官PuneetPandit允许我使用Spark。如果没有来自将Spark内置于产品中和日常使用的一手经验,要写出一本有关Spark的书是相当困难的。
接下来,我想感谢技术审校者SundarRajanRaman和HepingLiu。他们认真检查了本书内容的准确性并运行了书中的例子以确保它们能正常运行,还提出了不少有帮助的建议。
最后,我想感谢Apress参与本书出版的工作人员ChrisNelson、JillBalzano、KimBur-ton-Weisman、CelestinJohnSuresh、NikhilChinnari、DhaneeshKumar等。JillBalzano协调了与本书出版相关的所有工作。作为一个编辑,ChrisNelson为本书作出了卓越的贡献。我十分感谢他的建议与编辑,有了他的参与,本书变得更完美了。文字编辑KimBurton-Weisman认真阅读了本书的每一句话以保证书写正确,同时也改正了不少书写错误。很荣幸能与Apress团队一起工作。
—MohammedGuller
Spark大数据分析:核心概念、技术及实践 下载 mobi pdf epub txt 电子书 格式 2024
Spark大数据分析:核心概念、技术及实践 下载 mobi epub pdf 电子书书是正品,包装密封完好,正在学习中。
评分帮朋友买的!
评分这本书很有用,会推荐给朋友的
评分文档这东西,建议还是看原版
评分不错的一本书,需要提前准备环境,可以跑程序,英文对照一下
评分好评!!!!!!!!!!
评分京豆京豆京豆京豆京豆京豆
评分很划算,值得购买,支持京东!棒棒哒
评分有很多技术已经脱节,要好好学习了!
Spark大数据分析:核心概念、技术及实践 mobi epub pdf txt 电子书 格式下载 2024