大数据专家张良均领衔畅销书作者团队,教育部长江学者特聘教授、国家杰出青年基金获得者、IEEE Fellow、华南理工大学计算机与工程学院院长张军倾力推荐。
本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展开介绍相关的理论知识点,推导生成可行的解决方案,最后落实在任务实现环节。
全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施。通过从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Spark大数据技术。
书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握大数据相关技能。
本书以任务为导向,较为全面地介绍了Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述;Scala基础;Spark编程;Spark编程进阶;Spark SQL:结构化数据文件处理;Spark Streaming:实时计算框架;Spark GraphX:图计算框架;Spark MLlib:功能强大的算法库;项目案例:餐饮平台菜品智能推荐。本书的大部分章节都包含了实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。
张良均,高 级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编《Hadoop大数据分析与挖掘实战》《Python数据分析与挖掘实战》《R语言数据分析与挖掘实战》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。
第 1章 Spark概述 1
任务1.1 认识Spark 1
1.1.1 Spark的发展 1
1.1.2 Spark的特点 2
1.1.3 Spark生态圈 4
1.1.4 Spark的应用场景 5
任务1.2 搭建Spark环境 5
1.2.1 搭建单机版环境 6
1.2.2 搭建单机伪分布式环境 6
1.2.3 搭建完全分布式环境 7
任务1.3 了解Spark运行架构与原理 10
1.3.1 Spark集群架构 11
1.3.2 Spark作业运行流程 11
1.3.3 Spark核心数据集RDD 15
1.3.4 Spark核心原理 17
小结 19
第 2章 Scala基础 20
任务2.1 Scala的简介与安装 21
2.1.1 Scala简介 21
2.1.2 Scala特性 21
2.1.3 Scala的环境设置及安装 21
2.1.4 运行Scala 23
任务2.2 定义函数识别号码类型 24
2.2.1 数据类型 24
2.2.2 常量和变量 25
2.2.3 表达式 26
2.2.4 数组 27
2.2.5 函数 29
2.2.6 任务实现 31
任务2.3 统计广州号码段数量 32
2.3.1 if判断 32
2.3.2 循环 33
2.3.3 任务实现 34
任务2.4 根据归属地对手机号码段分组 34
2.4.1 List 35
2.4.2 Set 36
2.4.3 Map 37
2.4.4 元组 38
2.4.5 函数组合器 38
2.4.6 任务实现 39
任务2.5 编写手机号码归属地信息查询程序 40
2.5.1 Scala类 40
2.5.2 Scala object 42
2.5.3 Scala模式匹配 42
2.5.4 Scala读取文件 44
2.5.5 任务实现 44
小结 45
实训 45
实训1 编写函数过滤文本中的回文单词 45
实训2 使用Scala编程输出杨辉三角 46
课后习题 46
第3章 Spark编程 48
任务3.1 以学生成绩数据创建RDD 49
3.1.1 从内存中已有数据创建RDD 50
3.1.2 从外部存储创建RDD 51
3.1.3 任务实现 52
任务3.2 查询学生成绩表中的前5名 52
3.2.1 使用map转换数据 52
3.2.2 使用sortBy()排序 53
3.2.3 使用collect()查询 53
3.2.4 使用flatMap转换数据 54
3.2.5 使用take()方式查询某几个值 54
3.2.6 任务实现 55
任务3.3 输出单科成绩为100分的学生ID 55
3.3.1 使用union()合并多个RDD 56
3.3.2 使用filter()进行过滤 56
3.3.3 使用distinct()进行去重 56
3.3.4 简单的集合操作 57
3.3.5 任务实现 58
任务3.4 输出每位学生所有科目的总成绩 58
3.4.1 键值对RDD简介 59
3.4.2 创建键值对RDD 59
3.4.3 转换操作keys与values 59
3.4.4 转换操作reduceByKey() 60
3.4.5 转换操作groupByKey() 60
3.4.6 任务实现 60
任务3.5 输出每位学生的平均成绩 61
3.5.1 使用join()连接两个RDD 61
3.5.2 使用zip组合两个RDD 63
3.5.3 使用combineByKey合并相同键的值 63
3.5.4 使用lookup查找指 定键的值 64
3.5.5 任务实现 64
任务3.6 将汇总后的学生成绩存储为文本文件 65
3.6.1 JSON文件的读取与存储 65
3.6.2 CSV文件的读取与存储 67
3.6.3 SquenceFile的读取与存储 69
3.6.4 文本文件的读取与存储 70
3.6.5 任务实现 71
小结 72
实训 72
实训1 统计文本中性别为“男”的用户数 73
实训2 单词计数 73
课后习题 74
第4章 Spark编程进阶 76
任务4.1 搭建开发环境 77
4.1.1 下载与安装IntelliJ IDEA 77
4.1.2 Scala插件安装与使用 79
4.1.3 配置Spark运行环境 84
4.1.4 运行Spark程序 85
任务4.2 使用移动平均预测股票涨跌 92
4.2.1 持久化(缓存) 93
4.2.2 数据分区 94
4.2.3 计算价格波动幅度 98
4.2.4 任务实现 100
小结 103
实训 103
实训 竞赛网站访问日志分析 104
课后习题 104
第5章 Spark SQL:结构化数据文件处理 107
任务5.1 认识Spark SQL 108
5.1.1 Spark SQL简介 108
5.1.2 Spark SQL CLI配置 109
5.1.3 Spark SQL与Shell交互 110
任务5.2 掌握DataFrame基础操作 111
5.2.1 创建DataFrame对象 111
5.2.2 DataFrame查看数据 114
5.2.3 DataFrame查询操作 117
5.2.4 DataFrame输出操作 123
任务5.3 探索分析法律服务网站数据 125
5.3.1 获取数据 125
5.3.2 网页类型分析 126
5.3.3 点击次数分析 131
5.3.4 网页排名分析 133
小结 135
实训 135
实训1 统计分析航空公司客户数据的空值以及异常值 135
实训2 统计分析某公司每年的产品销售量及销售额 137
课后习题 139
第6章 Spark Streaming:实时计算框架 141
任务6.1 初探Spark Streaming 142
6.1.1 Spark Streaming概述 142
6.1.2 Spark Streaming运行原理 142
6.1.3 初步使用Spark Streaming 143
任务6.2 掌握DStream编程模型 145
6.2.1 DStream简介 146
6.2.2 DStream转换操作 146
6.2.3 DStream窗口操作 148
6.2.4 DStream输出操作 151
任务6.3 Spark Streaming实时更新热门博文 155
6.3.1 Spark Streaming输入数据源 155
6.3.2 Spark Streaming计算网页热度 158
6.3.3 网页热度输出 158
6.3.4 任务实现 159
小结 161
实训 161
实训1 过滤打印包含单词error的记录 162
实训2 实时过滤歌曲播放次数超过100次的记录并存储在HDFS上 162
课后习题 162
第7章 Spark GraphX:图计算框架 165
任务7.1 认识Spark GraphX 166
7.1.1 图的基本概念 166
7.1.2 图计算的应用 167
7.1.3 GraphX的基础概念 168
7.1.4 GraphX的发展 168
任务7.2 了解GraphX常用API 169
7.2.1 图的创建与存储 169
7.2.2 数据查询与数据转换 174
7.2.3 结构转换与关联聚合 180
任务7.3 构建信任网络并找出目标用户 187
7.3.1 构建网站信任网络 188
7.3.2 找出需要支付稿酬的用户 188
7.3.3 找出进入热门榜的用户 189
小结 191
实训 191
实训1 使用PageRank算法完成网页排名 191
实训2 利用二度关系完成商品推荐 192
课后习题 194
第8章 Spark MLlib:功能强大的算法库 196
任务8.1 了解MLlib算法库 197
8.1.1 机器学习简介 197
8.1.2 MLlib介绍 198
任务8.2 以Logistic回归实现用户分类 212
8.2.1 分析思路 212
8.2.2 数据处理 213
8.2.3 MLlib实现Logistic回归 215
8.2.4 任务实现 217
小结 221
实训 221
实训1 通过KMeans定位商圈 221
实训2 朴素贝叶斯进行文本分类 222
课后习题 223
第9章 项目案例:餐饮平台菜品智能推荐 226
任务9.1 推荐方案设计 227
9.1.1 用户数据分析 227
9.1.2 常用推荐算法 229
9.1.3 推荐流程设计 231
任务9.2 数据预处理 232
9.2.1 原始数据探索分析 233
9.2.2 异常数据处理 237
9.2.3 数据变换处理 237
9.2.4 数据集分割 239
任务9.3 建立推荐模型 240
9.3.1 以基于用户的协同过滤算法建模 240
9.3.2 以基于物品的协同过滤算法建模 243
9.3.3 以基于Spark ALS的协同过滤算法建立模型 246
9.3.4 推荐模型的评测 251
任务9.4 使用模型进行菜品推荐 262
9.4.1 对某用户推荐10道新菜品 262
9.4.2 对所有用户进行新菜品推荐 267
最近读完了一本关于现代艺术史的著作,它彻底颠覆了我对艺术的固有认知。本书并没有遵循传统的编年体叙事,而是以主题化的方式,将不同时期、不同流派的艺术作品巧妙地联系起来,探讨了艺术在社会变迁、技术革新以及哲学思潮影响下的演变轨迹。我被书中对立体主义、抽象表现主义以及观念艺术等流派的深入剖析所吸引,作者用生动形象的语言,结合大量高清的艺术品插图,将这些看似晦涩难懂的艺术形式变得鲜活起来。更令我着迷的是,书中探讨了艺术如何反映并挑战当时的社会规范,以及艺术家如何在创作中表达个人情感和对世界的独特见解。从梵高的孤独呐喊到杜尚的日常物品的“现成品”艺术,再到波普艺术对大众文化的挪用,每一个案例都充满了启发。这本书让我意识到,艺术不仅仅是美的展现,更是一种思考方式,一种与世界对话的语言。
评分这是一本非常实用的关于个人财富管理的指导书。它不仅仅是告诉你如何“省钱”,而是从更宏观的角度,帮助读者建立健康的财务观念,并制定切实可行的理财规划。书中深入分析了常见的投资误区,例如追涨杀跌、盲目跟风等,并提供了如何识别和规避这些风险的有效方法。我特别喜欢书中关于资产配置的章节,作者根据不同的风险承受能力和人生阶段,给出了多样化的投资组合建议,从股票、债券到房地产、基金,以及一些新兴的投资领域,都进行了详细的介绍。此外,书中还强调了长期投资和复利的力量,并提供了一些实用的工具和策略,帮助读者实现财富的稳健增长。除了投资,本书还涵盖了风险管理、保险规划以及遗产规划等重要内容,力求为读者提供一个全面的财务健康指南。读完这本书,我感觉自己对金钱有了更清晰的认识,也更有信心去规划自己的财务未来。
评分一本让我眼前一亮的关于人工智能在医疗领域的最新进展的书。它深入浅出地探讨了AI如何革新疾病诊断,从影像识别到基因测序,书中列举了大量真实世界的案例,并分析了其中涉及的算法原理,比如深度学习在X光片和CT扫描中的应用,以及自然语言处理在分析病历和医学文献中的潜力。更让我印象深刻的是,作者并没有回避AI在医疗应用中可能遇到的伦理和隐私问题,而是提出了非常有建设性的解决方案,例如数据脱敏技术、模型的可解释性研究以及监管框架的建立。这本书不仅仅是一本技术手册,更像是一次关于未来医疗的哲学思辨,它让我看到了AI与人类医生协同工作的广阔前景,也让我对如何构建一个既高效又人性化的医疗AI系统有了更深刻的理解。虽然我不是AI领域的专业人士,但通过这本书,我仿佛打开了一扇新世界的大门,对AI在改善人类健康方面的巨大潜力充满了期待。作者的叙述逻辑清晰,语言生动,即使是复杂的概念也得到了很好的阐释,非常适合对AI在医疗领域感兴趣的读者。
评分这本探讨城市可持续发展策略的书籍,为我们描绘了一幅更加绿色、宜居的未来城市蓝图。书中详细阐述了如何通过创新的城市规划和管理,来应对日益严峻的环境挑战,例如空气污染、交通拥堵以及资源枯竭。我尤其对书中关于智慧交通系统的介绍非常感兴趣,它不仅涵盖了智能信号灯、自动驾驶技术,还深入探讨了共享出行模式的推广以及大数据在优化公共交通网络中的作用。此外,作者对绿色建筑和可再生能源在城市中的应用也进行了详尽的分析,从节能设计理念到屋顶太阳能板的普及,再到城市垃圾的分类处理和循环利用,都给出了切实可行的方案。书中还重点强调了社区参与和社会公平在可持续发展中的重要性,呼吁通过公众教育和政策引导,提升市民的环保意识,共同构建一个更具弹性和包容性的城市。这本书不仅提供了理论指导,更提供了大量成功的实践案例,让我看到实现可持续发展并非遥不可及。
评分一本关于太空探索的精彩读物,它将浩瀚的宇宙奥秘娓娓道来。作者以充满诗意的笔触,描绘了人类对宇宙的无尽好奇和探索精神,从古人仰望星空到现代太空望远镜的诞生,再到载人航天和深空探测的壮举。书中详细介绍了我们对太阳系行星的认知进展,从土星的光环到火星的红色沙丘,每一个星球的独特魅力都被刻画得淋漓尽致。更让我惊叹的是,作者深入探讨了黑洞、暗物质、暗能量等前沿天体物理学概念,并用通俗易懂的比喻解释了相对论和量子力学等复杂的理论。书中还展望了人类未来殖民火星、星际旅行的可能性,以及寻找地外生命的最新进展,着实令人心潮澎湃。通过这本书,我不仅增长了天文知识,更感受到了人类作为宇宙渺小一部分的敬畏,以及不断探索未知边界的勇气。
评分不错的,先看完电子版的然后才买的纸质版的,室一本值得推荐的书籍
评分知识很基础,适合没有经验的开发者
评分内容丰富,条理清晰,很有帮助
评分书本很难,慢慢看吧!好厚一本。
评分书本很难,慢慢看吧!好厚一本。
评分很不错的书,纸张印刷可以
评分内容充实,讲解到位,适合初学!
评分应该是正版的,质量挺不错,物流快
评分非常好,非常快,非常好用,哈哈哈
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有