大数据原理与技术 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

黄史浩著

图书标签:

大数据
数据分析
数据挖掘
Hadoop
Spark
云计算
数据库
机器学习
数据仓库
数据治理

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.teaonline.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：人民邮电出版社

ISBN：9787115458711

版次：1

商品编码：12297900

包装：平装

丛书名： ICT认证系列丛书

开本：16开

出版时间：2018-01-01

用纸：胶版纸

页数：255

正文语种：中文

具体描述

编辑推荐

本书则是华为公司针对华为ICT学院大数据方向的在读学生，专门组织合作伙伴和华为公司内部员工开发的标准化教材，这套教材的目的在于循序渐进地帮助华为ICT学院大数据方向的学生掌握大数据技术的基本原理与应用场景，能够在面对真实的业务场景时，独立完成大数据平台的搭建、维护及故障的处理。

内容简介

本书是华为ICT学院大数据技术官方教材，旨在帮助学生进一步学习大数据的基本概念、技术原理，以及大数据平台的搭建和使用。
本书从大数据的概念和特征开始讲起，首先让读者对大数据有一个感性的认识；接下来结合大数据平台的各个功能模块，详细介绍大数据的存储、处理、分析、可视化等原理和操作；对大数据在各种行业中的应用加以叙述，让读者更加充分地感受到大数据应用的价值。
除华为ICT学院的学生之外，本书同样适合正在备考HCNA-Big Data认证，或者正在参加HCNA-Big Data技术培训的学员进行阅读和参考。其他有志进入ICT行业的人员和大数据技术爱好者也可以通过阅读本书，加深自己对大数据技术的理解。

作者简介

多年的Hadoop大数据平台企业业务应用实践，具有丰富的Hadoop平台运维，开发与分析实战经验 2. 主导过多个大型大数据项目的开发，如维达国际大数据平台、中国商品进出口交易中心ETL日志分析大数据平台 3、多年大数据与数据挖掘等IT领域技术培训经验，丰富的课程设计和授课经验。

第1章大数据概述 0
1．1 大数据的概念与价值 2
1．1．1 什么是大数据 2
1．1．2 大数据的来源 4
1．1．3 大数据有什么价值 5
1．1．4 如何挖掘企业大数据的价值 6
1．2 大数据的关键技术 7
1．2．1 大数据采集、预处理与存储管理 7
1．2．2 大数据分析与挖掘 8
1．2．3 数据可视化 9
1．3 大数据产业 9
1．3．1 数据提供 9
1．3．2 技术提供 9
1．3．3 服务提供 10
1．4 大数据应用场景 10
1．5 本章总结 11
练习题 12
第2章 Hadoop大数据处理平台 14
2．1 Hadoop平台概述 16
2．1．1 Hadoop简介 16
2．1．2 Hadoop的特性 17
2．1．3 Hadoop应用现状 17
2．1．4 Hadoop版本及相关平台 18
2．2 Hadoop生态系统 18
2．2．1 Hadoop存储系统（HDFS&HBase;） 18
2．2．2 Hadoop计算框架（MapReduce&YARN;） 19
2．2．3 Hadoop数据仓库（Hive） 20
2．2．4 Hadoop数据转换与日志处理（Sqoop&Flume;） 20
2．2．5 Hadoop应用协调与工作流（ZooKeeper&Oozie;） 20
2．2．6 大数据安全技术（Kerberos&LDAP;） 21
2．2．7 大数据即时查询与搜索（Impala&Solr;） 21
2．2．8 大数据消息订阅（Kafka） 21
2．3 Hadoop安装部署 22
2．3．1 Hadoop规划部署 22
2．3．2 Hadoop的安装方式 23
2．4 华为FusionInsight HD安装部署 26
2．4．1 FusionInsight HD简介 26
2．4．2 FusionInsight HD集成设计 28
2．4．3 FusionInsight HD安装部署 33
2．4．4 FusionInsight HD重要参数配置 41
2．5 本章总结 42
练习题 43
第3章大数据存储技术（HDFS） 44
3．1 概述 46
3．1．1 分布式文件系统的概念与作用 47
3．1．2 HDFS概述 47
3．2 HDFS的相关概念 48
3．2．1 块 48
3．2．2 NameNode 49
3．2．3 Secondary NameNode 50
3．2．4 DataNode 51
3．3 HDFS体系架构与原理 52
3．3．1 HDFS体系架构 52
3．3．2 HDFS的高可用机制 52
3．3．3 HDFS的目录结构 54
3．3．4 HDFS的数据读写过程 57
3．4 HDFS接口及其在FusionInsight HD编程中的实践 58
3．4．1 HDFS常用Shell命令 59
3．4．2 HDFS的Web界面 60
3．4．3 HDFS的Java接口及应用实例 62
3．5 本章总结 67
练习题 67
第4章大数据离线计算框架（MapReduce & YARN） 70
4．1 MapReduce技术原理 72
4．1．1 MapReduce概述 73
4．1．2 Map函数与Reduce函数 73
4．2 YARN技术原理 74
4．2．1 YARN的概述与应用 74
4．2．2 YARN的架构 75
4．2．3 MapReduce的计算过程 76
4．2．4 YARN的资源调度 78
4．3 FusionInsight HD中MapReduce的应用 78
4．3．1 WordCount实例分析 78
4．3．2 MapReduce编程实践 79
4．4 本章总结 85
练习题 86
第5章大数据数据库（HBase） 88
5．1 HBase概述 90
5．1．1 HBase简介 90
5．1．2 HBase与关系型数据库的区别 91
5．1．3 HBase的应用场景 92
5．2 HBase的架构原理 92
5．2．1 HBase的数据模型 92
5．2．2 表和Region 93
5．2．3 HBase的系统架构与功能组件 94
5．2．4 HBase的读写流程 96
5．2．5 HBase的Compaction过程 97
5．3 FusionInsight HD中HBase的编程实践 98
5．3．1 FusionInsight HD中HBase的常用参数配置 98
5．3．2 HBase的常用Shell命令 100
5．3．3 HBase常用的Java API及应用实例 103
5．4 本章总结 118
练习题 118
第6章大数据数据仓库（Hive） 120
6．1 Hive概述 122
6．1．1 Hive简介和应用 122
6．1．2 Hive的特性 123
6．1．3 Hive与传统数据仓库的区别 124
6．2 Hive的架构和数据存储 124
6．2．1 Hive的架构原理 124
6．2．2 Hive的数据存储模型 127
6．2．3 HiveQL编程 128
6．3 FusionInsight HD中Hive应用实践 132
6．3．1 FusionInsight HD中Hive的常用参数配置 132
6．3．2 加载数据到Hive 133
6．3．3 使用HiveQL进行数据分析 135
6．4 本章总结 139
练习题 139
第7章大数据数据转换（Sqoop与Loader） 142
7．1 Sqoop概述 144
7．1．1 Sqoop简介与应用 145
7．1．2 Sqoop的功能与特性 145
7．1．3 Sqoop与传统ETL的区别 146
7．2 FusionInsight HD中Loader的应用实践 146
7．2．1 FusionInsight HD中Loader与Sqoop的对比 147
7．2．2 FusionInsight HD中Loader的参数配置 148
7．2．3 使用Loader进行数据转换 149
7．2．4 Loader的常用Shell命令 150
7．2．5 Loader应用实践 152
7．3 本章总结 153
练习题 154
第8章大数据日志处理（Flume） 156
8．1 Flume概述 158
8．1．1 Flume简介与应用 158
8．1．2 Flume的功能与特性 161
8．1．3 Flume与其他主流开源日志收集系统的区别 162
8．2 FusionInsight HD中Flume的应用实践 162
8．2．1 FusionInsight HD中Flume的常用参数配置 163
8．2．2 Flume常用的Shell命令 164
8．2．3 Flume与Kafka结合进行日志处理 165
8．3 本章总结 168
练习题 169
第9章大数据实时计算框架（Spark） 170
9．1 Spark概述 172
9．1．1 Spark的概述与应用 173
9．1．2 Scala语言介绍 174
9．1．3 Spark生态系统组件 174
9．1．4 Spark与Hadoop的对比 175
9．2 Spark技术架构 176
9．2．1 Spark的运行原理 176
9．2．2 RDD概念与原理 177
9．2．3 Spark的三种部署方式 181
9．2．4 使用开发工具测试Spark 182
9．3 FusionInsight HD中Spark应用实践 183
9．3．1 运行Spark Shell 183
9．3．2 进行Spark RDD操作 184
9．3．3 使用Spark客户端工具运行Spark程序 185
9．4 Spark Streaming 188
9．4．1 Spark Streaming的设计思想 188
9．4．2 Spark Streaming的应用实例 189
9．5 Spark SQL 191
9．5．1 Spark SQL的功能 191
9．5．2 FusionInsight HD中Spark SQL的应用实例 192
9．6 Spark MLlib 193
9．6．1 机器学习简介 193
9．6．2 Spark MLlib的功能 194
9．7 Spark GraphX 194
9．7．1 图计算简介 194
9．7．2 Spark GraphX功能简介 195
9．8 本章总结 195
练习题 196
第10章大数据流计算 198
10．1 流计算概述 200
10．1．1 静态数据和流数据 201
10．1．2 流计算的概念 201
10．1．3 MapReduce和流计算 202
10．1．4 流计算框架 202
10．2 流计算的处理流程 203
10．2．1 数据实时采集 203
10．2．2 数据实时计算 203
10．2．3 数据实时查询 203
10．3 Streaming流计算 204
10．3．1 Streaming简介 204
10．3．2 Streaming的特点 206
10．3．3 Streaming在FusionInsight HD上的应用实践 208
10．3．4 Spark Streaming与Streaming的差异 212
10．4 本章总结 213
练习题 213
第11章数据可视化 216
11．1 可视化概述 218
11．1．1 数据可视化简介 219
11．1．2 数据可视化的重要性 219
11．1．3 可视化的发展历程 219
11．1．4 数据可视化的过程 221
11．2 可视化工具 222
11．2．1 入门级工具（Excel） 222
11．2．2 普通工具（R语言） 222
11．2．3 高级工具（Tableau和QlikView） 223
11．3 可视化的典型应用 223
11．3．1 可视化在医学上的应用 223
11．3．2 可视化在工程中的应用 224
11．3．3 可视化在互联网的应用 225
11．4 本章总结 225
练习题 226
第12章大数据行业应用 228
12．1 大数据在金融行业的应用 230
12．2 大数据在电信行业的应用 232
12．3 大数据在公安系统的应用 236
12．4 大数据在互联网行业的应用 237
12．5 本章总结 237
练习题 238
术语表 240
参考文献 252

《智海拾遗：跨越时代的信息洪流》引言在人类文明的长河中，信息如同奔涌不息的河流，不断塑造着我们的认知、社会与未来。从远古的口口相传，到古籍的羊皮卷轴，再到印刷术的革新，信息传播的载体与速度一直在演进。然而，我们正身处一场前所未有的信息革命之中。以指数级增长的数字数据，正以前所未有的规模、速度和多样性席卷而来，重塑着我们理解世界的方式。《智海拾遗：跨越时代的信息洪流》并非一部关于特定技术工具的教科书，也不是对某一领域实践应用的详尽指南。它是一次关于信息本质、人类认知与时代变迁的深度探索。本书旨在邀请读者共同踏上一段穿越历史、审视当下、展望未来的思想旅程，理解信息在人类文明发展进程中所扮演的深刻角色，以及当前信息洪流对我们思维模式、决策方式乃至社会结构带来的根本性挑战与机遇。第一章：信息的涟漪——从文明之初到数字黎明信息，这个概念本身是如何孕育和演变的？本书将追溯其源头，从人类早期通过符号、图腾、语言来记录和传递知识的努力开始。我们将探讨早期文明如何通过编织神话、记录历史、发展文字，来构建和保存集体记忆，并将其传递给后代。这一过程，信息传递的效率虽慢，却为知识的积累和文化的传承奠定了基石。随后的篇章将聚焦于几个关键的历史转折点。印刷术的出现，如同在信息的海洋中投下了一颗巨石，激起了信息传播的巨大涟漪，极大地降低了知识获取的门槛，催生了科学革命的思想火花。电报、电话的发明，进一步压缩了时空，让信息传递的速度发生了质的飞跃，加速了全球的连接与商业的发展。无线电和电视的普及，则将信息以更为直观和广泛的方式送入千家万户，塑造了大众文化和集体意识。最后，我们将抵达数字黎明的边缘。个人电脑的诞生，互联网的崛起，电子邮件、搜索引擎的出现，标志着信息形态和传播方式的根本性变革。数据不再是孤立的纸张或磁带，而是以字节、比特的形式，在网络中以光速流动。这一阶段的探索，并非技术细节的堆砌，而是要理解这些技术革新如何从根本上改变了信息的产生、存储、检索和共享的方式，为我们今天所面临的信息洪流埋下了伏笔。我们将思考，在这些技术演进的背后，驱动人类对信息渴求的根本动力是什么？是生存的需要？是认知的欲望？还是对未知世界的探索？第二章：信息的潮汐——理解规模、速度与多样性进入现代，信息不再是涓涓细流，而是汹涌澎湃的潮汐。本章将深入剖析当前信息洪流的三个核心特征：规模（Volume）、速度（Velocity）和多样性（Variety）。我们不会陷入枯燥的数据统计，而是尝试通过生动的比喻和案例，让读者直观感受到信息规模的庞大。想象一下，每一秒钟，全球有多少张照片被上传，有多少条信息被发送，有多少次搜索被执行？我们将探讨，如此庞大的信息体量，是如何由无数个个体行为汇聚而成，并观察它如何渗透到我们生活的方方面面，从社交媒体上的动态，到电子商务的交易记录，再到物联网设备收集的环境数据。速度，则是信息时代最令人目眩的特征之一。新闻传播的速度不再受限于印刷周期，而是实时更新；市场价格的波动，可以瞬间传遍全球；突发事件的真相，可能在几分钟内传播开来。我们将分析这种信息速度的提升，对决策、市场反应、甚至是个人心理状态的影响。它既带来了前所未有的效率，也可能导致信息过载和焦虑。而多样性，则意味着信息不再局限于文本和图像。视频、音频、传感器数据、地理位置信息、生物特征数据……各种形态的信息交织在一起，构成了复杂的信息生态。我们将探讨，这种多样性如何使得信息的世界更加丰富多彩，但也增加了理解和整合的难度。如何从海量的、异构的数据中提取有价值的见解，成为一项巨大的挑战。我们将思考，这种“万物皆可为信息”的时代，对我们原有的知识体系和认知框架提出了怎样的挑战。第三章：信息的礁石与航道——认知挑战与导航之道面对汹涌而来的信息洪流，我们的认知能力如同在一片未知的海域中航行。本章将聚焦于信息洪流给人类认知带来的挑战，以及我们如何发展出新的“航海术”来应对。首当其冲的是信息过载（Information Overload）。当信息量远远超过我们处理能力时，会发生什么？我们将探讨认知负荷的原理，以及它如何导致注意力分散、决策困难、甚至“选择性麻痹”。在海量信息面前，我们的大脑是如何进行筛选、排序和遗忘的？其次，是信息的真伪难辨。在这个信息传播成本极低的时代，虚假信息、误导性信息、甚至是恶意传播的信息，如同海市蜃楼，常常披着真实的外衣出现。我们将分析信息茧房（Filter Bubble）和回声室效应（Echo Chamber）的形成机制，探讨算法推荐如何可能加剧信息的片面性和极端化。如何培养批判性思维，学会辨别信息源的可靠性，成为个体独立思考的关键。我们还将探讨信息的“熵”增效应。即信息在传递过程中，伴随着噪声、失真和丢失，其有序性会逐渐降低。如何对抗这种“熵”增，保持信息的准确性和完整性？这涉及到信息的组织、验证和归档。最后，我们将转向“导航之道”。这并非教授具体的工具，而是探讨思维模式的转变。我们将强调主动学习、终身学习的重要性，以及培养元认知能力——认识自己认知过程的能力。学会提问，学会质疑，学会建立自己的信息过滤机制，以及与他人进行开放和建设性的交流，都是在这片信息海洋中保持清醒和前行的重要航道。我们还将思考，在信息爆炸的时代，如何从“被动接受信息”转向“主动构建知识”。第四章：信息的波涛与岛屿——社会结构与文明演进信息的潮汐，不仅改变着个体的认知，更在重塑着社会结构和文明的形态。本章将从宏观视角，审视信息洪流对社会产生的深远影响。我们将探讨信息如何赋能（Empowerment）和连接（Connection）。社交媒体和即时通讯工具，极大地降低了人们沟通和组织成本，使得个体能够更便捷地表达诉求，形成社群，甚至推动社会变革。互联网打破了地域限制，促进了跨文化的交流和理解。然而，信息洪流也可能带来新的挑战和分裂。数字鸿沟（Digital Divide）依然存在，不同地区、不同群体在信息获取和使用能力上的差异，可能加剧社会不平等。信息的高度集中和掌控，也可能带来权力失衡的风险。我们将探讨，在信息爆炸的时代，如何平衡效率与公平，如何防止信息成为加剧社会撕裂的工具。我们还将关注信息对经济、政治、文化等领域的影响。例如，信息驱动的商业模式如何颠覆传统行业；信息透明度如何影响政府治理和公民参与；文化产品如何通过数字渠道以前所未有的速度传播和演变。最后，本书将展望信息洪流下的文明演进。我们正站在一个历史性的十字路口，信息作为一种强大的力量，正在驱动着人类社会向何处去？是走向一个更加互联互通、知识共享的“全球村”？还是在信息的喧嚣中迷失方向，陷入新的困境？《智海拾遗》并非提供明确的答案，而是希望通过对信息本质的深刻洞察，激发读者独立思考，共同探索信息时代人类文明的未来航向。结语《智海拾遗：跨越时代的信息洪流》是一部关于理解的著作。它不教你如何“处理”大数据，而是帮助你理解“大数据”这个现象背后，信息本身在人类文明中所扮演的永恒角色，以及我们当前所处的这个信息洪流时代，对我们每一个人的意义。它是一次邀请，邀请你在信息的潮汐中，找寻自己的锚点，认清前方的航道，最终抵达更加智慧的彼岸。

用户评价

评分☆☆☆☆☆

我是一名非计算机专业的管理者，需要对我们公司的大数据战略方向有一个宏观的把控，但又不想陷入过多的代码细节。因此，我寻找的是一本能够帮助我理解技术全貌、掌握核心概念和评估技术选型的书籍。这本书恰好满足了我的需求。它在描述底层技术时，总是能及时地跳出来，用管理者能理解的语言解释这些技术对业务价值的支撑。例如，在解释数据治理和元数据管理的重要性时，作者强调的不是工具的使用，而是数据资产的有效性、合规性和可信赖性，这些都是我作为决策者最关心的问题。书中对数据安全和隐私保护的探讨，也紧扣当前全球监管的趋势，提供了很有价值的视角。它让我明白了，大数据技术绝不仅仅是技术部门的事情，它已经渗透到企业的核心竞争力中，是驱动业务创新的引擎。这本书成功地架起了技术部门与管理层之间的沟通桥梁，让我能够用更专业的语言参与到技术决策的讨论中，而不是仅仅停留在“听懂了”的层面，而是能够理解其背后的战略意义。

评分☆☆☆☆☆

这本书的排版和装帧质量也值得称赞，这对于长时间阅读技术书籍来说非常重要。纸张的触感舒适，字体大小适中，没有那种廉价书籍特有的刺鼻油墨味，长时间阅读下来眼睛也不会感到明显的疲劳。更重要的是，作者在章节间的逻辑衔接处理得非常自然流畅，知识点的铺垫和过渡都做得恰到好处。比如，在前面对批处理模型有了扎实的基础后，作者才引入流处理的概念，使得读者能够自然地理解为何需要这种新的处理范式。很多技术书籍的弱点在于知识点的堆砌，读完后感觉知识点都记住了，但彼此之间缺乏联系，无法形成体系。但在这本书里，你会清晰地看到，从底层的数据存储到上层的计算框架，再到更上层的应用模式，所有的技术栈都是围绕着“高效、可靠地处理大规模数据”这一核心目标构建起来的，它们之间互相印证，构成了一个逻辑自洽的技术生态系统。这种结构化的知识呈现方式，极大地提升了学习效率，也巩固了我的系统思维能力。

评分☆☆☆☆☆

这本《大数据原理与技术》的封面设计得非常有现代感，深邃的蓝色调配上跳跃的数据流光影，一下子就抓住了我的眼球。我本来对这个领域抱持着一种既好奇又畏惧的心态，觉得它离我的日常工作和生活似乎有点遥远，充斥着各种高深的算法和复杂的架构图。然而，当我翻开第一章，就被作者清晰的逻辑和由浅入深的讲解方式所吸引。它不像某些教科书那样，上来就是一堆晦涩难懂的数学公式和专业术语，而是非常贴心地从“为什么我们需要大数据”这个宏观的角度切入，逐步剖析了数据爆炸时代的背景，以及传统存储和计算方案的局限性。阅读过程中，我感觉自己像是在攀登一座设计精良的知识阶梯，每一步都有坚实的台阶作为支撑，让我能够稳健地向上探索。尤其是一些关于数据采集和预处理的章节，作者用了非常生动的案例，比如电商平台的实时推荐系统，把抽象的概念具象化了，让我切实感受到了“大数据”在现实世界中的巨大能量和应用潜力。对于初学者来说，这本书的入门体验绝对是顶级的，它成功地消除了我对技术壁垒的心理恐惧，点燃了我深入学习的热情。

评分☆☆☆☆☆

我是在一个项目需求驱动下不得不接触大数据技术的，时间紧、任务重，急需一本能够快速上手、理论与实践结合紧密的参考书。坦白说，市面上很多书籍要么过于偏重理论的数学推导，读起来极其枯燥，要么就是纯粹的工具手册，缺少对底层原理的系统性阐述，让人知其然而不知其所以然。幸运的是，这本书在中间找到了一个绝妙的平衡点。它对Hadoop生态系统的各个组件，比如HDFS、MapReduce的原理，讲解得极其到位，不仅描述了它们“是什么”，更深入剖析了“为什么这样设计”，以及在特定场景下如何权衡性能和资源消耗。我尤其欣赏其中关于数据仓库和数据湖架构对比的那一节，作者没有简单地站队，而是客观地分析了各自的适用场景和演进趋势，这对于我们架构师做决策至关重要。书中的代码示例和伪代码都经过了精心打磨，注释详尽，我可以直接在自己的Linux环境中复现并进行修改测试，这种即学即用的感觉，极大地提高了我的工作效率。对于有一定技术基础，想系统化提升大数据实战能力的工程师来说，这本书无疑是一本可以随时翻阅的“工具箱+思想宝典”。

评分☆☆☆☆☆

说实话，我买这本书是抱着试一试的心态的，因为我更偏向于从开源社区的文档和博客中学习前沿技术，传统教材总给我一种滞后感。然而，这本书的内容更新速度和前瞻性远远超出了我的预期。它没有停留在对经典技术的罗列上，而是花了相当大的篇幅去探讨了流式计算框架（如Spark Streaming/Flink）的演进，以及如何应对实时数据处理中的状态管理和容错机制这些棘手问题。作者对于分布式事务和数据一致性问题的讨论，简直是教科书级别的严谨和深刻，让我对CAP理论有了全新的认识。阅读到讨论NoSQL数据库选型的那一章时，我立刻回想起前段时间团队内部关于选择Cassandra还是MongoDB的争论，书中的分析角度非常全面，从数据模型到最终一致性保证，为我提供了非常清晰的决策框架。这种对复杂工程问题的深刻洞察力，使得这本书的价值超越了一般的教材，更像是一份资深架构师的经验总结汇编。它不仅教我“如何做”，更教我“为何要这样做”，这才是真正的内功心法。

评分☆☆☆☆☆

书薄，内容不是很深

评分☆☆☆☆☆

买书就选京东，有打折当天就送到

评分☆☆☆☆☆

很好

评分☆☆☆☆☆

刚到货

评分☆☆☆☆☆

不错的书

评分☆☆☆☆☆

很好，很受用