发表于2024-11-10
作者具有丰富的一线经验。重点介绍了大数据系统的运维特点及运维技能。本书从运维工作的分类出发,对每种运维工作都进行了由浅入深的介绍。配置管理是整个运维工作的基础和核心,没有配置管理,就如同在复杂的城市道路中行走没有了地图,随时可能迷失方向;同时,在配置管理章节介绍大数据技术的运维管理工具,掌握这些工具能有效地提高工作效率。系统管理,故障管理,变更管理和升级管理是基础性的,也是日常性的运维工作;安全管理,性能管理,服务资源管理和高可用管理则在运维工作中相对比较高阶,也是比较复杂的内容;且系统运维注重强调标准、流程和制度。本书侧重理论和实践的结合。
《大数据系统运维》是大数据应用人才培养系列教材中的一册,讲解了大数据系统运行维护过程中的各个主要阶段及其任务,包括配置管理、系统管理、故障管理、性能管理、安全管理、高可用性管理、应用变更管理、升级管理及服务资源管理,内容全面且翔实,兼具基础理论知识与运维实践经验,特别是重点介绍了大数据系统的运维特点及运维技能,以保障大数据系统的稳定可靠运行,更好地支撑大数据的商业应用价值。
本书具有很强的系统性和实践指导性,可以作为培养应用型人才的课程教材,也同样适合于有意从事IT系统运维工作的广大从业者和爱好者作为参考书。
姜才康同志,华东计算所硕士毕业,现任中国外汇交易中心工程运行部总经理。长期从事银行间市场(含外汇市场、货币市场、债券市场、衍生品市场)的系统设计开发、系统运维、标准制定等工作。主持或技术担纲完成了数十项全国性大型关键系统建设及重点研究项目,探索中国金融领域的系统建设技术路径及方法;构建全方位的银行间市场风险治理和运维安全体系;制定多项银行间市场技术规划及技术标准,建成并不断完善银行间市场技术生态圈。数十次获得人民银行科技发展奖和上海市科技进步奖。
第1章 配置管理
1.1 配置管理内容 2
1.1.1 配置管理术语定义 2
1.1.2 应用软件配置 3
1.1.3 硬件配置 4
1.2 配置管理方法 8
1.2.1 配置流程 9
1.2.2 配置自动发现 13
1.3 配置管理工具 14
1.3.1 CMDB数据库介绍与实践 14
1.3.2 自动配置工具 17
1.3.3 云时代下的CMDB 29
1.4 其他运维工具 29
1.4.1 Ambari 29
1.4.2 CLI工具 32
1.4.3 Ganglia 33
1.4.4 Cloudera Manager 34
1.4.5 其他工具 38
1.5 作业与练习 39
参考文献 39
第2章 系统管理及日常巡检
2.1 系统建设 40
2.1.1 技术方案 41
2.1.2 部署实施 43
2.1.3 测试验收 47
2.2 系统管理对象 48
2.2.1 系统管理对象 48
2.2.2 系统软件 49
2.2.3 系统硬件 61
2.2.4 系统数据 62
2.2.5 IT供应商 62
2.3 系统管理内容 63
2.3.1 事件管理 64
2.3.2 问题管理 64
2.3.3 配置管理 65
2.3.4 变更管理 66
2.3.5 发布管理 66
2.3.6 知识管理 67
2.3.7 日志管理 67
2.3.8 备份管理 68
2.4 系统管理工具 68
2.4.1 资产管理 69
2.4.2 监控管理 69
2.4.3 流程管理 70
2.4.4 外包管理 71
2.5 系统管理制度规范 71
2.5.1 系统管理标准 71
2.5.2 系统管理制度 72
2.5.3 系统管理规范 72
2.6 日常巡检 73
2.6.1 检查内容分类 73
2.6.2 巡检方法分类 74
2.6.3 巡检流程 75
2.7 作业与练习 76
参考文献 77
第3章 故障管理
3.1 集群结构 78
3.2 故障报告 80
3.2.1 发现 80
3.2.2 影响分析 81
3.3 故障处理 82
3.3.1 故障诊断 82
3.3.2 故障排除 83
3.4 故障后期管理 84
3.4.1 建立和更新知识库 84
3.4.2 故障预防 85
3.5 作业与练习 86
参考文献 86
第4章 性能管理
4.1 性能分析 87
4.1.1 性能因子 87
4.1.2 性能指标 88
4.2 性能监控工具 90
4.2.1 GUI 90
4.2.2 集群CLI 94
4.2.3 操作系统自带工具 99
4.2.4 Ganglia 105
4.2.5 其他监控工具 107
4.3 性能优化 107
4.3.1 Hadoop集群配置规划优化 107
4.3.2 Hadoop性能优化 108
4.3.3 作业优化 112
4.4 作业与练习 120
参考文献 120
第5章 安全管理
5.1 安全概述 121
5.2 资产安全管理 122
5.2.1 环境设施安全 122
5.2.2 设备安全 123
5.3 应用安全 123
5.3.1 技术安全 123
5.3.2 数据安全 127
5.4 安全威胁 129
5.4.1 人为失误 129
5.4.2 外部攻击 131
5.4.3 信息泄密 132
5.4.4 灾害 133
5.5 安全措施 133
5.5.1 安全制度规范 133
5.5.2 安全防范措施 134
5.6 作业与练习 135
参考文献 136
第6章 高可用性管理
6.1 高可用性概述 137
6.2 高可用性技术 138
6.2.1 系统架构 138
6.2.2 容灾 140
6.2.3 监控 140
6.2.4 故障转移 148
6.3 业务连续性管理 149
6.3.1 灾备系统 149
6.3.2 应急预案 153
6.3.3 日常演练 154
6.4 作业与练习 155
第7章 应用变更管理
7.1 变更管理概述 156
7.1.1 变更管理目标 156
7.1.2 变更管理范围 156
7.1.3 变更管理的种类 157
7.1.4 变更管理的原则 157
7.2 变更管理流程 158
7.2.1 变更的组织架构 158
7.2.2 变更的管理策略 158
7.2.3 变更的流程控制 158
7.2.4 变更管理流程 158
7.3 变更配置管理 161
7.4 作业与练习 161
参考文献 161
第8章 升级管理
8.1 Hadoop升级管理 162
8.1.1 Hadoop升级风险 163
8.1.2 HDFS的数据和元数据升级 163
8.1.3 YARN升级配置 164
8.2 Spark升级管理 164
8.2.1 Spark特性 165
8.2.2 Spark生态系统 166
8.3 Hive SQL升级管理 166
8.3.1 Hive SQL体系结构 167
8.3.2 安装配置 167
8.4 ZooKeeper升级管理 169
8.4.1 单机模式 169
8.4.2 集群模式 170
8.5 作业与练习 171
参考文献 172
第9章 服务资源管理
9.1 业务能力管理 173
9.1.1 业务需求评估 173
9.1.2 业务需求趋势预测 174
9.2 服务能力管理 176
9.2.1 人员能力动态管理 176
9.2.2 服务成本动态管理 177
9.2.3 技术与工具管理 179
9.3 服务资源整合 179
9.3.1 不同角色的责权划分 179
9.3.2 用户、供应商、厂商的典型协作方式 181
9.4 作业与练习 183
参考文献 184
附录A 大数据和人工智能实验环境
附录B Hadoop环境要求
附录C 名词解释
随着信息技术,尤其是互联网技术的迅速发展,各种新技术应用不断渗透到人们的生活中,影响并改变着传统的生活和工作方式。现代社会高度依赖计算机提供的相关服务,人们的一举一动,几乎都在触发计算机的计算,直接或者间接产生大量数据。现今,大数据已广为人知,被认为是信息时代的“新石油”。据不完全统计,大数据量呈现出每两年翻一倍的爆炸性增长态势,隐藏着巨大的机会和价值,并将给社会带来诸多变革和发展,已引起学界、政界以及产业界的广泛关注,各行业已纷纷建立起大数据处理系统,通过对数据的分析和挖据,为经济、社会甚至国防安全等提供帮助。
大数据系统运维(大数据应用人才培养系列教材) 下载 mobi pdf epub txt 电子书 格式 2024
大数据系统运维(大数据应用人才培养系列教材) 下载 mobi epub pdf 电子书大数据系统运维(大数据应用人才培养系列教材) mobi epub pdf txt 电子书 格式下载 2024