发表于2024-12-23
本书是面向商业和技术专业人员的大数据指南,清楚地介绍了大数据相关的概念、理论、术语与基础技术,并使用真实连贯的商业案例以及简单的图表,帮助读者更清晰地理解大数据技术。本书可作为高等院校相关专业“大数据基础”、“大数据道路”等课程的教材,也可供有一定实践经验的软件开发人员、管理人员和所有对大数据感兴趣的人士阅读。
?ThomasErlThomasErl是IT畅销书作者,Arcitura教育公司的创始人,PrenticeHall出版社“ThomasErl的服务技术丛书”的编辑。他的书发行量超过200000册,成为国际畅销书,并且已经获得多个重要IT组织成员的正式认可,例如,IBM、Microsoft、Oracle、Intel、Accenture、IEEE、HL7、MITRE、SAP、CISCO、HP等。作为Arcitura公司的CEO,Thomas领导研发了国际公认的大数据科学专家认证(BDSCP)、云专家认证(CCP)与SOA专家认证(SOACP)的课程大纲,设立了一系列正式的、与厂商无关的工业认证,全球已有数千IT从业人员获得了这些认证。Thomas还作为演讲家与教育家,在20多个国家进行过巡回演讲。Thomas已经在诸多出刊物上发表过100多篇文章和访谈,包括《华尔街日报》与《CIO杂志》。
WajidKhattakWajidKhattak是Arcitura教育公司的大数据研究者与教育者。他的研究领域包括大数据工程与架构、数据科学、机器学习、分析学与SOA。此外,他在商务智能报告解决方案与GIS方面有着丰富的.NET软件开发经验。
Wajid于2003年在英国伯明翰城市大学获得软件工程学士学位,于2008年在该校以杰出的成绩获得软件工程与安全硕士学位。另外,Wajid还获得了MCAD&MCTS;(Microsoft)、SOA架构师、大数据科学家、大数据工程师以及大数据研究顾问(Arcitura)认证。
PaulBuhlerPaulBuhler博士是一位经验丰富的IT专家,他在商业公司、政府机构和学校均有过从业经验。在面向服务的计算概念、技术和实现方法领域,他是一位受人尊敬的研究者、实践者与教育者。他在XaaS领域的研究已经延伸到了云、大数据与万物互联网(IoE)。目前他的研究兴趣是通过权衡响应式设计原则与基于目标的执行方式,减少业务策略与流程执行之间的差距。
作为Modus21的首席科学家,PaulBuhler博士根据当前业务架构与流程执行框架的发展趋势调整企业的战略布局。目前,他还是查尔斯顿学院的合作教授,负责本科生与硕士生计算机科学课程的教学工作。PaulBuhler博士在南卡罗来纳大学获得计算机工程博士学位,在约翰霍普金斯大学获得计算机科学硕士学位,在塞特多大学获得计算机科学学士学位。
译者序
致谢
作者简介
第一部分 大数据基础
第1章 理解大数据3
1.1 概念与术语4
1.1.1 数据集4
1.1.2 数据分析5
1.1.3 数据分析学5
1.1.4 商务智能11
1.1.5 关键绩效指标11
1.2 大数据特征12
1.2.1 容量12
1.2.2 速率13
1.2.3 多样性13
1.2.4 真实性14
1.2.5 价值14
1.3 不同数据类型15
1.3.1 结构化数据16
1.3.2 非结构化数据17
1.3.3 半结构化数据17
1.3.4 元数据18
1.4 案例学习背景18
1.4.1 历史背景18
1.4.2 技术基础和自动化环境19
1.4.3 商业目标和障碍20
1.5 案例学习21
1.5.1 确定数据特征22
1.5.2 确定数据类型24
第2章 采用大数据的商业动机与驱动25
2.1 市场动态25
2.2 业务架构27
2.3 业务流程管理30
2.4 信息与通信技术31
2.4.1 数据分析与数据科学31
2.4.2 数字化31
2.4.3 开源技术与商用硬件32
2.4.4 社交媒体33
2.4.5 超连通社区与设备33
2.4.6 云计算34
2.5 万物互联网35
2.6 案例学习35
第3章 大数据采用及规划考虑39
3.1 组织的先决条件40
3.2 数据获取40
3.3 隐私性40
3.4 安全性41
3.5 数据来源42
3.6 有限的实时支持43
3.7 不同的性能挑战43
3.8 不同的管理需求43
3.9 不同的方法论44
3.10 云44
3.11 大数据分析的生命周期45
3.11.1 商业案例评估45
3.11.2 数据标识47
3.11.3 数据获取与过滤47
3.11.4 数据提取48
3.11.5 数据验证与清理49
3.11.6 数据聚合与表示50
3.11.7 数据分析52
3.11.8 数据可视化52
3.11.9 分析结果的使用53
3.12 案例学习54
3.12.1 大数据分析的生命周期55
3.12.2 商业案例评估55
3.12.3 数据标识56
3.12.4 数据获取与过滤56
3.12.5 数据提取57
3.12.6 数据验证与清理57
3.12.7 数据聚合与表示57
3.12.8 数据分析57
3.12.9 数据可视化58
3.12.10 分析结果的使用58
第4章 企业级技术与大数据商务智能59
4.1 联机事务处理60
4.2 联机分析处理60
4.3 抽取、转换和加载技术61
4.4 数据仓库61
4.5 数据集市62
4.6 传统商务智能62
4.6.1 即席报表63
4.6.2 仪表板63
4.7 大数据商务智能65
4.7.1 传统数据可视化65
4.7.2 大数据的数据可视化66
4.8 案例学习67
4.8.1 企业技术67
4.8.2 大数据商务智能68
第二部分 存储和分析大数据
第5章 大数据存储的概念71
5.1 集群72
5.2 文件系统和分布式文件系统72
5.3 NoSQL73
5.4 分片74
5.5 复制75
5.5.1 主从式复制76
5.5.2 对等式复制77
5.6 分片和复制80
5.6.1 结合分片和主从式复制80
5.6.2 结合分片和对等式复制81
5.7 CAP定理82
5.8 ACID85
5.9 BASE88
5.10 案例学习91
第6章 大数据处理的概念93
6.1 并行数据处理93
6.2 分布式数据处理94
6.3 Hadoop94
6.4 处理工作量95
6.4.1 批处理型95
6.4.2 事务型95
6.5 集群96
6.6 批处理模式97
6.6.1 MapReduce批处理97
6.6.2 Map和Reduce任务98
6.6.3 MapReduce的简单实例103
6.6.4 理解MapReduce算法104
6.7 实时模式处理107
6.7.1 SCV原则107
6.7.2 事件流处理110
6.7.3 复杂事件处理110
6.7.4 大数据实时处理与SCV110
6.7.5 大数据实时处理与MapReduce111
6.8 案例学习112
6.8.1 处理工作量112
6.8.2 批处理模式处理112
6.8.3 实时模式处理113
第7章 大数据存储技术115
7.1 磁盘存储设备115
7.1.1 分布式文件系统116
7.1.2 RDBMS数据库117
7.1.3 NoSQL数据库119
7.1.4 NewSQL数据库128
7.2 内存存储设备129
7.2.1 内存数据网格131
7.2.2 内存数据库138
7.3 案例学习141
第8章 大数据分析技术143
8.1 定量分析144
8.2 定性分析145
8.3 数据挖掘145
8.4 统计分析146
8.4.1 A/B测试146
8.4.2 相关性分析147
8.4.3 回归性分析149
8.5 机器学习150
8.5.1 分类(有监督的机器学习)151
8.5.2 聚类(无监督的机器学习)152
8.5.3 异常检测152
8.5.4 过滤153
8.6 语义分析154
8.6.1 自然语言处理155
8.6.2 文本分析155
8.6.3 情感分析156
8.7 视觉分析157
8.7.1 热点图157
8.7.2 时间序列图159
8.7.3 网络图160
8.7.4 空间数据制图161
8.8 案例学习162
8.8.1 相关性分析162
8.8.2 回归性分析162
8.8.3 时间序列图163
8.8.4 聚类163
8.8.5 分类163
附录A 案例结论165
索引167
译者序现今,“大数据”已经成为全球科技界和企业界关注的热点。数据为王的时代已经到来,各行各业高度关注大数据的研究和应用。企业关注的重点从追求计算机的计算速度转变为追求大数据处理能力,从以软件编程为主转变为以数据为中心。在云计算技术和海量数据存储技术的助力下,大数据已经成为当前学术界、工业界的热点和焦点。大数据的出现将会对社会各个领域产生深刻影响。从公司战略到产业生态,从学术研究到生产实践,从城镇管理到国家治理,都将发生本质的变化,大数据将成为时代变革的力量。“用数据来说话、用数据来管理、用数据来决策、用数据来创新”的文化氛围与时代特征愈发鲜明。大数据时代需要一大批具备大数据知识的专业人才,他们应能有效地将数据科学和各行各业的应用相结合,推动新技术和新应用的发展。因此,掌握大数据核心技术且拥有专业领域知识的人才储备成为国家大数据战略布局的重中之重。
在本书中,IT畅销书作者ThomasErl和他的团队清楚地解释了关键的大数据概念、理论和术语,以及基本的大数据技术和方法。本书分两部分:第一部分主要从商业相关问题的讨论引出大数据的驱动力,解释了如何通过大数据推动企业的发展,介绍了大数据的应用背景和基本概念;第二部分主要是大数据技术相关问题的讨论,重点介绍了大数据的存储技术和分析方法。本书的特色在于每一章后都有案例学习,用一家大型的保险公司ETI对大数据的应用案例贯穿始终,为相关章节的知识应用提供了现实场景,以加深读者对大数据实际应用的认识。另外,本书大量应用了简单的图表说明。这些都使得本书非常实用且通俗易懂,因此,本书特别适合作为了解大数据基本知识和相关技术的入门教材,也可以作为高校的通识课教材来使用。
在本书翻译过程中,武汉大学计算机学院的刘歆文、李卓、史成良、陈洪洋、贺潇雅、万言历、陈昊等同学做了大量辅助性工作,在此,向这些同学的辛勤工作表示衷心的感谢。
由于译者能力有限,译稿难免存在疏漏及不足之处,望广大读者不吝赐教。
大数据导论 下载 mobi pdf epub txt 电子书 格式 2024
大数据导论 下载 mobi epub pdf 电子书看完你就是大数据科学家啦
评分大数据导论
评分商品很好啊,我很喜欢,物美价廉
评分对于大数据的一些叙述还是很详细很全面的
评分京东买书,方便,发货迅速,包装完好
评分刚刚开始看,还没完全理解,暂不评论。物流很快
评分挺好的
评分图书商品不提供货物清单,报销很不方便
评分一个大概的介绍,性价比不高。。。。。。。。。。
大数据导论 mobi epub pdf txt 电子书 格式下载 2024