数据科学与大数据分析 数据的发现 分析 可视化与表示

数据科学与大数据分析 数据的发现 分析 可视化与表示 pdf epub mobi txt 电子书 下载 2025

[美] EMC教育服务团队(EMC Education Services) 著,曹逾,刘文苗,李枫林 译
图书标签:
  • 数据科学
  • 大数据分析
  • 数据挖掘
  • 数据可视化
  • 数据分析
  • 统计学
  • 机器学习
  • 商业分析
  • Python
  • R语言
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 人民邮电出版社
ISBN:9787115416377
版次:1
商品编码:11993104
品牌:异步图书
包装:平装
开本:16开
出版时间:2016-07-01
用纸:胶版纸
页数:356
正文语种:中文

具体描述

编辑推荐

数据科学和大数据分析是指利用数据的力量来发现新的见解。本书涵盖了数据科学涉及的行为广度以及所使用的方法和工具。本书内容侧重于任何行业和技术环境中都会用到的概念、原理和实际应用,并通过开源软件来分析案例,以帮助读者更好地理解。
本书将帮助您:
成为数据科学团队中的一名贡献者;
部署结构化的生命周期方法来分析数据问题;
应用合适的分析技术和工具来分析大数据;
学习如何用数据来讲一个动人的故事,以推动商业行为;
备考EMC Proven Professional数据科学家认证。

EEMC专家认证是IT行业领先的教育和认证项目,涵盖了信息存储技术、虚拟化技术、云计算、数据科学与大数据分析等领域。
通过认证是一种很好的自我投资方式,同时也是对自己专业知识的正式验证。
本书可以作为准备数据科学专员(EMCDSA)认证的资料。

在驱动企业和服务提供商转型其运营方式以及以服务形式交付IT(IT as a service)方面,EMC是全球领导者。而该转型的基础则是云计算。通过创新的产品和服务,EMC加速了云计算的进展,旨在帮助IT部门以一种更为敏捷、可信和具备成本效益的方式来存储、管理、保护和分析它们有价值的资产——信息。关于EMC的更多信息,请访问www.EMC.com。

内容简介

数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。
《数据科学与大数据分析——数据的发现 分析 可视化与表示》总共分为12章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。
《数据科学与大数据分析——数据的发现 分析 可视化与表示》内容详细,示例丰富,侧重于理论与练习的结合,因此比较适合对大数据分析、数据科学感兴趣的人员阅读,有志于成为数据科学家的读者也可以从本书中获益。

作者简介

David Dietrich是EMC Education Services的数据科学教育团队的负责人,他领导着大数据分析和数据科学相关的课程、策略和课程开发工作。他参与编写了EMC数据科学课程的首门课程,以及两门额外的EMC课程(以向领导和管理人员讲授大数据和数据科学为主),而且还是本书的作者兼编辑。他在数据科学、数据隐私和云计算领域已经申请了14项专利。
David曾指导若干所大学开设数据分析相关的课程项目,而且还经常在会议和行业活动中发表演讲。他还是波士顿地区几所大学的客座讲师。他的作品已被精选到包括福布斯杂志、哈佛商业评论以及由美国马萨诸塞州长Deval Patrick委托起草的2014 马萨诸塞大数据报告等内在的主流出版物中。
David在分析和技术领域已经浸淫了近20年。在其职业生涯中,他曾在多家财富500强公司工作过,出任多个与数据分析相关的职位,其中包括管理分析和运营团队,提供分析咨询服务,管理用于规范美国银行业的分析软件产品线,以及开发软件即服务(Software-as-a-Service)和Bl即服务(Bl-as-a-Service)的产品。此外,David还曾与美联储一起合作开发用于监控房产抵押贷款的预测模型。
Barry Heller是EMC Education Services的一名咨询技术教育顾问。Barry是大数据和数据科学新兴技术领域的课程开发人员和课程顾问。在此之前,Barry曾是一名顾问研究科学家,在EMC全面客户体验(Total Customer Experience)部门内发起并领导了许多与数据分析相关的项目。在其EMC职业生涯的早期,他负责管理统计工程团队,并负责企业资源企划(ERP)实施中的数据仓库工作。在加盟EMC之前,Barry在医疗诊断和技术公司担任过可靠性工程功能(Reliability Engineering Functions)的管理和分析角色。在此期间,他将其数量分析技能应用到了客户服务、工程、制造、销售/营销、金融和法律领域内的无数商业应用中。他强调与客户管理人员深入互动的重要性,他的许多成功案例不仅源自对分析的技术细节的关注,也源自针对分析结果会做出的决策的关注。Barry拥有罗彻斯特理工学院计算数学专业的本科学位,以及纽约州立大学新帕尔兹分校数学专业的硕士学位。
Beibei Yang是EMC Education Services的一名技术教育顾问,在EMC负责开发若干与数据科学和大数据分析相关的公开课程。Bebei在IT行业有7年的从业经验。在加盟EMC之前,她在一家财富500强公司先后担任过软件工程师、系统管理员和网络管理员等职位,并引入了多种提升效率和鼓励合作的新技术。Beibei曾在国际会议上发表过学术论文,并申请了多项专利。她在马萨诸塞大学卢维尔分校获得了计算机科学专业的博士学位。她专注于自然语言处理和数据挖掘,尤其是使用各种工具和技术来发现数据中隐藏的模式,以及用数据来讲故事。数据科学和大数据分析是一个令人振奋的领域。在这个领域,数字信息的潜力可以很大程度地用来帮助做出明智的商业决策。我们相信,无论是短期、中期还是长期来看,这一领域都将会吸引越来越多有才华的学生和专业人士投身其中。

译者简介
曹逾,于新加坡国立大学获得计算机博士学位,杰出大数据与机器学习专家,当前供职于EMC中国卓越研发集团首席技术官办公室,同时担任EMC中国研究院数据科学实验室主任,主要负责EMC大中华区大数据与数据科学方向的应用型研究以及创新解决方案研发,同时也负责EMC在亚太特别是中国大陆地区的高校科研合作项目。曹博士在SIGMOD、VLDB、ICDE、VLDB Journal等国际会议和期刊发表论文20余篇,并多次受邀担任国际会议和期刊审稿人,而且其相关研究成果在EMC内部产品及解决方案中得以广泛应用。曹博士拥有60余项美国及国际专利授权或申请。
刘文苗,现任EMC IT第三平台高级项目经理,对大数据、存储系统、网络系统以及文件系统具有一定研究,还具有国内金融行业多年从业经验。刘先生曾经参与过上海证券交易所新一代交易系统、海通期货核心交易系统的设计与建设工作。
李枫林,于上海交通大学获得软件工程硕士学位,曾在微软中国公司担任数据库工程师,现就职于EMC中国研发中心,担任Senior Social Engagement Manager一职,主要负责EMC中文技术社区的运营与后台数据处理工作,近年来潜心钻研数据存储与大数据相关技术,曾在EMC中文社区及社交媒体上发表多篇大数据技术相关的文章。

主审人员简介
孙宇熙(Ricky Sun),EMC中国研究院院长,在EMC主要负责大数据、软件定义的数据中心、云计算、超融合架构、高性能计算、高效存储等领域的研发、战略合作与创新等工作。
Ricky有在硅谷和国内近20年的学习、工作、生活和创业的经验。Ricky既有在大型跨国公司(EMC、微软、Yahoo!)的工作经历,也有过往成功的创业经历,曾于2001年在美国加州硅谷地区创立WL科技公司并成功带领公司在2004年与香港Telewave集团合并。Ricky在混合云架构、大数据快数据处理与分析、软件定义存储等领域有着多年的国际领先的工作经验业界的影响力,并持有多项专利。Ricky在近年的专业著作有《程序员生存手册:面试篇》、《软件定义数据中心:技术与实践》等。

前言/序言


《探寻数据深邃之境:从海量信息中解锁价值》 在这个信息爆炸的时代,数据已经成为驱动社会进步和商业决策的核心动力。然而,数据的价值并非唾手可得,它隐藏在海量、异构、动态变化的信息洪流之中,等待着有识之士去发掘、理解和应用。本书并非一本关于特定工具或技术的教程,而是旨在引领读者踏上一段探索数据本质、理解其内在规律、并从中提炼洞见的旅程。它聚焦于如何从原始数据中发现有意义的信息,如何进行严谨的分析以得出可靠的结论,以及如何清晰有效地将这些发现呈现给他人。 第一部分:数据的起源与本质——看见数据的脉络 在深入数据分析之前,理解数据的本质至关重要。数据并非仅仅是冷冰冰的数字和文本,它们是现实世界运行的记录,是行为的轨迹,是现象的反映。本部分将带领读者审视数据的来源多样性,从传感器捕捉的实时流,到用户产生的交互日志,再到社会经济统计的宏观指标,乃至文本、图像、音频、视频等多模态的非结构化数据。我们将探讨不同类型数据的特征、优缺点,以及它们各自的适用场景。 接着,我们将剖析数据的“脏”与“乱”。现实世界的数据往往充满了噪声、缺失值、不一致性、重复项以及各种格式错误。本部分将强调数据预处理的重要性,并介绍其核心思想:理解数据质量对后续分析结果的决定性影响。我们会讨论常见的数据清洗技术,例如如何识别和处理缺失值(填充、删除或模型预测),如何检测和修正异常值,如何进行数据标准化和归一化以统一尺度,以及如何处理重复数据。此外,我们还将涉及数据转换,比如如何将分类数据编码为数值表示,如何进行特征的组合或分解,以及如何应对不同数据格式的挑战,将其统一到适合分析的格式。这不仅仅是技术层面的操作,更是对数据“基因”的一次深刻梳理,为后续的挖掘奠定坚实基础。 第二部分:数据的发现之旅——从混沌中寻找规律 一旦数据被初步整理,便进入了令人兴奋的“发现”阶段。这一阶段的核心在于运用统计学和探索性数据分析(EDA)的视角,在看似杂乱无章的数据中寻找隐藏的模式、关联和异常。我们将深入探讨描述性统计的强大之处,理解均值、中位数、方差、标准差等基本统计量如何帮助我们快速概览数据的分布和离散程度。同时,我们将学习如何运用可视化工具作为探索的眼睛,通过直方图、箱线图、散点图、热力图等直观的图形,揭示数据的分布形态、变量间的关系以及潜在的聚类趋势。 本部分将重点关注模式识别的艺术。我们将介绍相关性分析,理解变量之间是如何相互影响的,以及如何区分强相关、弱相关和无相关,并警惕“相关不等于因果”这一基本原则。我们还会探讨聚类分析的基本思想,学习如何将相似的数据点分组,发现隐藏的群体特征,这对于市场细分、用户画像构建等场景至关重要。同时,关联规则挖掘的理念也将被引入,例如如何发现商品销售中的“购物篮分析”模式,即哪些商品经常被一起购买。 此外,异常检测是数据发现中不可或缺的一环。我们将学习如何识别那些偏离正常模式的数据点,它们可能代表着欺诈行为、系统故障、或者新颖的、值得深入研究的现象。这部分内容将强调直觉与方法的结合,鼓励读者在统计学理论的指导下,发挥创造力,大胆假设,小心求证,从而真正从数据中“看见”价值。 第三部分:数据的分析与洞察——解读数据背后的故事 发现只是起点,真正的价值在于深入分析,提炼出有意义的洞察,并将其转化为可操作的知识。本部分将转向统计推断和机器学习的初探,以及更复杂的分析方法。我们将介绍假设检验的基本原理,学习如何利用样本数据对总体进行推断,并量化结果的置信度。理解p值、置信区间等概念,能够帮助我们做出更审慎的决策。 我们将引入回归分析,学习如何建立模型来描述变量之间的定量关系,并利用模型进行预测。无论是线性回归还是更复杂的模型,其核心都是理解因变量如何受一个或多个自变量的影响。这为我们理解驱动因素、预测未来趋势提供了强大的工具。 同时,本部分还将触及机器学习的入门概念,但并非深入讲解算法细节。重点在于理解其解决问题的思路:如何让机器从数据中学习规律,而不是通过人工编写规则。我们将简要介绍监督学习(如分类和回归)和无りました学习(如聚类)的区别,以及它们在实际问题中的应用。例如,如何利用历史数据训练一个模型来预测客户流失,或者如何利用无监督学习来发现新的客户群体。 更重要的是,本部分将强调分析的严谨性和结果的可靠性。我们将讨论模型评估的重要性,如何选择合适的评估指标来衡量模型的性能,以及如何避免过拟合和欠拟合。我们将强调业务背景的理解,分析的结果必须与实际业务目标紧密结合,才能真正产生价值。这部分内容是对数据“说什么”的进一步解读,旨在回答“为什么会这样”以及“接下来会发生什么”。 第四部分:数据的可视化与表示——让数据“说话” 再深刻的分析,如果不能有效地传达给他人,其价值也会大打折扣。数据的可视化和有效的表示是连接分析结果与决策者的桥梁。本部分将重点探讨如何将复杂的数据洞察转化为清晰、直观、有说服力的信息。 我们将深入研究不同可视化类型的适用场景。例如,何时适合使用折线图来展示趋势,何时适合使用柱状图来比较数值,何时适合使用饼图来展示比例,以及何时需要更高级的图表如网络图、地理信息图等。我们将学习图表设计的原则:如何选择合适的颜色、标签、坐标轴,如何避免误导性的表现,以及如何让图表本身就传递出关键信息。 本部分还将关注叙事性数据可视化。这不仅仅是绘制图表,而是要构建一个故事。我们将学习如何通过一系列相互关联的可视化和简洁明了的解释,引导观众理解数据的分析过程和结论。我们将探讨数据演示的技巧,包括如何组织报告结构,如何准备幻灯片,以及如何进行有效的口头陈述,从而确保数据所传递的信息能够被准确理解和接受。 最终,本部分旨在使读者能够自信地将数据分析的成果进行沟通,无论是向技术团队、业务部门,还是高层管理者,都能用他们理解的语言,呈现出数据的价值,驱动更明智的决策。 总结 《探寻数据深邃之境:从海量信息中解锁价值》并非一本“食谱”,而是一次“烹饪指南”的探索。它不直接提供现成的“菜肴”(分析工具或模型),而是教导读者如何理解“食材”(数据)的特性,如何运用“炊具”(分析方法)的原理,如何调配“香料”(可视化技巧),最终烹饪出属于自己的、能够满足特定需求的“美味佳肴”(有价值的洞察)。通过本书的学习,读者将能够以一种更系统、更深入、更具批判性的视角来审视数据,从海量信息中提炼出真正有价值的知识,并有效地将其转化为驱动行动的动力。

用户评价

评分

这本书我抱着极大的期待买回来,希望它能成为我数据科学探索之旅的指南。拿到手后,我迫不及待地翻阅,虽然主题与我预期的“数据科学与大数据分析”高度契合,但实际阅读体验却像是在一片熟悉却又陌生的领域里航行。书本的章节安排,从数据采集的宏观视角,到具体的模型构建,再到最后的部署和应用,都展现了一种严谨的逻辑。我尤其欣赏作者在阐述复杂概念时,那种化繁为简的功力。例如,在讨论机器学习算法时,书中并没有直接堆砌晦涩的数学公式,而是通过生动的比喻和清晰的图示,帮助我理解算法背后的原理和适用场景。我尝试着按照书中的步骤,结合我手头的一个小项目进行实践,发现在数据预处理阶段,书中提出的多种清洗和转换方法的详细讲解,为我节省了大量试错的时间。那些关于缺失值填充、异常值检测的技巧,实在是太实用了。而且,书中对于不同数据类型(如数值型、类别型、文本型)的处理策略,都有深入的探讨,这点对于我这种刚入门的学习者来说,简直是雪中送炭。它不仅仅是知识的罗列,更像是一位经验丰富的老友,在手把手地教我如何一步步解决实际问题,那种感觉非常棒。

评分

这本书的“数据发现”部分,给我带来了前所未有的启发。我之前一直认为数据发现就是简单地收集和整理数据,但这本书彻底颠覆了我的认知。作者在这一章节中,将数据发现描绘成一个充满探索和创造力的过程。我学会了如何定义清晰的数据问题,如何从海量的数据源中精准地定位相关信息,以及如何运用各种技术手段来挖掘隐藏在数据背后的规律和模式。书中对于数据质量的评估和改进的阐述,也让我深刻认识到,高质量的数据是后续一切分析的基础。我特别欣赏作者在介绍数据采集和清洗技术时,那种理论与实践相结合的方式。例如,在讨论网络爬虫技术时,书中不仅讲解了其原理,还提供了具体的Python代码示例,让我在学习的同时,也能立即动手实践。而且,书中还详细介绍了各种数据挖掘算法,如关联规则挖掘、聚类分析等,并深入剖析了它们的适用场景和局限性。这本书让我明白了,数据发现不仅仅是技术性的操作,更是一种战略性的思维,它能够帮助我们发现未知的机会,规避潜在的风险。

评分

这本书的“大数据分析”部分,让我对“大”这个字的理解有了更深刻的认识。在此之前,我对大数据的一些概念,例如Hadoop、Spark等,仅限于模糊的印象。而这本书则系统地为我构建了一个清晰的大数据分析的知识体系。书中不仅介绍了大数据产生的背景、特点和挑战,还详细阐述了在大数据环境下进行数据存储、处理和分析的关键技术。我印象深刻的是,书中对于分布式计算框架的讲解,从Hadoop的MapReduce模型,到Spark的内存计算,再到更现代的流式处理技术,作者都给出了清晰的逻辑梳理和图文并茂的说明。这让我不再对这些复杂的概念感到畏惧,而是能够理解它们的工作原理和优势。此外,书中还探讨了大数据分析在各个领域的应用,例如智能推荐、风险控制、精准营销等,这些鲜活的案例让我看到了大数据分析的巨大潜力。通过阅读,我不仅掌握了大数据分析的核心技术,更重要的是,我开始理解如何在大规模数据集上进行高效、准确的分析,并从中获得有价值的洞察。

评分

读完这本书,我感觉自己对“数据分析”这个概念的理解,已经上升到了一个新的高度。这本书的独特之处在于,它并没有将数据分析停留在仅仅是统计学方法的应用层面,而是将其置于一个更广阔的商业和决策的背景下进行阐述。在“分析”这个核心章节中,我被书中提出的各种分析框架和模型深深吸引。从探索性数据分析(EDA)的精髓,到各种推断性统计方法的应用,再到预测性模型的构建,作者都给出了非常详尽的解释。我尤其喜欢书中对于“因果推断”的讨论,这对于我理解数据背后的真正原因,而不是仅仅停留在相关性上,提供了宝贵的思路。书中的案例分析也十分精彩,作者选取了来自不同行业、不同领域的实际问题,并一步步地展示了如何运用数据分析的方法来解决这些问题。这些案例不仅具有很强的启发性,也让我看到了数据分析在现实世界中的巨大价值。通过阅读,我不仅掌握了分析的工具和方法,更重要的是,我学会了如何从数据的海洋中提炼出有价值的见解,并将其转化为可行的商业决策。

评分

当我深入这本书的“可视化与表示”部分时,我发现自己进入了一个全新的维度。在此之前,我虽然接触过一些基础的数据图表,但总是感觉缺乏系统性的指导。这本书的出现,彻底改变了我的看法。作者在这一章节中,不仅仅是罗列了各种图表类型,而是深入剖析了每种图表背后的设计理念和适用的业务场景。我印象最深刻的是关于“讲好数据故事”的章节,它强调了可视化不仅仅是为了美观,更是为了清晰、有效地传达信息,激发读者的洞察。书中详细介绍了如何选择最适合展示特定类型数据的图表,如何通过颜色、形状、大小等视觉元素来突出重点,以及如何避免信息过载和误导性的呈现。我甚至还学到了如何使用一些高级的可视化技巧,例如交互式图表和仪表盘的构建,这对于我未来向团队汇报项目成果,将会起到至关重要的作用。更令人惊喜的是,书中还提及了一些流行的可视化工具和库,并提供了相应的代码示例,这让我在理论学习的同时,也能立即动手实践,将学到的知识转化为实际的技能。这本书让我明白,数据可视化不仅仅是“画图”,它是一门艺术,也是一种强大的沟通语言。

评分

通俗易懂,深入浅出,送货快,方便学习,下次还在京东购买。

评分

本书全面讲解了数据科学的相关知识,从统计分析学到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而更好地发现模型的潜在应用场景。

评分

看目录还不错,不是很厚,适合我

评分

非常不错的书,值得收藏

评分

冲着第一章Ipython和第五章Scikut-Learn 而来买的,不错

评分

适合机器学习入门,把复杂的算法,讲得很浅显。

评分

东西不错

评分

书看着还不错吧,稍后看看

评分

是正版书,看了一会,值得买,比国内的作者写的好!

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有