数据挖掘：实用机器学习工具与技术（原书第4版） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[新西兰] 伊恩，H.，威腾（Ian，H.，Witten） ... 著，李川郭立坤彭京蔡国强任艳等译译

图书标签:

数据挖掘
机器学习
数据分析
Python
R
统计学习
模式识别
商业智能
数据科学
算法

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到图书大百科

book.teaonline.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111589167

版次：1

商品编码：12328944

品牌：机工出版

包装：平装

丛书名：智能科学与技术丛书

开本：16开

出版时间：2018-03-01

用纸：胶版纸

页数：417

具体描述

内容简介

本书是数据挖掘和机器学习领域的经典畅销教材，被国内外众多名校选用。第4版新增了关于深度学习和概率方法的重要章节，同时，备受欢迎的机器学习软件Weka也再度升级。书中全面覆盖了该领域的实用技术，致力于帮助读者理解不同技术的工作方式和应用方式，从而学会在工程实践和商业项目中解决真实问题。本书适合作为高等院校相关课程的教材，同时也适合业内技术人员阅读参考。

目　　录
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
译者序
前言
致谢
第一部分　数据挖掘基础
第1章　绪论 2
1.1　数据挖掘和机器学习 2
1.1.1　描述结构模式 3
1.1.2　机器学习 5
1.1.3　数据挖掘 6
1.2　简单的例子：天气问题和其他问题 6
1.2.1　天气问题 6
1.2.2　隐形眼镜：一个理想化的问题 8
1.2.3　鸢尾花：一个经典的数值型数据集 9
1.2.4　CPU性能：引入数值预测 10
1.2.5　劳资协商：一个更真实的例子 11
1.2.6　大豆分类：一个经典的机器学习的成功例子 12
1.3　应用领域 14
1.3.1　Web挖掘 14
1.3.2　包含判断的决策 15
1.3.3　图像筛选 15
1.3.4　负载预测 16
1.3.5　诊断 17
1.3.6　市场和销售 17
1.3.7　其他应用 18
1.4　数据挖掘过程 19
1.5　机器学习和统计学 20
1.6　将泛化看作搜索 21
1.6.1　枚举概念空间 22
1.6.2　偏差 22
1.7　数据挖掘和道德问题 24
1.7.1　再识别 24
1.7.2　使用个人信息 25
1.7.3　其他问题 26
1.8　拓展阅读及参考文献 26
第2章　输入：概念、实例和属性 29
2.1　概念 29
2.2　实例 31
2.2.1　关系 31
2.2.2　其他实例类型 34
2.3　属性 35
2.4　输入准备 36
2.4.1　数据收集 37
2.4.2　ARFF格式 37
2.4.3　稀疏数据 39
2.4.4　属性类型 40
2.4.5　缺失值 41
2.4.6　不正确的值 42
2.4.7　非均衡数据 42
2.4.8　了解数据 43
2.5　拓展阅读及参考文献 43
第3章　输出：知识表达 44
3.1　表 44
3.2　线性模型 44
3.3　树 46
3.4　规则 49
3.4.1　分类规则 49
3.4.2　关联规则 52
3.4.3　包含例外的规则 53
3.4.4　表达能力更强的规则 54
3.5　基于实例的表达 56
3.6　聚类 58
3.7　拓展阅读及参考文献 59
第4章　算法：基本方法 60
4.1　推断基本规则 60
4.2　简单概率模型 63
4.2.1　缺失值和数值属性 65
4.2.2　用于文档分类的朴素贝叶斯 67
4.2.3　讨论 68
4.3　分治法：创建决策树 69
4.3.1　计算信息量 71
4.3.2　高度分支属性 73
4.4　覆盖算法：建立规则 74
4.4.1　规则与树 75
4.4.2　一个简单的覆盖算法 76
4.4.3　规则与决策列表 79
4.5　关联规则挖掘 79
4.5.1　项集 80
4.5.2　关联规则 81
4.5.3　高效地生成规则 84
4.6　线性模型 86
4.6.1　数值预测：线性回归 86
4.6.2　线性分类：logistic回归 87
4.6.3　使用感知机的线性分类 89
4.6.4　使用Winnow的线性分类 90
4.7　基于实例的学习 91
4.7.1　距离函数 92
4.7.2　高效寻找最近邻 92
4.7.3　讨论 96
4.8　聚类 96
4.8.1　基于距离的迭代聚类 97
4.8.2　更快的距离计算 98
4.8.3　选择簇的个数 99
4.8.4　层次聚类 100
4.8.5　层次聚类示例 101
4.8.6　增量聚类 102
4.8.7　分类效用 104
4.8.8　讨论 106
4.9　多实例学习 107
4.9.1　聚集输入 107
4.9.2　聚集输出 107
4.10　拓展阅读及参考文献 108
4.11　Weka实现 109
第5章　可信度：评估学习结果 111
5.1　训练和测试 111
5.2　预测性能 113
5.3　交叉验证 115
5.4　其他评估方法 116
5.4.1　留一交叉验证法 116
5.4.2　自助法 116
5.5　超参数选择 117
5.6　数据挖掘方法比较 118
5.7　预测概率 121
5.7.1　二次损失函数 121
5.7.2　信息损失函数 122
5.7.3　讨论 123
5.8　计算成本 123
5.8.1　成本敏感分类 125
5.8.2　成本敏感学习 126
5.8.3　提升图 126
5.8.4　ROC曲线 129
5.8.5　召回率–精确率曲线 130
5.8.6　讨论 131
5.8.7　成本曲线 132
5.9　评估数值预测 134
5.10　最小描述长度原理 136
5.11　将MDL原理应用于聚类 138
5.12　使用验证集进行模型选择 138
5.13　拓展阅读及参考文献 139
第二部分　高级机器学习方案
第6章　树和规则 144
6.1　决策树 144
6.1.1　数值属性 144
6.1.2　缺失值 145
6.1.3　剪枝 146
6.1.4　估计误差率 147
6.1.5　决策树归纳法的复杂度 149
6.1.6　从决策树到规则 150
6.1.7　C4.5：选择和选项 150
6.1.8　成本–复杂度剪枝 151
6.1.9　讨论 151
6.2　分类规则 152
6.2.1　选择测试的标准 152
6.2.2　缺失值和数值属性 153
6.2.3　生成好的规则 153
6.2.4　使用全局优化 155
6.2.5　从局部决策树中获得规则 157
6.2.6　包含例外的规则 158
6.2.7　讨论 160
6.3　关联规则 161
6.3.1　建立频繁模式树 161
6.3.2　寻找大项集 163
6.3.3　讨论 166
6.4　Weka 实现 167
第7章　基于实例的学习和线性模型的扩展 168
7.1　基于实例的学习 168
7.1.1　减少样本集的数量 168
7.1.2　对噪声样本集剪枝 169
7.1.3　属性加权 170
7.1.4　泛化样本集 170
7.1.5　用于泛化样本集的距离函数 171
7.1.6　泛化的距离函数 172
7.1.7　讨论 172
7.2　扩展线性模型 173
7.2.1　最大间隔超平面 173
7.2.2　非线性类边界

前言/序言

前　　言
Data Mining: Practical Machine Learning Tools and Techniques, Fourth Edition
计算和通信的结合建立了一个以信息为基础的新领域。但绝大多数信息尚处于原始状态，即以数据形式存在的状态。假如我们将数据定义为被记录下来的事实，那么“信息”就是隐藏于这些记录事实的数据中的一系列模式或预期。在数据库中蕴藏了大量具有潜在重要性的信息，这些信息尚未被发现和利用，我们的任务就是将这些信息释放出来。
数据挖掘是将隐含的、尚不为人知的同时又是潜在有用的信息从数据中提取出来。为此我们编写计算机程序，自动在数据库中筛选有用的规律或模式。如果能发现一些明显的模式，则可以将其归纳出来，以对未来的数据进行准确预测。当然，数据挖掘结果中肯定会出现一些问题，比如许多模式可能是价值不大的或者没有实际意义的，还有一些可能是虚假的，或者是由于某些具体数据集的巧合而产生的。在现实世界中，数据是不完美的：有些被人为篡改，有些会丢失。我们观察到的所有东西都不是完全精确的：任何规律都有例外，并且总会出现不符合任何一个规律的实例。算法必须具有足够的健壮性以应付不完美的数据，并能提取出不精确但有用的规律。
机器学习为数据挖掘提供了技术基础，能够将信息从数据库的原始数据中提取出来，以可以理解的形式表达，并可用于多种用途。这是一种抽象化过程：如实地全盘接收现有数据，然后在此基础上推导出所有隐藏在这些数据中的结构。本书将介绍在数据挖掘实践中为了发现和描述数据中的结构模式而采用的机器学习工具与技术。
就像所有新兴技术都会受到商界的强烈关注一样，关于数据挖掘应用的报道可谓是铺天盖地。夸张的报道宣称通过设立学习算法就能从浩瀚的数据汪洋中发现那些神秘的规律，其实机器学习绝没有什么魔法，也没有什么隐藏的力量，更没有什么巫术，有的只是一些能将有用信息从原始数据中提取出来的简单和实用的技术。本书将介绍这些技术，并展示它们是如何工作的。
在许多应用中，机器学习使得从数据样本中获取结构描述成为可能。这种结构描述可用于预测、解释和理解。有些数据挖掘应用侧重于预测，即从数据所描述的过去预测将来在新情况下会发生什么，通常是预测新的样本分类。但也许人们更感兴趣的是，“学习”的结果是一个可以用来对样本进行分类的真实结构描述。这种结构描述不仅支持预测，也支持解释和理解。根据经验，在绝大多数数据挖掘实践应用中，用户感兴趣的莫过于掌握样本的本质。事实上，这是机器学习优于传统统计模型的一个主要优点。
本书诠释了多种多样的机器学习方法。其中部分出于方便教学的目的而仅仅罗列了一些简单方案，以清楚解释基本思想如何实现。其他则更多考虑到具体实现而列举了很多应用于实际工作中的真实系统。在这些方法中，有很多都是近几年发展起来的。
我们创建了一套综合软件以说明书中的思想。软件名称是怀卡托智能分析环境（Waikato
Environment for Knowledge Analysis），简称Weka，它的Java源代码参见www.cs.waikato.ac.nz/ml/weka。Weka几乎可以完整地、产业化地实现本书中所包含的所有技术。它包括了机器学习方法的说明性代码以及具体实现。针对一些简单技术，它提供了清楚而简洁的实例，以帮助理解机器学习中的相关机理。Weka还提供了一个工作平台，完整、实用、高水准地实现了很多流行的学习方案，这些方案能够运用于实际的数据挖掘项目或学术研究。最后，它还包括了一个形如Java类库的框架，这个框架支持嵌入式机器学习的应用乃至新学习方案的实现。
本书旨在介绍用于数据挖掘领域的机器学习工具和技术。读完本书后，你将对这些技术有所了解，并能体会到它们的功效和实用价值。如果你希望用自己的数据进行实验，用Weka就能轻松做到。但Weka绝不是唯一的选择，例如，免费统计计算环境R就包含许多机器学习算法。Python编程语言的爱好者可能更喜欢流行的scikit-learn库。用于分布式计算的现代“大数据”框架也支持机器学习，如Apache Spark。在实际应用中，部署机器学习的选择有很多。本书仅讨论基本的学习算法，没有深入研究特定软件的实现细节，但会在恰当的位置指出所讨论的算法可以在Weka软件的什么位置找到。本书还简要介绍了其他机器学习软件，如用于高维数据的“深度学习”。不过，大多数具体软件的信息被归纳到了附录中。
提供数据挖掘案例研究的商业书籍中往往涉及一些非常实用的方法，这些方法与当前机器学习教材中出现的更理论化、更原则化的方法之间存在鸿沟，本书跨越了这个鸿沟。这个鸿沟相当大，为了让机器学习技术应用得到成果，需要理解它们是如何工作的。这不是一种可以盲目应用而后便期待好结果出现的技术。不同的问题需要用不同的技术解决，但是根据实际问题来选择合适的技术并非易事，你需要知道到底有多少种可能的解决方案。本书所论及的技术范围相当广泛，并不囿于某种特定的商业软件或方案。书中给出了大量实例，但是展示实例所采用的数据集却小得足以让你搞清楚实例的整个过程。真实的数据集太大，不能做到这一点（而且真实数据集的获取常受限于商业机密）。本书所选择的

洞悉数据洪流，解锁智能未来：一本关于数据分析与决策的实践指南在这个信息爆炸的时代，数据已成为驱动商业、科学乃至社会进步的核心动力。从海量原始信息中提炼有价值的见解，进行精准预测，并最终转化为明智的决策，已成为个人和组织在竞争中脱颖而出的关键。然而，面对浩如烟海的数据，我们常常感到无从下手，甚至被其淹没。本书正是为了应对这一挑战而生，它将带领读者踏上一段深入探索数据背后奥秘的旅程，掌握一系列强大的分析技术和实用工具，从而在纷繁复杂的数据世界中游刃有余，发掘潜藏的知识金矿。本书并非理论的堆砌，而是侧重于实操与应用。我们深知，理论知识若脱离实践，便如同空中楼阁，难以落地生根。因此，本书将以一种循序渐进、案例驱动的方式，引导读者理解数据分析的各个环节，并学习如何运用成熟的工具和方法论来解决实际问题。从数据准备的繁琐，到模型构建的巧妙，再到结果评估的严谨，本书将涵盖数据分析的全生命周期，确保读者能够构建一套完整的知识体系，并在工作和学习中得以灵活运用。构建坚实的数据分析基石：理解数据的本质与准备在开始任何复杂的分析之前，对数据的深刻理解是不可或缺的。本书将首先带您认识数据的类型、结构及其潜在的特性。我们将探讨数据的收集、清洗、转换和集成等关键步骤。您将学会如何识别和处理缺失值、异常值，如何进行数据标准化和归一化，如何将不同来源的数据进行有效的整合。这些基础工作看似枯燥，却是决定最终分析结果质量的命门所在。只有拥有干净、一致、高质量的数据，后续的模型构建和洞察挖掘才有意义。我们将通过丰富的实例，展示如何运用实际操作技巧，将原始、杂乱的数据转化为可供分析的精炼之材。掌握核心的洞察提取技术：探索分类、回归与聚类数据分析的核心在于从中提取有价值的洞察，而分类、回归和聚类是实现这一目标的几大基石。本书将系统地介绍这些方法的原理、优缺点以及适用场景。分类：当我们需要将数据划分到预定义的类别中时，分类技术便大显身手。本书将详细讲解如决策树、支持向量机、逻辑回归等经典分类算法。您将理解它们如何学习数据中的模式，并用于预测新的未知样本的类别。例如，我们可以利用分类技术来预测客户是否会流失，或者识别电子邮件是否为垃圾邮件。回归：当我们需要预测一个连续数值型变量时，回归分析是我们的不二之选。本书将深入探讨线性回归、多项式回归等方法，帮助您理解如何建立变量之间的关系模型，并用于预测未来的数值。例如，我们可以利用回归技术来预测房价，或者预测产品的销售额。聚类：在没有预定义类别的情况下，聚类技术能够帮助我们发现数据中隐藏的自然分组。本书将介绍K-Means、层次聚类等常用聚类算法。您将学会如何将相似的数据点聚集在一起，从而发现隐藏的模式和用户群体。例如，我们可以利用聚类技术来进行客户细分，或者发现不同类型的新闻报道。赋能智能决策：深入预测模型与关联规则在理解了基础的洞察提取技术之后，本书将进一步引导您探索更高级的分析方法，以支持更复杂的决策制定。预测模型：构建精准的预测模型是数据分析的终极目标之一。本书将介绍如何构建和评估预测模型，包括模型选择、特征工程、过拟合与欠拟合的解决等关键问题。我们将探讨如何利用历史数据来预测未来事件的发生概率，从而为战略规划提供有力的支持。关联规则挖掘：“购物篮分析”是关联规则挖掘的典型应用。本书将介绍Apriori算法等经典关联规则挖掘方法，帮助您发现数据项之间的有趣关联。例如，通过分析超市的销售数据，我们可能会发现购买面包的顾客也经常购买牛奶，从而指导商品陈列和促销策略。从理论到实践：掌握关键工具与评估方法本书不仅会讲解理论知识，更注重工具的应用和实践操作。我们将介绍在数据分析领域广泛使用的编程语言和库，并提供实用的代码示例，让您能够快速上手。您将学会如何使用这些工具来执行数据加载、预处理、模型训练和结果可视化等任务。同时，本书还将强调模型评估的重要性。任何模型都需要经过严格的评估才能证明其有效性。我们将介绍准确率、精确率、召回率、F1分数、ROC曲线等一系列评估指标，并指导您如何根据具体问题选择合适的评估方法，确保模型的鲁棒性和可靠性。超越预测：探索异常检测与文本分析除了上述核心内容，本书还将触及数据分析领域的其他重要方向，为您拓展更广阔的视野：异常检测：在数据中发现非同寻常的模式，对于欺诈检测、入侵检测和设备故障预警等场景至关重要。本书将介绍一些常用的异常检测技术，帮助您识别那些可能代表着风险或机遇的“孤例”。文本分析：随着非结构化文本数据的爆炸式增长，从中提取信息的能力变得越来越重要。本书将简要介绍文本预处理、词袋模型、主题建模等基础的文本分析技术，让您能够开始理解和处理文本数据。拥抱数据驱动的未来本书旨在成为您在数据分析领域坚实的垫脚石和得力的助手。通过学习本书的内容，您将能够：理解数据的价值，并掌握从数据中挖掘洞察的方法。熟练运用各种数据分析技术，解决实际问题。掌握常用的数据分析工具，提高工作效率。构建和评估预测模型，做出更明智的决策。为您的业务增长、学术研究或个人发展注入强大的数据动力。无论您是希望转行进入数据科学领域，还是希望提升现有工作中的数据分析能力，亦或是对数据背后的逻辑充满好奇，本书都将为您提供一套清晰、实用且富有启发性的学习路径。现在，就让我们一同开启这场激动人心的数据探索之旅，解锁智能时代的无限可能！

用户评价

评分☆☆☆☆☆

这本书对我最大的帮助在于它建立了一种思维模式。它不是那种“看完就忘”的书，而是真的能改变你看待数据和问题的角度。我之前做项目的时候，总是在各种算法之间来回切换，希望能找到一个“万能药”。读完这本书，我才明白，很多时候关键不在于用了多高深的算法，而在于如何理解数据、如何选择合适的特征、如何对模型进行合理的调整。书中关于特征工程和数据预处理的部分，讲得非常细致，并且提供了大量的实践技巧。我学会了如何从原始数据中提取有用的信息，如何处理缺失值和异常值，如何进行特征选择和降维。这些基础但至关重要的步骤，往往是决定模型成败的关键。作者的讲解深入浅出，让我能够融会贯通，并且能够灵活运用到我自己的项目中。

评分☆☆☆☆☆

这本书我断断续续啃了几个月，终于算是初步消化了。首先，这本书的出版质量相当不错，纸张厚实，印刷清晰，排版也很舒服，长时间阅读眼睛不容易疲劳。封面设计也很专业，一看就是那种学术类的书籍，非常有分量感。在拿到书的那一刻，我就觉得这是一次物有所值的投资。书中大量的图表和公式，被处理得井井有条，不会让人觉得杂乱无章。而且，很多章节都配有相应的代码示例，这对于我这种实践派的读者来说简直是福音。光是看着书上的代码，自己跟着敲一遍，就能理解很多抽象的概念。我尤其喜欢它对算法解释的细致，不仅仅是给出公式，还会从直观的角度去剖析，比如很多时候会用类比的方式来帮助理解，让我这个机器学习的初学者茅塞顿开。而且，作者的语言风格也很朴实，没有过多华丽的辞藻，直击要点，让我能快速抓住核心思想。

评分☆☆☆☆☆

我之前在读一些机器学习相关的书籍时，经常会感到信息碎片化，很多概念解释得不够系统。但这本书却让我感觉像是在经历一次结构化的训练。它从最基础的概念讲起，一步步构建起复杂的知识体系。每一章的衔接都很自然，让我能够顺畅地理解前后逻辑。我特别欣赏作者在讲解过程中，会不断地引用实际案例，并且分析这些案例的成功之处和潜在风险。这种“理论与实践相结合”的教学方式，让我在学习理论知识的同时，也能看到它们是如何在现实世界中发挥作用的。而且，书中并没有止步于介绍现有的技术，而是会鼓励读者思考未来的发展方向，这激发了我对这个领域更深的探索欲。

评分☆☆☆☆☆

对于想要深入理解数据挖掘和机器学习的读者来说，这本书绝对是“必读”级别。它不像市面上很多速成类的教程，只教你皮毛。这本书的厚度和内容深度，足以证明它是一本经得起时间考验的经典之作。我最喜欢它的一点是，它并没有把机器学习算法神化，而是用一种非常务实的态度去介绍它们。作者会明确指出每种算法的适用范围、计算复杂度以及潜在的不足之处。这让我能够对各种算法有一个客观的认识，避免盲目跟风。而且，书中提供的学习资源和参考文献，也为我进一步深入研究提供了宝贵的线索。我计划在未来还会反复翻阅这本书，我相信每次阅读都会有新的收获。

评分☆☆☆☆☆

我必须要说，这本书的某些章节简直是打开了我新世界的大门。比如关于模型评估的部分，讲得极其透彻，让我从前那些模糊的理解瞬间清晰了。作者花了很大篇幅讲解各种评估指标的原理、适用场景以及局限性，并且提供了非常实用的建议，告诉我如何在不同的问题下选择最合适的评估方法。这对于避免在实际项目中做出错误的决策至关重要。我以前总是凭感觉选指标，现在才意识到自己有多么肤浅。书中还涉及了一些比较前沿的模型，虽然我还没有完全掌握，但通过阅读，我至少对它们有了一个初步的认识，知道它们在解决什么样的问题，以及背后的基本思想是什么。这比那些只告诉你“怎么用”的书要高级太多了。而且，作者并没有回避问题的复杂性，而是诚恳地指出各种方法的优缺点，让我能够建立更全面的认知。