发表于2024-11-21
weka系统的主要开发者将丰富的研发、商业应用和教学实践的经验和技术融会贯通。
广泛覆盖在数据挖掘实践中采用的算法和机器学习技术,着眼于解决实际问题
避免过分要求理论基础和数学知识,重点在于告诉读者“如何去做”,同时包括许多算法、代码以及具体实例的实现。
将所有的概念都建立在具体实例的基础之上,促使读者首先考虑使用简单的技术。如果简单的技术不足以解决问题,再考虑提升到更为复杂的高级技术。
新版增加了大量近年来涌现的数据挖掘算法和诸如Web数据挖掘等新领域的介绍,所介绍的weka系统增加了50%的算法及大量新内容。
《数据挖掘:实用机器学习工具与技术(原书第3版)》是机器学习和数据挖掘领域的经典畅销教材,被众多国外名校选为教材。书中详细介绍用于数据挖掘领域的机器学习技术和工具以及实践方法,并且提供了一个公开的数据挖掘工作平台Weka。本书主要内容包括:数据输入/输出、知识表示、数据挖掘技术(决策树、关联规则、基于实例的学习、线性模型、聚类、多实例学习等)以及在实践中的运用。本版对上一版内容进行了全面更新,以反映自第2版出版以来数据挖掘领域的技术变革和新方法,包括数据转换、集成学习、大规模数据集、多实例学习等,以及新版的Weka机器学习软件。
Ian H.Witten,新西兰怀卡托大学计算机科学系教授,ACM Fellow和新西兰皇家学会Fellow,曾荣获2004年国际信息处理研究协会(IFIP)颁发的Namur奖项。他的研究兴趣包括语言学习、信息检索和机器学习。
Eibe Frank,新西兰怀卡托大学计算机科学系副教授,《Machine Learning Journal》和《Journal of Artificial Intelligence Research》编委。
Mark A.Hall,新西兰怀卡托大学名誉副研究员,曾获得2005年ACM SIGKDD服务奖。
译者简介:
李川,博士,副教授,四川大学计算机学院数据库知识工程研究所副所长,中国计算机学会数据库专委会委员。主持国家自然科学基金青年基金等项目多项,合作发表论文30余篇,获四川省科技成果二等奖1项。
★“本书既含理论又有实践应用,并且关注实践是本书的一大特色。对于从事数据挖掘和机器学习方面工作的每位读者,我强烈推荐本书!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
★“本书在数据挖掘技术领域备受推崇,是数据挖掘分析师的必读之物!”
——Herb Edelstein Two Crows Consulting公司首席数据挖掘咨询顾问
★“这是我zui喜爱的数据挖掘书籍之一,书中不仅循序渐进地介绍了各种算法,还辅以丰富实例,详细阐述了如何应用这些算法解决实际数据挖掘问题。本书不但有益于学习使用Weka软件,而且还会帮助你了解各类机器学习算法。”
——Tom Breur XLNT Consulting公司首席咨询顾问
★“本书既含理论又有实践应用,并且关注实践是本书的一大特色。对于从事数据挖掘和机器学习方面工作的每位读者,我强烈推荐本书!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
★“这是我zui喜爱的数据挖掘书籍之一,书中不仅循序渐进地介绍了各种算法,还辅以丰富实例,详细阐述了如何应用这些算法解决实际数据挖掘问题。本书不但有益于学习使用Weka软件,而且还会帮助你了解各类机器学习算法。”
——Tom Breur XLNT Consulting公司首席咨询顾问
★“假如你需要对数据进行分析和理解,本书以及相关的Weka工具包是一个不错的起步。
本书以非常容易理解的方式展示了这门新的学科:既是用来训练新一代实际工作者和研究者的教科书,同时又能让像我这样的专业人员受益。Witten、Frank和Hall热衷于简单而优美的解决方案。他们对每个主题都采用这样的方法,用具体的实例来讲解所有的概念,促使读者首先考虑简单的技术,当简单的技术不足以解决问题时,就提升到更为复杂的高级技术。”
——Jim Gray(图灵奖获得者)
★“本书既含理论又有实践应用,并且关注实践是本书的一大特色。对于从事数据挖掘和机器学习方面工作的每位读者,我强烈推荐本书!”
——Dorian Pyle 《Data Preparation for Data Mining》和《Business Modeling for Data Mining》的作者
Data Mining:Practical Machine Learning Tools and Techniques,Third Edition
出版者的话
译者序
前言
致谢
第一部分 数据挖掘简介
第1章 绪论2
1.1 数据挖掘和机器学习2
1.1.1 描述结构模式3
1.1.2 机器学习5
1.1.3 数据挖掘6
1.2 简单的例子:天气问题和其他问题6
1.2.1 天气问题7
1.2.2 隐形眼镜:一个理想化的问题8
1.2.3 鸢尾花:一个经典的数值型数据集10
1.2.4 CPU性能:介绍数值预测11
1.2.5 劳资协商:一个更真实的例子11
1.2.6 大豆分类:一个经典的机器学习的成功例子13
1.3 应用领域14
1.3.1 Web挖掘15
1.3.2 包含评判的决策15
1.3.3 图像筛选16
1.3.4 负载预测17
1.3.5 诊断17
1.3.6 市场和销售18
1.3.7 其他应用19
1.4 机器学习和统计学20
1.5 将泛化看做搜索21
1.5.1 枚举概念空间22
1.5.2 偏差22
1.6 数据挖掘和道德24
1.6.1 再识别25
1.6.2 使用个人信息25
1.6.3 其他问题26
1.7 补充读物27
第2章 输入:概念、实例和属性29
2.1 概念29
2.2 样本31
2.2.1 关系32
2.2.2 其他实例类型34
2.3 属性35
2.4 输入准备37
2.4.1 数据收集37
2.4.2 ARFF格式38
2.4.3 稀疏数据40
2.4.4 属性类型40
2.4.5 缺失值41
2.4.6 不正确的值42
2.4.7 了解数据43
2.5 补充读物43
第3章 输出:知识表达44
3.1 表44
3.2 线性模型44
3.3 树45
3.4 规则48
3.4.1 分类规则49
3.4.2 关联规则52
3.4.3 包含例外的规则52
3.4.4 表达能力更强的规则54
3.5 基于实例的表达56
3.6 聚类58
3.7 补充读物60
第4章 算法:基本方法61
4.1 推断基本规则61
4.1.1 缺失值和数值属性62
4.1.2 讨论64
4.2 统计建模64
4.2.1 缺失值和数值属性67
4.2.2 用于文档分类的朴素贝叶斯68
4.2.3 讨论70
4.3 分治法:建立决策树70
4.3.1 计算信息量73
4.3.2 高度分支属性74
4.3.3 讨论75
4.4 覆盖算法:建立规则76
4.4.1 规则与树77
4.4.2 一个简单的覆盖算法77
4.4.3 规则与决策列表80
4.5 挖掘关联规则81
4.5.1 项集81
4.5.2 关联规则83
4.5.3 有效地生成规则85
4.5.4 讨论87
4.6 线性模型87
4.6.1 数值预测:线性回归87
4.6.2 线性分类:Logistic回归88
4.6.3 使用感知机的线性分类90
4.6.4 使用Winnow的线性分类91
4.7 基于实例的学习92
4.7.1 距离函数93
4.7.2 有效寻找最近邻93
4.7.3 讨论97
4.8 聚类97
4.8.1 基于距离的迭代聚类98
4.8.2 快速距离计算99
4.8.3 讨论100
4.9 多实例学习100
4.9.1 聚集输入100
4.9.2 聚集输出100
4.9.3 讨论101
4.10 补充读物101
4.11 Weka实现103
第5章 可信度:评估学习结果104
5.1 训练和测试104
5.2 预测性能106
5.3 交叉验证108
5.4 其他评估方法109
5.4.1 留一交叉验证109
5.4.2 自助法109
5.5 数据挖掘方法比较110
5.6 预测概率113
5.6.1 二次损失函数114
5.6.2 信息损失函数115
5.6.3 讨论115
5.7 计算成本116
5.7.1 成本敏感分类117
5.7.2 成本敏感学习118
5.7.3 提升图119
5.7.4 ROC曲线122
5.7.5 召回率-精确率曲线124
5.7.6 讨论124
5.7.7 成本曲线125
5.8 评估数值预测127
5.9 最小描述长度原理129
5.10 在聚类方法中应用MDL原理131
5.11 补充读物132
第二部分 高级数据挖掘
第6章 实现:真正的机器学习方案134
6.1 决策树135
6.1.1 数值属性135
6.1.2 缺失值136
6.1.3 剪枝137
6.1.4 估计误差率138
6.1.5 决策树归纳的复杂度140
6.1.6 从决策树到规则140
6.1.7 C4.5:选择和选项141
6.1.8 成本-复杂度剪枝141
6.1.9 讨论142
6.2 分类规则142
6.2.1 选择测试的标准143
6.2.2 缺失值和数值属性143
6.2.3 生成好的规则144
6.2.4 使用全局优化146
6.2.5 从局部决策树中获得规则146
6.2.6 包含例外的规则149
6.2.7 讨论151
6.3 关联规则152
6.3.1 建立频繁模式树152
6.3.2 寻找大项集157
6.3.3 讨论157
6.4 扩展线性模型158
6.4.1 最大间隔超平面159
6.4.2 非线性类边界160
6.4.3 支持向量回归161
6.4.4 核岭回归163
6.4.5 核感知机164
6.4.6 多层感知机165
6.4.7 径向基函数网络171
6.4.8 随机梯度下降172
6.4.9 讨论173
6.5 基于实例的学习174
6.5.1 减少样本集的数量174
6.5.2 对噪声样本集剪枝174
6.5.3 属性加权175
6.5.4 泛化样本集176
6.5.5 用于泛化样本集的距离函数176
6.5.6 泛化的距离函数177
6.5.7 讨论178
6.6 局部线性模型用于数值预测178
6.6.1 模型树179
6.6.2 构建树179
6.6.3 对树剪枝180
6.6.4 名目属性180
6.6.5 缺失值181
6.6.6 模型树归纳的伪代码181
6.6.7 从模型树到规则184
6.6.8 局部加权线性回归184
6.6.9 讨论185
6.7 贝叶斯网络186
6.7.1 预测186
6.7.2 学习贝叶斯网络189
6.7.3 算法细节190
6.7.4 用于快速学习的数据结构192
6.7.5 讨论194
6.8 聚类194
6.8.1 选择聚类的个数195
6.8.2 层次聚类195
6.8.3 层次聚类的例子196
6.8.4 增量聚类199
6.8.5 分类效用203
6.8.6 基于概率的聚类204
6.8.7 EM算法205
6.8.8 扩展混合模型206
6.8.9 贝叶斯聚类207
6.8.10 讨论209
6.9 半监督学习210
6.9.1 用于分类的聚类210
6.9.2 协同训练212
6.9.3 EM和协同训练212
6.9.4 讨论213
6.10 多实例学习213
6.10.1 转换为单实例学习213
6.10.2 升级学习算法215
6.10.3 专用多实例方法215
6.10.4 讨论216
6.11 Weka实现216
第7章 数据转换218
7.1 属性选择219
7.1.1 独立于方案的选择220
7.1.2 搜索属性空间222
7.1.3 具体方案相关的选择223
7.2 离散化数值属性225
7.2.1 无监督离散化226
7.2.2 基于熵的离散化226
7.2.3 其他离散化方法229
7.2.4 基于熵的离散化与基于误差的离散化229
7.2.5 离散属性转换成数值属性230
7.3 投影230
7.3.1 主成分分析231
7.3.2 随机投影233
7.3.3 偏最小二乘回归233
7.3.4 从文本到属性向量235
7.3.5 时间序列236
7.4 抽样236
7.5 数据清洗237
7.5.1 改进决策树237
7.5.2 稳健回归238
7.5.3 检测异常239
7.5.4 一分类学习239
7.6 多分类问题转换成二分类问题242
7.6.1 简单方法242
7.6.2 误差校正输出编码243
7.6.3 集成嵌套二分法244
7.7 校准类概率246
7.8 补充读物247
7.9 Weka实现249
第8章 集成学习250
8.1 组合多种模型250
8.2 装袋251
8.2.1 偏差-方差分解251
8.2.2 考虑成本的装袋253
8.3 随机化253
8.3.1 随机化与装袋254
8.3.2 旋转森林254
8.4 提升255
8.4.1 AdaBoost算法255
8.4.2 提升算法的威力257
8.5 累加回归258
8.5.1 数值预测258
8.5.2 累加Logistic回归259
8.6 可解释的集成器260
8.6.1 选择树260
8.6.2 Logistic模型树262
8.7 堆栈262
8.8 补充读物264
8.9 Weka实现265
第9章 继续:扩展和应用266
9.1 应用数据挖掘266
9.2 从大型的数据集里学习268
9.3 数据流学习270
9.4 融合领域知识272
9.5 文本挖掘273
9.6 Web挖掘276
9.7 对抗情形278
9.8 无处不在的数据挖掘280
9.9 补充读物281
第三部分 Weka数据挖掘平台
第10章 Weka简介284
10.1 Weka中包含了什么284
10.2 如何使用Weka285
10.3 Weka的其他应用286
10.4 如何得到Weka286
……
第11章 Explorer界面287
第12章 Knowledge Flow界面351
第13章 Experimenter界面358
第14章 命令行界面368
第15章 嵌入式机器学习376
第16章 编写新的学习方案382
第17章 Weka Explorer的辅导练习397
参考文献416
索引431
第一部分 数据挖掘简介
第1章 绪论
人工受精的过程是从妇女的卵巢中收集卵子,再与丈夫或捐赠人的精液结合后产生胚胎,然后从中选择几个胚胎移植到妇女的子宫里。关键是要选出那些存活可能性最大的胚胎。选择根据60个左右的胚胎特征记录做出,这些特征包括它们的形态、卵母细胞、滤泡和精液样品。特征属性的数量非常大,胚胎学家很难同时对所有属性进行评估,并结合历史数据得出最终结论:这个胚胎是否能够产生一个活的婴儿。在英格兰的一个研究项目中,研究者探索运用机器学习技术,使用历史记录和它们的输出作为训练数据。
每年,新西兰奶牛场主都要面临艰难的商业决策:哪些牛应该留在牧场,哪些牛需要卖到屠宰场。随着饲料储备的减少,每年牧场在接近挤奶季节末期时只留下1/5的奶牛。每头牛的生育和牛奶产量的历史数据都会影响这个决定。除此以外还要考虑的因素有:年龄(每头牛都将在8岁后接近生育期的终结)、健康问题、难产的历史数据、不良的性情特征(如尥蹶子、跳栅栏)、在下一个季节里不产牛犊。在过去的几年中,几百万头牛中的每一头牛都用700多个属性记录下来。机器学习正是用来考察成功的农场主在做决定的时候需要考虑哪些因素,不是为了使决策自动化,而是向其他人推广这些农场主的技术和经验。
机器学习是从数据中挖掘知识。它是一个正在萌芽的新技术,范围涉及生与死、从欧洲到两极、家庭和事业,正逐渐引起人们的重视。
1.1 数据挖掘和机器学习
我们正在被数据所淹没。存在于这个世界和我们生活中的数据总量似乎在不断地增长,而且没有停止的迹象。个人计算机的普及将那些以前会丢弃的数据保存起来。便宜的硬盘和网络硬盘,3使得很容易以后再决定用这些数据做什么,因为我们可以买更多的硬盘来保存数据。无处不在的电子器件记录了我们的决策,如超市里的商品选择、个人的理财习惯,以及收入和消费。我们以自己的方式生活在这个世界上,而每一个行为又成为一条数据库里的记录保存下来。如今互联网用信息将我们淹没,我们在网上所做的每一个选择都被记录下来。所有的这些信息记录了个人的选择,而在商业和企业领域存在着数不清的相似案例。我们都知道我们对数据的掌握永远无法赶上数据升级的速度。而且在数据量增加的同时,无情地伴随着人们对它理解的降低。隐藏在这些数据后的是信息,具有潜在用处的信息,而这些信息却很少被显现出来或者被开发利用。
本书介绍如何在数据中寻找模式。这并不稀奇,人们从一开始,就试图在数据中寻找模式。猎人在动物迁徙的行为中寻找模式;农夫在庄稼的生长中寻找模式;政客在选民的意见上寻找模式;恋人在对方的反应中寻找模式。科学家的工作(像一个婴儿)是理解数据,从数据中找出模式,并用它们来指导在真实世界中如何运作,然后把它们概括成理论,这些理论能够预测出在新的情况下会发生什么。企业家的工作是要辨别出机会,就是那些可以转变成有利可图的生意的行为中的一些模式,并且
数据挖掘:实用机器学习工具与技术(原书第3版) 下载 mobi epub pdf txt 电子书 格式
数据挖掘:实用机器学习工具与技术(原书第3版) 下载 mobi pdf epub txt 电子书 格式 2024
数据挖掘:实用机器学习工具与技术(原书第3版) 下载 mobi epub pdf 电子书不错的书,希望充实自己
评分东西不错 ,物美价廉,,,很好
评分纸太薄了反面都看得到,眼晕不爽,内容还没看
评分挺不错的书,买回来慢慢看!慢慢学习,书的质量很好!值得推荐!
评分正在研究中,希望有收获,能为我创造价值
评分非常好,很专业
评分不错
评分质量很差,纸张很薄,味道很重,印刷也差
评分很赞的学习指南,理论与操作并重的一本书
数据挖掘:实用机器学习工具与技术(原书第3版) mobi epub pdf txt 电子书 格式下载 2024