发表于2024-11-25
系统讲解数据挖掘机器学习工具Weka经典的开源挖掘工具、开放的Java环境初学者的入门*选、研究者的钻研利器
袁梅宇,男,工学博士,硕士导师,现在昆明理工大学计算机系任教。为本科生和研究生主讲Java程序设计、JavaEE技术、数据库原理、人工智能、DotNet技术等核心课程,参加过863CIMSNet建设、中欧合作项目DRAGON和多项国家基金和省基金项目,第*作者公开发表论文十余篇,软件著作权(颁证)六项。
第1章 Weka介绍 1
1.1 Weka简介 2
1.1.1 Weka历史 3
1.1.2 Weka功能简介 3
1.2 基本概念 5
1.2.1 数据挖掘和机器学习 5
1.2.2 数据和数据集 5
1.2.3 ARFF格式 6
1.2.4 预处理 7
1.2.5 分类与回归 10
1.2.6 聚类分析 12
1.2.7 关联分析 12
1.3 Weka系统安装 13
1.3.1 系统要求 13
1.3.2 安装过程 14
1.3.3 Weka使用初步 16
1.3.4 系统运行注意事项 18
1.4 访问数据库 24
1.4.1 配置文件 25
1.4.2 数据库设置 26
1.4.3 常见问题及解决办法 27
1.5 示例数据集 28
1.5.1 天气问题 29
1.5.2 鸢尾花 30
1.5.3 CPU 31
1.5.4 玻璃数据集 32
1.5.5 美国国会投票记录 33
1.5.6 乳腺癌数据集 33
课后强化练习 34
第2章 探索者界面 35
2.1 图形用户界面 36
2.1.1 标签页简介 36
2.1.2 状态栏 37
2.1.3 图像输出 37
2.1.4 手把手教你用 37
2.2 预处理 40
2.2.1 加载数据 40
2.2.2 属性处理 43
2.2.3 过滤器 44
2.2.4 过滤器算法介绍 46
2.2.5 手把手教你用 52
2.3 分类 59
2.3.1 分类器选择 59
2.3.2 分类器训练 61
2.3.3 分类器输出 62
2.3.4 分类算法介绍 65
2.3.5 分类模型评估 79
2.3.6 手把手教你用 81
2.4 聚类 98
2.4.1 Cluster标签页的操作 98
2.4.2 聚类算法介绍 99
2.4.3 手把手教你用 101
2.5 关联 107
2.5.1 Associate标签页的操作 107
2.5.2 关联算法介绍 108
2.5.3 手把手教你用 111
2.6 选择属性 117
2.6.1 Select attributes标签页的
操作 118
2.6.2 选择属性算法介绍 119
2.6.3 手把手教你用 120
2.7 可视化 128
2.7.1 Visualize标签页 128
2.7.2 边界可视化工具 131
2.7.3 代价/收益分析可视化 133
2.7.4 手把手教你用 134
课后强化练习 140
第3章 知识流界面 143
3.1 知识流介绍 144
3.1.1 知识流特性 144
3.1.2 知识流界面布局 145
3.2 知识流组件 148
3.2.1 数据源 148
3.2.2 数据接收器 151
3.2.3 评估器 155
3.2.4 可视化器 156
3.2.5 其他工具 158
3.3 使用知识流组件 160
3.4 手把手教你用 162
课后强化练习 181
第4章 实验者界面 183
4.1 简介 184
4.2 标准实验 185
4.2.1 简单实验 185
4.2.2 高级实验 190
4.2.3 手把手教你用 198
4.3 远程实验 210
4.3.1 远程实验设置 210
4.3.2 手把手教你用 213
4.4 分析结果 221
4.4.1 获取实验结果 221
4.4.2 动作 221
4.4.3 配置测试 222
4.4.4 保存结果 225
4.4.5 手把手教你用 225
课后强化练习 229
第5章 命令行界面 231
5.1 命令行界面介绍 232
5.1.1 命令调用 233
5.1.2 命令自动完成 234
5.2 Weka结构 235
5.2.1 类实例和包 235
5.2.2 weka.core包 236
5.2.3 weka.classifiers包 237
5.2.4 其他包 238
5.3 命令行选项 238
5.3.1 常规选项 239
5.3.2 特定选项 241
5.4 过滤器和分类器选项 242
5.4.1 过滤器选项 242
5.4.2 分类器选项 245
5.4.3 手把手教你用 247
5.5 包管理器 252
5.5.1 命令行包管理器 252
5.5.2 运行安装的算法 254
课后强化练习 255
第6章 Weka高级应用 257
6.1 贝叶斯网络 258
6.1.1 简介 258
6.1.2 贝叶斯网络编辑器 261
6.1.3 在探索者界面中使用贝叶斯
网络 269
6.1.4 结构学习 270
6.1.5 分布学习 272
6.1.6 查看贝叶斯网络 273
6.1.7 手把手教你用 276
6.2 神经网络 286
6.2.1 GUI使用 286
6.2.2 手把手教你用 289
6.3 文本分类 293
6.3.1 文本分类示例 294
6.3.2 分类真实文本 298
6.3.3 手把手教你用 300
6.4 时间序列分析及预测 306
6.4.1 使用时间序列环境 306
6.4.2 手把手教你用 318
课后强化练习 326
第7章 Weka API 327
7.1 加载数据 328
7.1.1 从文件加载数据 328
7.1.2 从数据库加载数据 329
7.1.3 手把手教你用 330
7.2 保存数据 335
7.2.1 保存数据至文件 335
7.2.2 保存数据至数据库 335
7.2.3 手把手教你用 336
7.3 处理选项 339
7.3.1 选项处理方法 339
7.3.2 手把手教你用 340
7.4 内存数据集处理 341
7.4.1 在内存中创建数据集 341
7.4.2 打乱数据顺序 345
7.4.3 手把手教你用 345
7.5 过滤 349
7.5.1 批量过滤 350
7.5.2 即时过滤 351
7.5.3 手把手教你用 351
7.6 分类 355
7.6.1 分类器构建 355
7.6.2 分类器评估 356
7.6.3 实例分类 358
7.6.4 手把手教你用 359
7.7 聚类 370
7.7.1 聚类器构建 370
7.7.2 聚类器评估 371
7.7.3 实例聚类 373
7.7.4 手把手教你用 373
7.8 属性选择 379
7.8.1 使用元分类器 380
7.8.2 使用过滤器 380
7.8.3 使用底层API 381
7.8.4 手把手教你用 381
7.9 可视化 384
7.9.1 ROC曲线 385
7.9.2 图 385
7.9.3 手把手教你用 386
7.10 序列化 391
7.10.1 序列化基本方法 391
7.10.2 手把手教你用 392
7.11 文本分类综合示例 395
7.11.1 程序运行准备 395
7.11.2 源程序分析 396
7.11.3 运行说明 403
课后强化练习 404
第8章 学习方案源代码分析 405
8.1 NaiveBayes源代码分析 406
8.2 实现分类器的约定 427
课后强化练习 429
第9章 机器学习实战 431
9.1 数据挖掘过程概述 432
9.1.1 CRISP-DM过程 432
9.1.2 数据预处理 433
9.1.3 挖掘项目及工具概述 434
9.2 实战KDD Cup 1999 434
9.2.1 任务描述 435
9.2.2 数据集描述 436
9.2.3 挖掘详细过程 438
9.3 实战KDD Cup 2010 447
9.3.1 任务描述 447
9.3.2 数据集描述 447
9.3.3 挖掘详细过程 450
9.3.4 更接近实际的挖掘过程 459
课后强化练习 471
附录A 中英文术语对照 472
附录B Weka算法介绍 476
过滤器算法介绍 476
分类算法介绍 498
聚类算法介绍 526
关联算法介绍 530
选择属性算法介绍 532
参考文献 537
第2章 探索者界面
探索者(Explorer)界面是Weka的主要图形用户界面,其全部功能都可通过菜单选择或表单填写进行访问。本章介绍探索者的图形用户界面、预处理、分类、聚类、关联、选择属性和可视化等内容,内容非常丰富,学习这些知识可以全面了解Weka的功能,快速上手实际的挖掘任务。
2.1 图形用户界面
启动Weka GUI 选择器窗口之后,单击Explorer按钮,即可启动探索者界面。这时,由于没有加载数据集,除Preprocess标签页外,其他标签页都变灰而不可用。可以使用Open file、Open URL、Open DB或者Generate按钮加载或产生数据集,加载数据集之后,其他标签页才可以使用。
这里以打开文件为例进行说明。单击Open file按钮,通过弹出的“打开”对话框,选择打开data子目录下的iris.arff文件,加载数据集后的探索者界面如图2.1所示。
图2.1 探索者界面
下面按照先整体后局部的顺序介绍图形用户界面。
2.1.1 标签页简介
图2.1所示界面的顶部有六个不同的标签页,分别对应Weka所支持的多种数据挖掘方式。
这六个标签页的介绍如下。
(1) Preprocess(预处理):选择数据集,并以不同方式对其进行修改。
(2) Classify(分类):训练用于分类或回归的学习方案,并对其进行评估。
(3) Cluster(聚类):学习数据集聚类方案。
(4) Associate(关联):学习数据关联规则,并对其进行评估。
(5) Select attributes(选择属性):选择数据集中预测效果最好的部分属性。
(6) Visualize(可视化):查看不同的二维数据散点图,并与其进行互动。
每个标签页都可完成不同工作,单击相应的标签即可实现标签页的切换。
界面底部包括Status(状态)栏、Log(日志)按钮和一只Weka鸟,这些都一直保持可见,不论用户切换到哪一个标签页。
2.1.2 状态栏
状态栏位于界面最下部,可以让用户了解到现在进行到哪一步。例如,如果Weka探索者正在忙于加载数据文件,状态栏中会显示相应的状态信息。
除了显示状态之外,还可以右击鼠标来显示内存信息,以及运行垃圾回收器以清理内存。在状态栏的任意位置右击,弹出的快捷菜单中只包括两个菜单项:Memory information(内存信息)和Run garbage collector(运行垃圾回收器)。第一个菜单项用于显示Weka当前可用的内存空间;第二个菜单项用于启动Java垃圾回收器,搜寻不再使用的内存并释放,以回收部分内存空间,提供给新的任务使用。需要指出的是,垃圾回收器是一个不间断运行的后台任务,如果不强制进行垃圾回收,Java虚拟机也会在适当时候自动启动垃圾回收器。
Log按钮位于状态栏的右面,单击该按钮会打开可以滚动的日志窗口,显示在此次运行期间内Weka 进行的全部活动以及每项活动的时间戳。不管是使用GUI、命令行还是Simple CLI,日志都会包含分类、聚类、属性选择等操作的完整的设置字符串,用户可以进行复制和粘贴操作。顺便提醒读者,通过学习日志里记录的命令,可以深层次地了解Weka的内部运行机制。
在Log按钮的右边,可以看到被称为Weka状态图标的鸟。如果没有处理过程在运行,小鸟会坐下来打个盹。“?”符号旁边的数字显示目前有多少个正在进行处理的进程,当系统空闲时,该数字为零,数字会随着正在进行处理进程数的增加而增加。当启动处理进程时,小鸟会站起来不停走动。如果小鸟长时间站着不动,说明Weka出现运行错误,此时用户需要关闭并重新启动探索者界面。
2.1.3 图像输出
Weka中显示的大部分图形,包括本章的探索者界面和后面章节的知识流界面、实验者界面显示的图形,以及通过Weka GUI选择器菜单带出的GraphVisualizer(图可视化工具)或TreeVisualizer(树可视化工具)显示的图形,都可以保存为图像文件以备将来使用。保存方法是,在按住Alt键和Shift键的同时,在要保存的图形上单击,启动保存文件对话框。Weka支持的图像文件格式有BMP、JPEG、PNG和Postscript的EPS,用户可以选择图像文件格式,还可以修改输出图像文件的尺寸。
2.1.4 手把手教你用
1. 启动Weka
双击桌面上的Weka 3.7快捷方式,启动Weka GUI选择器窗口,如图2.2所示。
单击Explorer按钮启动探索者界面,如图2.3所示。现在,除Preprocess标签页可用外,其余标签页都不可用。
图2.2 Weka GUI选择器窗口
图2.3 探索者界面
2. 了解标签页
单击图2.3所示界面中的Open file按钮,弹出“打开”对话框,导航至Weka安装目录下的data子目录,选择iris.arff文件,如图2.4所示。单击“打开”按钮,打开该文件。
图2.4 “打开”对话框
打开文件(或称为加载数据)后的探索者界面如图2.5所示。可以看到,加载数据后,六个标签页都变为可用状态。
图2.5 打开文件后的探索者界面
读者可以自行切换标签页,初步了解各标签页的功能,为后续学习打下基础。
3. 了解状态栏
不论切换到哪个标签页,都可在探索者界面下部的状态栏中查看状态信息。在状态栏任意位置右击,在弹出的快捷菜单中选择Memory information菜单项,状态栏显示用斜杠分割的内存信息,格式为:空闲内存/全部内存/最大内存,单位是字节,如图2.6所示。
图2.6 内存信息
如果在快捷菜单中选择Run garbage collector菜单项,状态栏中会显示OK信息,表示已经启动了垃圾回收器,如图2.7所示。
图2.7 运行垃圾回收器
单击状态栏右边的Log按钮,可以查看当前日志,如图2.8所示。
图2.8 日志窗口
4. 保存图像文件
单击图2.5所示界面右边的Visualize All(全部可视化)按钮,打开如图2.9所示的全部可视化窗口。
图2.9 全部可视化窗口
同时按住Alt键和Shift键,并在图2.9所示的五幅图标中任选一图标,在图标的任意位置单击,启动Save as对话框。设置“文件名”为test,选择“文件类型”为jpg(或其他格式),单击“保存”按钮,就可将其保存为图像文件,如图2.10所示。
图2.10 Save as对话框
在图2.10的右边,还可以定制图像文件的长、宽尺寸,单位为像素。选中Use custom dimensions(使用自定义尺寸)复选框,就可以设置图像尺寸。如果选中Keep aspect ratio(保持宽高比)复选框,则在修改图像长(或宽)的同时,会按比例自动缩放宽(或长)。
2.2 预 处 理
Preprocess标签页可用于从文件、URL或数据库中加载数据集,并且根据应用要求或领域知识过滤掉不需要进行处理或不符合要求的数据。
2.2.1 加载数据
Preprocess标签页中顶部的前四个按钮可以让用户将数据加载到Weka系统。Open file按钮用于启动“打开”对话框,用户可以浏览本地文件系统,打开本地数据文件。Open URL按钮要求用户提供一个URL地址,Weka使用HTTP协议从网络位置下载数据文件。Open DB按钮用于从数据库中读取数据,支持所有能够用JDBC驱动程序读取的数据库,使用SQL语句或存储过程读取数据表。注意,必须根据自己的计算机环境配置,相应修改wekaexperimentDatabaseUtils.props配置文件后才能访问数据库,具体参见1.4节内容。Generate按钮用于让用户使用不同的DataGenerators(数据生成器)生成人工数据,适用于分类功能的人工数据可以由决策列表RDG1、径向基函数网络RandomRBF、贝叶斯网络BayesNet、LED24等算法产生,人工回归数据也可以根据数学表达式生成,用于聚类的人工数据可以使用现成的生成算法产生。
使用Open file按钮,可以读取多种数据格式的文件,包括Weka ARFF格式、C4.5数据格式、CSV格式、JSON实例文件 数据挖掘与机器学习 WEKA应用技术与实践(第二版) 下载 mobi epub pdf txt 电子书 格式
数据挖掘与机器学习 WEKA应用技术与实践(第二版) 下载 mobi pdf epub txt 电子书 格式 2024
数据挖掘与机器学习 WEKA应用技术与实践(第二版) 下载 mobi epub pdf 电子书很厚一本,蛮详细的,蛮详细的
评分评分
评分
很厚的书,很不错,内容很详细,值得学习
评分刚到,没来得及看。送货速度确实很快。
评分很实用,一步步学习如何实战数据挖掘。
评分不错
评分书还不错,内容挺充实的
评分包装好,希望有用
数据挖掘与机器学习 WEKA应用技术与实践(第二版) mobi epub pdf txt 电子书 格式下载 2024