内容简介
本书为数据挖掘入门级教材,共分8章,主要内容分为三个专题:技术、数据和评估。技术专题包括决策树技术、K-means算法、关联分析技术、神经网络技术、回归分析技术、贝叶斯分析、凝聚聚类、概念分层聚类、混合模型聚类技术的EM算法、时间序列分析和基于Web的数据挖掘等常用的机器学习方法和统计技术。数据专题包括数据库中的知识发现处理模型和数据仓库及OLAP技术。评估专题包括利用检验集分类正确率和混淆矩阵,并结合检验集置信区间评估有指导学习模型,使用无指导聚类技术评估有指导模型,利用Lift和假设检验比较两个有指导学习模型,使用MS Excel 2010和经典的假设检验模型评估属性,使用簇质量度量方法和有指导学习技术评估无指导聚类模型。
本书秉承教材风格,强调广度讲解。注重成熟模型和开源工具的使用,以提高学习者的应用能力为目标;注重结合实例和实验,加强基本概念和原理的理解和运用;注重实例的趣味性和生活性,提高学习者学习的积极性。使用章后练习、计算和实验作业巩固和检验所学内容;使用词汇表附录,解释和规范数据挖掘学科专业术语;使用适合教学的简单易用开源的Weka和通用的MS Excel软件工具实施数据挖掘验证和体验数据挖掘的精妙。
本书可作为普通高等院校计算机科学、信息科学、数学和统计学专业的入门教材,也可作为如经济学、管理学、档案学等对数据管理、数据分析与数据挖掘有教学需求的其他相关专业的基础教材。同时,对数据挖掘技术和方法感兴趣,致力于相关方面的研究和应用的其他读者,也可以从本书中获取基本的指导和体验。
本书配有教学幻灯片、大部分章后习题和实验的参考答案以及课程大纲。
目录
第1章 认识数据挖掘 1
1.1 数据挖掘的定义 1
1.2 机器学习 2
1.2.1 概念学习 2
1.2.2 归纳学习 3
1.2.3 有指导的学习 4
1.2.4 无指导的聚类 7
1.3 数据查询 8
1.4 专家系统 8
1.5 数据挖掘的过程 9
1.5.1 准备数据 10
1.5.2 挖掘数据 10
1.5.3 解释和评估数据 10
1.5.4 模型应用 11
1.6 数据挖掘的作用 11
1.6.1 分类 11
1.6.2 估计 12
1.6.3 预测 12
1.6.4 无指导聚类 12
1.6.5 关联关系分析 13
1.7 数据挖掘技术 13
1.7.1 神经网络 14
1.7.2 回归分析 14
1.7.3 关联分析 15
1.7.4 聚类技术 16
1.8 数据挖掘的应用 16
1.8.1 应用领域 16
1.8.2 成功案例 18
1.9 Weka数据挖掘软件 19
1.9.1 Weka简介 19
1.9.2 使用Weka建立决策树模型 22
1.9.3 使用Weka进行聚类 25
1.9.4 使用Weka进行关联分析 26
本章小结 27
习题 28
第2章 基本数据挖掘技术 30
2.1 决策树 30
2.1.1 决策树算法的一般过程 31
2.1.2 决策树算法的关键技术 32
2.1.3 决策树规则 40
2.1.4 其他决策树算法 41
2.1.5 决策树小结 41
2.2 关联规则 42
2.2.1 关联规则概述 42
2.2.2 关联分析 43
2.2.3 关联规则小结 46
2.3 聚类分析技术 47
2.3.1 K-means算法 48
2.3.2 K-means算法小结 51
2.4 数据挖掘技术的选择 51
本章小结 52
习题 53
第3章 数据库中的知识发现 55
3.1 知识发现的基本过程 55
3.1.1 KDD过程模型 55
3.1.2 知识发现软件 57
3.1.3 KDD过程的参与者 58
3.2 KDD过程模型的应用 58
3.2.1 步骤1:商业理解 58
3.2.2 步骤2:数据理解 59
3.2.3 步骤3:数据准备 60
3.2.4 步骤4:建模 65
3.2.5 评估 66
3.2.6 部署和采取行动 66
3.3 实验:KDD案例 66
本章小结 72
习题 73
第4章 数据仓库 74
4.1 数据库与数据仓库 74
4.1.1 数据(库)模型 75
4.1.2 规范化与反向规范化 77
4.2 设计数据仓库 79
4.2.1 数据抽取、清洗、变换和加载 79
4.2.2 数据仓库模型 82
4.2.3 数据集市 85
4.2.4 决策支持系统 86
4.3 联机分析处理 87
4.3.1 概述 87
4.3.2 实验:使用OLAP辅助驾驶员行为分析 90
4.4 使用Excel数据透视表和数据透视图分析数据 93
4.4.1 创建简单数据透视表和透视图 93
4.4.2 创建多维透视表和透视图 97
本章小结 100
习题 100
第5章 评估技术 102
5.1 数据挖掘评估概述 102
5.1.1 评估内容 102
5.1.2 评估工具 103
5.2 评估有指导学习模型 108
5.2.1 评估分类类型输出模型 108
5.2.2 评估数值型输出模型 109
5.2.3 计算检验集置信区间 111
5.2.4 无指导聚类技术的评估作用 112
5.3 比较有指导学习模型 112
5.3.1 使用Lift比较模型 112
5.3.2 通过假设检验比较模型 114
5.4 属性评估 115
5.4.1 数值型属性的冗余检查 115
5.4.2 数值属性显著性的假设检验 117
5.5 评估无指导聚类模型 118
本章小结 118
习题 119
第6章 神经网络技术 120
6.1 神经网络概述 120
6.1.1 神经网络模型 120
6.1.2 神经网络的输入和输出数据格式 121
6.1.3 激励函数 123
6.2 神经网络训练 124
6.2.1 反向传播学习 124
6.2.2 自组织映射的无指导聚类 127
6.2.3 实验:应用BP算法建立前馈神经网络 130
6.3 神经网络模型的优势和缺点 138
本章小结 138
习题 139
第7章 统计技术 141
7.1 回归分析 141
7.1.1 线性回归分析 142
7.1.2 非线性回归 149
7.1.3 树回归 151
7.2 贝叶斯分析 152
7.3 聚类技术 156
7.3.1 分层聚类 156
7.3.2 基于模型的聚类 163
7.4 数据挖掘中的统计技术与机器学习技术 165
本章小结 165
习题 167
第8章 时间序列和基于Web的数据挖掘 169
8.1 时间序列分析 169
8.1.1 概述 169
8.1.2 线性回归分析解决时间序列问题 173
8.1.3 神经网络技术解决时间序列问题 175
8.2 基于Web的数据挖掘 176
8.2.1 概述 176
8.2.2 Web文本挖掘 178
8.2.3 Web使用挖掘 179
8.3 多模型分类技术 185
8.3.1 装袋技术 185
8.3.2 推进技术 185
本章小结 186
习题 187
附录A 词汇表 188
附录B 数据挖掘数据集 201
参考文献
前言/序言
未来学家约翰·奈斯比特(John Naisbitt)惊呼:“人类正被数据淹没,却饥渴于信息。”从浩瀚无际的数据海洋中发现潜在的、有价值的信息,是这个大数据时代的一个标志性工作。
数据挖掘(Data Mining)是利用一种或多种计算机学习技术,从数据中自动分析并提取信息的处理过程,其目的是发现数据中潜在的和有价值的信息、知识、规律、联系、模式,从而为解释当前行为和预测未来结果提供支持。数据挖掘一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现,是一门交叉学科,涉及数据库技术、人工智能技术、统计学方法、可视化技术、并行计算等。数据挖掘是一种商业智能信息处理技术,其围绕商业目标,对大量商业数据进行抽取、转换、分析和处理,从中提取辅助商业决策的关键性数据,揭示隐藏的、未知的或验证已知的规律性,是一种深层次的商业数据分析方法。
本书作为一本数据挖掘的入门级教材,关注于数据挖掘的基本概念、基本原理和基本技术的介绍和实践应用。全书围绕知识发现过程中的数据专题、技术专题和评估专题展开,包含大量实例和实验。实验采用Weka开源数据挖掘工具和MS Excel 2010,两者作为教学软件,具有很好的通用性和易学易用性。本书最后附有词汇表和数据挖掘数据集,包括了书中涉及的数据挖掘的最基本词汇、例子及实验所用数据集。其中数据集有来自UCI的共享数据集,也有为了举例和实验而设计的假想数据集。
本书分为8章和两个附录,其中戴红编写了8章中的大部分内容,常子冠和于宁编写了附录A和附录B,以及前8章的部分内容。
本书目标
本书希望帮助读者达到以下学习目标。
了解数据挖掘的技术定义和商业定义、作用和应用领域。
了解数据挖掘与知识发现、数据查询、专家系统的关系。
掌握数据挖掘和知识发现的处理过程。
掌握数据挖掘的基本技术和方法,包括有指导的学习技术——决策树技术、产生式规则、神经网络技术和统计分析方法,以及无指导聚类技术和关联分析方法。
掌握数据挖掘的评估技术,包括数据评估和模型评估方法。
了解数据仓库的设计目标和结构。
了解联机分析处理(OLAP)的目标和数据分析方法。
掌握时间序列分析方法,了解基于Web的数据挖掘目标、方法和技术。
能够使用Weka软件工具,应用各种数据挖掘算法,建立分类和聚类模型并进行关联分析,尝试解决实际问题。
能够使用MS Excel进行数据相关性分析,建立回归模型,以及使用Excel的数据透视表和数据透视图进行OLAP分析。
本书读者
本书既可作为计算机科学、信息科学、数学和统计学专业的入门教材,也可作为如经济学、管理学、档案学等,对数据管理、数据分析与数据挖掘有教学需求的其他相关专业的基础教材。同时,对数据挖掘技术和方法感兴趣,致力于相关方面的研究和应用的其他读者,也可以从本书中获取基本的指导和体验。
本书特点
本书强调基本概念、基本原理、基本技术的广度讲解。注重成熟模型和开源工具的介绍和使用;注重对数据挖掘经典算法过程的可理解性描述,而非聚焦细节的剖析,以提高授课学生的应用能力;注重结合基础实用案例,通过案例加强基本概念和原理的理解和运用;同时注重提高实例的趣味性和生活性,以提高学生的学习积极性。
本书秉承教材风格,使用实例和实验来描述和验证概念、原理和技术;使用章后练习、计算和实验作业巩固和检验所学内容;使用词汇表附录,解释和规范数据挖掘学科专业术语;使用适合教学的简单易用开源的Weka和通用的MS Excel软件工具实施数据挖掘,验证和体验数据挖掘的精妙。
本书内容
第1章 认识数据挖掘。主要是对数据挖掘作全面的概述,包括数据挖掘的基本概念、作用、过程、方法、技术和应用。同时介绍了本书使用的开源数据挖掘软件Weka。
从第2章到第8章,可分为三个专题:技术专题、数据专题和评估专题。
技术专题
第2章 基本数据挖掘技术。介绍有指导学习技术中的决策树算法、无指导聚类和K-means算法,重点讨论生成关联规则技术和针对不同问题如何考虑选择不同的数据挖掘技术和算法。第6章 神经网络技术。介绍神经网络的基本概念、结构模型、反向传播学习、自组织学习方法和神经网络技术的优势和缺点,讨论神经网络的输入和输出数据的要求,详细描述反向传播学习算法和自组织学习方法的一次迭代过程,并通过两个实验,介绍了使用Weka软件实现BP前馈神经网络模型的过程。第7章 统计技术。介绍数据挖掘中几种常用的统计技术,包括线性回归、非线性回归和树回归,贝叶斯分类器,聚类技术中的凝聚聚类、概念分层聚类和混合模型聚类技术的EM算法,对比了统计技术和机器学习方法的不同之处,为针对不同的问题和数据情况选择不同的数据挖掘技术提供参考。第8章 时间序列分析和基于Web的挖掘。介绍如何使用神经网络技术和线性回归方法建立预测模型,解决时间序列预测问题,使用数据挖掘对Web站点进行自动化评估和提供个性化服务,并就Web站点的自适应调整和改善进行了简单阐述,同时针对多模型应用中的两种著名方法装袋和推进进行了简单介绍。
数据专题
第3章 数据库中的知识发现。介绍了知识发现的基本概念、基本过程和典型模型,重点剖析知识发现过程中的每个步骤的任务和方法,并通过一个案例说明知识发现的整个过程。第4章 数据仓库。概括性地阐述了数据库和数据仓库的基本概念和特点,介绍了数据仓库模型的设计,重点讨论最常用的星型模型、雪花模型和星座模型的设计,并解释了数据集市和决策支持系统的基本概念。通过一个实验,描述了从决策支持的角度,对数据仓库中的数据进行多维分析的方法。最后介绍了利用MS Excel数据透视表和数据透视图建立多维数据分析模型的方法。
评估专题
第5章 评估技术。概述了数据挖掘过程中评估的内容和工具,介绍了具有分类输出的有指导学习模型的最基本评估工具——检验集分类正确率和混淆矩阵、数值型输出模型的评估、检验置信区间的计算以及无指导聚类技术对于有指导学习模型的评估作用、有指导学习模型的比较方法,重点讨论了利用Lift和假设检验对两个有指导学习模型的性能进行比较。同时,讨论了属性评估,使用MS Excel的函数和散点图进行属性相关性分析,以及在属性选择中,如何通过应用经典的假设检验模型来确定数值属性的重要性。本章最后给出了两种无指导聚类模型的评估方法。
附录 本书有两个附录:附录A为词汇表,包含了各章以及Weka软件中出现的主要词汇和关键术语;附录B为本书各章实例、实验、章后习题中涉及的数据集的相关描述,有来自UCI的网络共享数据集,也有假想的数据集。
数据挖掘导论 下载 mobi epub pdf txt 电子书 格式