编辑推荐
《大数据挖掘:系统方法与实例分析》
MATLAB官方资深大数据挖掘专家撰写,MATLAB官方及多位专家鼎力推荐。
从技术、方法、案例、实践4个维度循序渐进地讲解了大数据挖掘技的流程、方法和原理
《大数据与机器学习:实践方法与行业案例》
从数据、基础平台、分析方法、行业应用4个维度,义场景化方式讲解数据从获取、预处理、挖掘、建模、结论分析与展现到系统应用的流程,以及机器学习的重要技术
三位金融领域的大数据专家近10年行业实战经验总结,包含大量行业解决方案和案例,并公开源代码
内容简介
《大数据与机器学习:实践方法与行业案例》:
《大数据与机器学习:实践方法与行业案例》立足商业实践,结合典型业务场景,详细阐述数据从获取、预处理、挖掘、建模、结论分析与展现到系统应用的整个流程。就完整性而言,覆盖数据、平台、分析和应用等企业内数据流转的主要环节;就内容而言,抛弃了理论与公式的堆积以及小明式的人造案例,选取大量翔实的案例展现数据从线下分析到线上应用的企业实战过程;就写作手法而言,力求兼顾实用主义和理论深度,用浅显的语言介绍复杂的分析应用过程,从实战角度诠释理论技术和算法的具体应用;就布局而言,按照数据与平台篇、分析篇和应用篇分别撰写。
数据与平台篇(第1~3章)立足找到数据、整合数据、使用数据三个角度,介绍数据在企业内的产生、存储、处理到分析、应用的闭环流转过程,有助于数据工程师站在应用角度了解数据治理方法和重点:数据架构师可从中找到构建数据平台的指导思想和产品选型建议。
分析篇(第4~11章)选取企业实际案例,阐述数据是如何解决业务问题并产生价值的,帮助数据分析师掌握常用的数据挖掘与机器学习算法以及可视化技巧,从中找到分析灵感。
应用篇(第12~15章)选取标签系统、自助营销、个性化推荐和社会关系网络等当前热门的大数据应用案例,介绍数据分析结论和模型的应用部署,帮助业务运营专家和管理者了解如何构建数据驱动的应用,让数据“自动”流转于各个环节。
《大数据挖掘:系统方法与实例分析》:
《大数据挖掘:系统方法与实例分析》是大数据挖掘领域的扛鼎之作,由全球科学计算领域的领导者MathWorlks(MATLAB公司)官方的资深数据挖掘专家撰写,MathWorks官方及多位专家联袂推荐。
它从技术、方法、案例和实践4个维度对如何系统、深入掌握大数据挖掘提供了详尽的讲解。
技术:不仅讲解了大数据挖掘的原理、过程、工具,还讲解了大数据的准备、处理与探索;
方法:既深入地讲解了关联规则方法、回归方法、分类方法、聚类方法、预测方法、诊断方法等6大类数据挖掘主体方法,又重点讲解了时间序列方法和智能优化方法两种数据挖掘中常用的方法;
案例:详细地再现了来自银行、证券、机械、矿业、生命科学和社会科学等6大领域的经典案例,不仅有案例的实现过程,而且还有案例原理和预备知识的的讲解;
实践:首先总结了数据挖掘中确定挖掘、应用技术以及如何平衡的艺术,然后总结了数据挖掘的项目管理和团队管理的艺术。
作者简介
周英,中科数据首席数据科学家。曾在某知名搜索引擎公司任职多年,主要从事互联网文本挖掘相关的工作。目前专注于大数据挖掘技术的工业应用研究和工程应用,已成功完成数据挖掘量化选股、大型设备保养维护预警、银行客户信用评分、电商客户分类及精准营销优化等多个大型项目。著有《量化投资:数据挖掘技术与实践(MATLAB版)》(国际上一本系统介绍将数据挖掘技术用于量化投资的书籍,已被金融行业多家机构应用)。
卓金武,MathWorks(MATLAB)中国区科学计算业务总监,资深数据挖掘专家,主要负责数据挖掘、优化、量化投资、风险管理等科学计算业务,已为工行、交行、中投、华为、通用、一汽、上汽、格力等多家企业提供数据挖掘解决方案。已出版著作两部:《MATLAB在数学建模中的应用》(第1版和第2版),《量化投资:数据挖掘技术与实践(MATLAB版)》。
大学期间曾两次获全国大学生数学建模竞赛一等奖 (2003和 2004),一次获全国研究生数学建模竞赛一等奖 (2007)。
卞月青,深圳人人数据挖掘经理。曾就职于三一重工, 主要从事工业大数据分析工作。2012年以来,一直从事基于大数据的应用研发工作,从事的工作包括两个方面, 一是为银行、P2P、小贷公司开发基于数据挖掘的信用评级系统;二是利用互联网大数据挖掘技术,采集、清洗、集成特定领域的数据,并开发成大数据公众服务平台。
陈春宝,先后获得了经济学硕士和工业工程博士学位,拥有10年数据分析及应用经验,目前任职于股份制商业银行总行,在数据挖掘、机器学习和业务咨询方面有着独到的见解,他的工作跨大数据、营销、风险、运营等多个领域,擅长诊断各类业务问题,应用商业和数据分析手段获得创新性的解决方案,并帮助业务部门有效的实施。
他曾经担任交通银行信用卡中心的数据分析经理,以及美国MSA公司咨询顾问,拥有银行、信用卡、烟草、医药与电信等行业几十个项目的数据挖掘分析与SAS建模经验。基于大数据构建的预测模型,创新了商业模式并为公司带来新的收入来源,参与设计的算法获得人民银行科技发展二等奖。
他还长期负责企业内的数据分析人员培训和管理,并先后担任两个大数据专业期刊的责任编辑,近几年经常作为嘉宾活跃在高校与企业的一系列大数据活动中。曾担任上海交通大学工程硕士企业导师,SCI&EI;索引期刊发表论文10余篇。
内页插图
精彩书评
★“大数据方法+大数据人才=核心竞争力”,本书系统地诠释了这个公式里蕴含的概念、技术、项目以及人才培养。基于MATLAB的Data Arlalytics的应用正在全球呈现爆炸式的发展趋势,而本书的内容正是这一趋势迫切需要的知识。书中的实例是以MATLAB作为工具来呈现,可快速转化为实实在在的竞争力,甚好!
——曹新康 MathWorks(全球科学计算领导者)中国区总裁
★2013年维克托的《大数据时代》风靡全国,此后关于大数据的各种声音一直络绎不绝,但在思维的高度上,无出其右者。还好有卓兄等人在工具的研发和使用上的不懈努力,推动大数据思维深入运用到各个子行业。MATLAB是量化对冲行业内出色的写策略的工具,卓兄的书由浅入深,实用性强,上一本《量化投资:数据挖掘技术与实践(MATLAB版)》备受量化对冲行业朋友的青睐,也是我案头的常备书目之一。本书的一些内容已经在对冲基金的筛选里面运用,比如书中介绍的神经网络,就可以用于判断不同对冲基金之间可能雷同的策略,最终实现事前的风控。从FOF/MOM的角度来讲,本书为筛选优秀的对冲基金提供了良好的视角和工具。
——董鹏飞 国金创新总经理
★本书深入浅出地对大数据挖掘的理论和方法进行了系统性的阐述,并且通过多个案例给出了具有实用性的指导,在人工智能和数据挖掘技术火热的当下,不失为一本工具参考书。
——丁鹏 博士 中国量化投资学会理事长
★工业数据具有传感器多样、采集频率高和数据量庞大的特点,如何发挥工业数据的价值是工业互联网时代前沿的课题。本书所呈现的数据挖掘和智能计算方法,对基于工业大数据的KPl参数预测、设备故障预警和生产过程优化具有很强的指导意义。
——周永良 博士 GE Digital软件解决方案架构师
★本书通俗易懂,贴近实用,融合了作者多年的研究成果,方法务实、知识系统、方便借鉴,且配有系统的源代码,适用于各类数据挖掘项目。本书的作者于我亦师亦友,卓学长的另外两本书我都读过,收获很大,每次与之交流都让我获益匪浅,在此表达对学长的敬意,同时更期盼通过此书和广大读者一道继续努力,共同提高。
——赵晔清华大学自动化系研究生
目录
《大数据挖掘:系统方法与实例分析》
第一篇基础篇
第1章绪论
1.1 大数据与数据挖掘
1.1.1 何为大数据
1.1.2 大数据的价值
1.1.3 大数据与数据挖掘的关系
1.2 数据挖掘的概念和原理
1.2.1 什么是数据挖掘
1.2.2 数据挖掘的原理
1.3 数据挖掘的内容
1.3.1 关联
1.3.2 回归
1.3.3 分类
1.3.4 聚类
1.3.5 预测
1.3.6 诊断
1.4 数据挖掘的应用领域
1.4.1 零售业
1.4.2 银行业
1.4.3 证券业
1.4.4 能源业
1.4.5 医疗行业
1.4.6 通信行业
1.4.7 汽车行业
1.4.8 公共事业
1.5 大数据挖掘的要点
1.6 小结
参考文献
第2章数据挖掘的过程及工具
2.1 数据挖掘过程概述
2.2 挖掘目标的定义
2.3 数据的准备
2.4 数据的探索
2.5 模型的建立
2.6 模型的评估
2.7 模型的部署
2.8 工具的比较与选择
2.9 小结
参考文献
第3章 MATLAB数据挖掘快速入门
3.1 MATLAB快速入门
3.1.1 MATLAB概要
3.1.2 MATLAB的功能
3.1.3 快速入门案例
3.1.4 入门后的提高
3.2 MATLAB常用技巧
3.2.1 常用标点的功能
3.2.2 常用操作指令
3.2.3 指令编辑操作键
3.2.4 MATLAB数据类型
3.3 MATLAB开发模式
3.3.1 命令行模式
3.3.2 脚本模式
3.3.3 面向对象模式
3.3.4 三种模式的配合
3.4 MATLAB数据挖掘引例
3.5 MATLAB集成数据挖掘工具
3.5.1 分类学习机简介
3.5.2 交互探索算法的方式
3.5.3 MATLAB分类学习机应用实例
3.6 小结
第二篇技术篇
第4章数据的准备
4.1 数据的收集
4.1.1 认识数据
4.1.2 数据挖掘的数据源
4.1.3 数据抽样
4.1.4 金融行业的数据源
4.1.5 从雅虎获取交易数据
4.1.6 从大智慧获取财务数据
4.1.7 从Wind获取高质量数据
4.2 数据质量分析
4.2.1 数据质量分析的必要性
4.2.2 数据质量分析的目地
4.2.3 数据质量分析的内容
4.2.4 数据质量分析方法
4.2.5 数据质量分析的结果及应用
4.3 数据预处理
4.3.1 为什么需要数据预处理
4.3.2 数据预处理的方法
4.3.3 数据清洗
4.3.4 数据集成
4.3.5 数据归约
4.3.6 数据变换
4.4 小结
参考文献
第5章数据的探索
5.1 衍生变量
5.1.1 衍生变量的定义
5.1.2 变量衍生的原则和方法
5.1.3 常用的股票衍生变量
5.1.4 评价型衍生变量
5.1.5 衍生变量数据收集与集成
5.2 数据的统计
5.2.1 基本描述性统计
5.2.2 分布描述性统计
5.3 数据可视化
5.3.1 基本可视化方法
5.3.2 数据分布形状可视化
5.3.3 数据关联情况可视化
5.3.4 数据分组可视化
5.4 样本选择
5.4.1 样本选择的方法
5.4.2 样本选择应用实例
5.5 数据降维
5.5.1 主成分分析(PCA)基本原理
5.5.2 PCA应用案例:企业综合实力排序
5.5.3 相关系数降维
5.6 小结
参考文献
第6章关联规则方法
6.1 关联规则概要
6.1.1 关联规则提出背景
6.1.2 关联规则的基本概念
6.1.3 关联规则的分类
6.1.4 关联规则挖掘常用算法
6.2 Apriori算法
6.2.1 Apriori算法基本思想
6.2.2 Apriori算法步骤
6.2.3 Apriori算法实例
6.2.4 Apriori算法程序实现
6.2.5 算法的优缺点
6.3 FP-Growth算法
6.3.1 FP-Growt算法步骤
6.3.2 FP-Growt算法实例
6.3.3 FP-Growt算法优缺点
6.4 应用实例:行业关联选股法
6.5 小结
参考文献
第7章数据回归方法
7.1 一元回归
7.1.1 一元线性回归
7.1.2 一元非线性回归
7.1.3 一元多项式回归
7.2 多元回归
7.2.1 多元线性回归
7.2.2 多元多项式回归
7.3 逐步归回
7.3.1 逐步回归基本思想
7.3.2 逐步回归步骤
7.3.3 逐步回归的MATLAB方法
7.4 Logistic回归
7.4.1 Logistic模型
7.4.2 Logistic回归实例
7.5 应用实例:多因子选股模型的实现
7.5.1 多因子模型基本思想
7.5.2 多因子模型的实现
7.6 小结
参考文献
第8章分类方法
8.1 分类方法概要
8.1.1 分类的概念
8.1.2 分类的原理
8.1.3 常用的分类方法
8.2 K-近邻(KNN)
8.2.1 K-近邻原理
8.2.2 K-近邻实例
8.2.3 K-近邻特点
8.3 贝叶斯分类
8.3.1 贝叶斯分类原理
8.3.2 朴素贝叶斯分类原理
8.3.3 朴素贝叶斯分类实例
8.3.4 朴素贝叶斯特点
8.4 神经网络
8.4.1 神经网络原理
8.4.2 神经网络实例
8.4.3 神经网络特点
8.5 逻辑斯蒂(Logistic)
8.5.1 逻辑斯蒂原理
8.5.2 逻辑斯蒂实例
8.5.3 逻辑斯蒂特点
8.6 判别分析
8.6.1 判别分析原理
8.6.2 判别分析实例
8.6.3 判别分析特点
8.7 支持向量机(SVM)
8.7.1 SVM基本思想
8.7.2 理论基础
8.7.3 支持向量机实例
8.7.4 支持向量机特点
8.8 决策树
8.8.1 决策树的基本概念
8.8.2 决策树的构建步骤
8.8.3决策树实例
8.8.4 决策树特点
8.9 分类的评判
8.9.1 正确率
8.9.2 ROC曲线
8.10 应用实例:分类选股法
8.10.1 案例背景
8.10.2 实现方法
8.11 延伸阅读:其他分类方法
8.12 小结
参考文献
第9章聚类方法
9.1 聚类方法概要
9.1.1 聚类的概念
9.1.2 类的度量方法
9.1.3 聚类方法的应用场景
9.1.4 聚类方法分类
9.2 K-means方法
9.2.1 K-means原理和步骤
9.2.2 K-means实例1:自主编程
9.2.3 K-means实例2:集成函数
9.2.4 K-means特点
9.3 层次聚类
9.3.1 层次聚类原理和步骤
9.3.2 层次聚类实例
9.3.3 层次聚特点
9.4 神经网络聚类
9.4.1 神经网络聚类原理和步骤
9.4.2 神经网络聚类实例
9.4.3 神经网络聚类特点
9.5 模糊C-均值(FCM)方法
9.5.1 FCM原理和步骤
8.5.2 FCM应用实例
9.5.3 FCM算法特点
9.6 高斯混合聚类方法
9.6.1 高斯混合聚类原理和步骤
9.6.2 高斯聚类实例
9.6.3 高斯聚类特点
9.7 类别数的确定方法
9.7.1 原理
9.7.2 实例
9.8 应用实例:股票聚类分池
9.8.1 聚类目标和数据描述
9.8.2 实现过程
9.8.3 结果及分析
9.9 延伸阅读
9.9.1 目前聚类分析研究的主要内容
9.9.2 SOM智能聚类算法
9.10 小结
参考文献
第10章预测方法
10.1 预测方法概要
10.1.1 预测的概念
10.1.2 预测的基本原理
10.1.3 预测的准确度评价及影响因素
10.1.4 常用的预测方法
10.2 灰色预测
10.2.1 灰色预测原理
10.2.2 灰色预测的实例
10.3 马尔科夫预测
10.3.1 马尔科夫预测原理
10.3.2 马尔科夫过程的特性
10.3.3 马尔科夫预测实例
10.4 应用实例:大盘走势预测
10.4.1 数据的选取及模型的建立
10.4.2 预测过程
10.4.3 预测结果与分析
10.5 小结
参考文献
第11章诊断方法
11.1 离群点诊断概要
11.1.1 离群点诊断的定义
11.1.2 离群点诊断的作用
11.1.3 离群点诊断方法分类
11.2 基于统计的离群点诊断
11.2.1 理论基础
11.2.2 应用实例
11.2.3 优点与缺点
11.3 基于距离的离群点诊断
11.3.1 理论基础
11.3.2 应用实例
11.3.3 优点与缺点
11.4 基于密度的离群点挖掘
11.4.1 理论基础
11.4.2 应用实例
11.4.3 优点与缺点
11.5 基于聚类的离群点挖掘
11.5.1 理论基础
11.5.2 应用实例
11.5.3 优点与缺点
11.6 应用实例:离群点诊断股票买卖择时
11.7 延伸阅读:新兴的离群点挖掘方法
11.7.1 基于关联的离群点挖掘
11.7.2 基于粗糙集的离群点挖掘
11.7.3 基于人工神经网络的离群点挖掘
11.8 小结
参考文献
第12章时间序列方法
12.1 时间序列基本概念
12.1.1 时间序列的定义
12.1.2 时间序列的组成因素
12.1.3 时间序列的分类
12.1.4 时间序列分析方法
12.2 平稳时间序列分析方法
12.2.1 移动平均法
12.2.2 指数平滑法
12.3 季节指数预测法
12.3.1 季节性水平模型
12.3.2 季节性趋势模型
12.4 时间序列模型
12.4.1 ARMA模型
12.4.2 ARIMA模型
12.4.3 ARCH模型
12.4.4 GARCH模型
12.5 应用实例:基于时间序列的股票预测
12.6 小结
参考文献
第13章智能优化方法
13.1 智能优化方法概要
13.1.1 智能优化方法的概念
13.1.2 常用的智能优化方法
13.2 遗传算法
13.2.1 遗传算法的原理
13.2.2 遗传算法的步骤
13.2.3 遗传算法实例
13.2.4 遗传算法的特点
13.3 模拟退火算法<
大数据挖掘+大数据与机器学习(套装共2册) 下载 mobi epub pdf txt 电子书 格式