数据挖掘实用案例分析/大数据技术与应用专业规划教材

数据挖掘实用案例分析/大数据技术与应用专业规划教材 下载 mobi epub pdf 电子书 2024


简体网页||繁体网页
赵卫东,董亮 著



点击这里下载
    


想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-12-23

类似图书 点击查看全场最低价

图书介绍

出版社: 清华大学出版社
ISBN:9787302490494
版次:1
商品编码:12299079
包装:平装
开本:16开
出版时间:2018-01-01
用纸:胶版纸
页数:250
字数:400000
正文语种:中文


相关图书





图书描述

编辑推荐

数据挖掘是一个多学科交叉的领域,本书通过少数实际的具体案例,阐述数据分析项目分析的过程以及一些要点,可作为普通高等学校数据挖掘、商务数据分析、商务智能等课程的案例和实验指导材料,也可供有志于数据分析师的读者参考。

内容简介

数据挖掘已经广泛应用于各行各业,并催生了数据分析师的兴起。本书结合项目实践,首先对数据挖掘的核心问题进行了总结,并以保险推荐为例说明数据挖掘过程中每个步骤需要关注之处; 然后,结合香水销售分析,讨论可视化图形的基本应用。为增强本书的实用性,提高读者的动手能力,后续章节详细地分析了数据挖掘在银行信用卡、餐饮、商务酒店、制造业、公安等领域的应用。此外,本书还介绍了卷积神经网络在音频数据处理方面的实际应用。
本书内容深入浅出,案例生动形象,可以作为高校相关专业“数据挖掘”“机器学习”“商务数据分析”等课程的实验教材,也可以供学习数据分析的社会人士参考。

目录

第1章数据分析过程的主要问题1.1业务理解1.2数据理解1.3数据质量问题与预处理1.4数据分析常见陷阱1.5数据分析方法的选择1.5.1分类算法1.5.2聚类算法1.5.3关联分析1.5.4回归分析1.5.5深度学习1.5.6统计方法1.6数据分析结果的评价1.6.1分类算法的评价1.6.2聚类结果的评价1.6.3关联分析的评价1.6.4回归分析结果的评价1.6.5深度学习的评价1.7数据分析团队的组建1.7.1项目经理1.7.2业务专家1.7.3数据工程师1.7.4数据建模人员1.7.5可视化人员1.7.6评估人员1.8数据分析人才培养的难题1.8.1数理要求高1.8.2跨学科综合能力1.8.3国内技术资料少1.8.4实践机会少第2章数据挖掘算法的选择——保险产品推荐2.1业务理解2.2数据分析目标2.3数据探索2.3.1数据质量评估2.3.2探索数据统计特性2.3.3数据降维2.4模型选择过程2.4.1算法初选2.4.2算法验证2.4.3算法优化2.4.4平衡数据集2.4.5修改模型参数2.5总结第3章常用可视化的多维分析3.1箱图3.2雷达图3.3标签云3.4气泡图3.5树图3.6地图3.7高低图3.8双轴图3.9关系图3.10热图第4章SPSSModeler建模组件介绍4.1数据预处理组件4.1.1数据清理组件4.1.2数据集成组件4.1.3数据选择组件4.1.4数据变换组件4.2数据挖掘建模组件4.2.1模型筛选4.2.2自动建模4.2.3决策树模型4.2.4贝叶斯网络模型4.2.5神经网络模型4.2.6支持向量机模型4.2.7时间序列模型4.2.8统计模型4.2.9聚类模型4.2.10关联分析4.2.11KNN模型4.2.12数据挖掘模式评估4.3知识表示4.3.1图形节点4.3.2数据输出4.3.3数据导出第5章香水销售分析5.1香水销售数据预处理5.2香水销售数据统计分析5.3影响香水销量的因素分析5.4香水适用场所关联分析5.5香水聚类分析5.6香水营销建议第6章银行信用卡欺诈与拖欠行为分析6.1客户信用等级影响因素6.1.1客户信用卡申请数据预处理6.1.2信用卡申请成功影响因素6.2信用卡客户信用等级影响因素6.3基于消费的信用等级影响因素6.4信用卡欺诈判断模型6.4.1基于Apriori算法的欺诈模型6.4.2基于判别的欺诈模型6.4.3基于分类算法的欺诈模型6.5欺诈人口属性分析6.5.1欺诈人口属性统计分析6.5.2基于逻辑回归的欺诈人口属性分析6.5.3逾期还款的客户特征6.5.4基于决策树分析逾期客户特征6.5.5基于回归分析逾期客户特征6.5.6根据消费历史分析客户特征6.5.7基于聚类分析客户特征6.5.8基于客户细分的聚类分析第7章海底捞火锅运营分析7.1火锅相关数据抓取7.2数据预处理7.3数据分析7.3.1海底捞运营分析7.3.2店铺选址分析7.4菜品关联分析7.5用户评论与评分的关联分析7.6顾客情感分析第8章商务宾馆竞争分析8.1目前经济型酒店行业竞争态势8.2用户相关数据准备8.3通过Python编程抓取评论8.4数据预处理8.5商务宾馆客户数据分析8.5.1酒店评分影响因素8.5.2酒店评分与酒店业绩关系8.5.3酒店评分分析8.5.4客户情感分析8.5.5竞争分析8.6建议第9章耐热导线工厂质量管理数据分析9.1项目概述9.2耐热导线生产质量数据预处理9.3耐热铝线质量检测数据分析第10章基于逻辑回归模型的高危人员分析10.1高危人员分析需求10.2高危人群相关数据收集与预处理10.3建立模型第11章卷积神经网络在音频质量评价领域的应用11.1深度学习基础11.1.1深度学习的发展过程11.1.2深度学习常用技术框架11.1.3常用的深度学习算法11.2音频质量评价11.2.1音频样本及特征预处理11.2.2音频特征选择11.2.3卷积神经网络模型训练11.2.4模型参数调优11.3性能验证参考文献

精彩书摘

  第5章香水销售分析  法国著名的诗人保罗·瓦莱利曾说:“不擦香水的女人没有未来。”香水对于现代都市女性,不仅是生活品位的标志,更是个人气质的象征。对于男士来说,使用香水也是提升个人魅力的途径。随着经济发展以及人民生活水平的提高,国内消费者对香水产品的消费需求快速增长,曾经作为奢侈品的香水,逐渐成为人们的日常生活用品。  我国的香水行业较欧美国家起步晚,所占市场份额小,目前尚处于成长期。这同时也说明了我国的香水市场有巨大的潜力。许多国际大牌香水制造商正在努力提升它们在中国市场的份额,竞争未来的巨大市场前景。全球范围内,香水市场是一个市值438.9亿美元的产业,每年至少有300种新品种上市。  根据中国产业信息网的统计,2015年我国香水市场规模为185亿元,环比增长15.6%。我国香水市场的快速发展也带来了不同香水产品的大量涌现,那么到底什么样的香水产品销量更好,更受消费者欢迎呢?这些香水产品又有什么样的特点呢?本章以从某电商网站上抓取到的香水产品销量数据分析香水销售的影响因素,为香水销售商判定采购计划以及用户选择香水提供依据。  5.1香水销售数据预处理  本案例从某电商网站抓取了1009条香水产品销售数据,包含了香水产品的商品名称、产品毛重、商品产地、包装、香调、净含量、分类、适用性别、适用场所、价格,以及评价数。  “评价”字段的数据包含混合的中文和数字,末尾有一个“+”号。“+”号很容易通过Excel替换成“”(空字符串)的方法除去,但是将“万”转换成准确的数值结果,采用Excel或者其他现成的工具,并不容易实现。因此,采用Python编程处理“评价”和“适用场合”字段,将评价数量转换成数值。  “适用场所”字段包含多个场所,如果要拆分成多个字段,首先要算出所有记录的场所合集,这个步骤也不容易通过现有工具实现。  这两个预处理步骤,最终采用Python编程实现。通过Python脚本生成了新的字段。将商品产地中的“中国大陆”“广东”“浙江义乌”等统一替换成“中国”。“适用场所”字段分解成“旅行”“其他”“约会”“情趣”等8个字段,其类型是0、1类型,若该香水产品有对应的适用场所,则设置为1,否则设置为0。例如,第一条冰希黎的香水数据,使用场所为旅行、约会、情趣、商务、  party聚会。将类似“1.9万+”格式的“评价”字段的值转换为“19000”,其类型是数值类型。  Python程序没有替换原有字段,而是生成一个新字段。其优点是,不会丢失原始数据,而且可以通过肉眼复查,检查是否有预处理出错的情况。经过人工审查,经过Python程序预处理的数据符合原数据。图5.1是Python预处理完成的香水数据。  图5.1Python预处理完成的香水数据  对香水产品的价格和评价数进行离散化处理,将价格等间距分为6个等级,记为低、较低、中等、较高、高、非常高,对应价格区间分别为(0,100],(100,300],(300,500],(500,700],(700,1000],1000以上;同样,将评价数等间距分为7个等级,记为非常低、低、较低、中等、较高、高、非常高,对应价格区间分别为(0,100],(100,500],(500,1000],(1000,2000],(2000,5000],(5000,10000],10000以上。  将价格和评价数离散化后的变量记为“价格等级”和“销量等级”,在SPSSModeler18.0中使用导出节点进行处理,如图5.2和图5.3所示。  图5.2“价格等级”导出公式  图5.3“销量等级”导出公式  对香水产品的适用场合进行数量统计,得到新字段“适用场合数量”。图5.4显示了最终处理得到的香水产品数据。

前言/序言

  前言  目前,高校的数据分析类课程(如数据挖掘、机器学习、大数据分析等)教学方式大多以“知识点”为核心组织教学,学生主要以学习知识为主,工程应用实践机会较少。教师将所要教授的知识点在课堂上讲述,课后再以作业练习、课程实验、课程设计等形式帮助学生深入理解课堂上所学的知识。尽管为提高教学效果,目前许多高校尝试了大型开放式网络课程(MassiveOpenOnlineCourse,MOOC)、翻转课堂、移动课堂、同伴学习和小规模限制性在线课程(SmallPrivateOnlineCourse,SPOC)等教学方法的改革,但总体上来说,对于应用性较强的课程教学,还存在改进的空间,尤其是对学生的动手实践能力要求较高的数据分析类课程。现有的教学方法在传授理论知识时,缺少实际应用环节的支持,学生缺少在实际应用的背景下充分理解所学知识的机会,难以培养学生应用专业知识分析解决问题的技能和创新思维能力。  数据分析的方法是科学,但这些方法的选择和应用过程因问题而异,带有很强的艺术性。在现有专业课程教学模式下,学生仅仅了解需要学习基本的理论知识,缺少实践动手经历,难以获得这些知识的应用技巧,很少接触与企业实际项目相关的内容,因此学生的应用能力较弱,与企业实际的需求脱节。例如,在“数据分析”课程中,一般的教学方式是教师将具体数据分析的方法教授给学生,学生能够理解算法或方法的内容,但难以解决实际项目中应用具体算法碰到的问题。目前亟待克服数据分析类课程教学脱离企业所需能力的培养痛点,在课程学习的知识基础上,解决实际问题,引导学生解决数据分析实际问题的必要技能和思维方法。  实际上,数据分析绝大部分的教材和书籍还基本停留在基本理论和方法的介绍,实验部分的内容比较简单或者缺失,实际应用的内容不足。还有些实战性的书籍没有按照教材的方式编写,案例也比较粗略,数据分析过程中的一些技能解释肤浅。有关实际项目中数据分析过程思路的分析以及难点解析对教学,尤其是对实验或案例教学非常重要。最近几年,作者与多家企业合作,在数据分析领域辛苦耕耘,亲自参与了多个实际数据分析项目,熟悉数据分析过程的酸甜苦辣,希望通过本教材弥补国内数据分析实用教材的不足,也希望本教材的出版能改善国内数据分析类课程教学资料短缺的情况。  学习数据分析的最好方法就是做中学,使用实际数据解决实际问题,而不是单纯学习技术。实际上,有效的数据分析需要对业务进行深入理解,在此基础上形成有效的分析思路,并通过实验反复比较,才能真正解决客户的问题。在数据时代,现实应用中往往不乏数据。从生活中的小数据、简单问题开始,做各种假设,探索其中的规律。不断尝试常用的分析语言、工具和技术,在应用中不断学习新的知识,弥补课堂教学的不足,尤其是体会数据分析过程中书本上难得看到的分析技巧,并在应用中举一反三。如此反复,随着分析问题的深入,不断提高分析能力,体会数据分析的艰辛和解决客户问题的快乐。  本教材不局限于数据分析基本理论和基本方法的介绍,而是立足实际应用,突出实际数据分析项目中的思路,以及数据分析中的难点。但希望读者具有一定的统计学、机器学习(数据挖掘)、数据科学,以及必要的相关专业知识。也不追求过多的案例堆积,希望读者能理解数据分析的思路,举一反三。这些内容是作者多年项目实践和教学成果的总结,其中的分析思路只有参与实际的项目,才能体验到数据分析的难点和艺术性,这是目前教学过程中培养学生工程性思维的重要问题,也是真正提高学生创新能力和动手能力的手段。这些内容是数据分析的基础,也是从事大数据分析必须掌握的知识和技能。有关数据挖掘常用算法的介绍,读者可以参阅作者已经出版的教材《商务智能(第4版)》(清华大学出版社,2016年)或其他专业书籍。  全书分为11章,具体的内容简介如下:  第1章从数据分析的流程出发,讨论了在数据分析各个阶段需要做的工作以及经常遇到的主要问题,尤其是数据挖掘算法使用时容易遇到的难题。数据挖掘过程有一定的标准,但是针对具体的业务需求,如何设计合理、有效的数据分析流程,需要有一定的经验和技巧,数据的预处理、算法的选择等主要步骤都充分体现了数据挖掘的艺术性。  第2章以保险产品推荐项目为例,突出了数据挖掘选择合适的算法并非很简单的事情,需要在理解分析问题以及对多种算法熟悉的基础上,通过实验对初选的几种算法进行比较、调优,才能选择对解决问题效果比较好的算法。  第3章介绍了多维分析常用的可视化图形,这是数据分析的基本功。这些图形可以帮助数据分析师探索数据,找出数据中存在的问题以及基本规律。  第4章介绍了IBMSPSSModeler18数据挖掘工具的常用组件。在学习数据分析的不同阶段,根据学习者的基础、问题的分析难度等,可以选择不同的工具或平台。尽管分析工具并不是数据挖掘最重要的事情,但学习成本低、功能强大的分析工具对于问题的解决也是不可少的。对于编程基础有限的数据分析师,可以选择类似IBMSPSSModeler18的挖掘工具或TensorFlow等开源工具。尽管如此,对于有一定数据分析基础的读者,推荐学习Python、R等针对数据分析的语言,这些语言比较灵活,功能也十分强大。  第5章对香水的销售数据进行分析,讨论受欢迎的香水以及特点,并找出影响香水销售的主要因素,为香水的营销提供依据。  第6章对银行的客户信用记录、申请客户信息、拖欠历史记录、消费历史记录等人口属性、交易数据进行综合分析,讨论用户银行信用卡拖欠和欺诈行为特征,为银行推广信用卡以及风险管理提供依据。  第7章从大众点评网抓取火锅店海底捞的菜品介绍以及客户评论数据,以客户为中心,分析客户对火锅的偏好,为火锅店的选址、菜品的选择和设计,以及火锅店的竞争力都提供了参考。  第8章以携程网上某商务宾馆的客户评分、评论数据为基础,通过情感分析,分析了客户对商务宾馆的偏好,并了解客户的消费行为,比较多家商务宾馆的竞争优劣势,为商务宾馆改进经营提供了参考。  第9章在某耐热导线工厂最近2年的质量管理数据的基础上,分析了这些数据存在的问题,探索耐热导线的加工流程中几个工序之间半成品或成品质量指标的关系,提高最终产品的合格率。  第10章利用公安人口数据和违法犯罪人员行为特点的数据,建立风险评分模型,实现对高危人群的特征分析,识别具有违法、犯罪、可疑或可能的高危人员。  第11章讨论深度学习在音频处理领域的应用,介绍了常用的深度神经网络模型,重点分析卷积神经网络在音频质量评价领域的应用。  数据挖掘是一个多学科交叉的领域,本书通过少数实际的具体案例,阐述数据分析项目的过程以及一些要点,可作为普通高等学校“数据挖掘”“商务数据分析”“商务智能”等课程的案例和实验指导材料,也可供有志于数据分析师的读者参考。配套实验数据、源代码、软件等可以从清华大学出版社网站下载。由于作者水平有限,书中难免有错误之处,希望读者不吝指出。  在写作的过程中,胡远文、于召鑫、黄黎明、蒲实、朱荣斌等在资料收集方面做了一些工作,在此表示感谢。  赵卫东2017年8月  复旦大学

数据挖掘实用案例分析/大数据技术与应用专业规划教材 下载 mobi epub pdf txt 电子书 格式

数据挖掘实用案例分析/大数据技术与应用专业规划教材 mobi 下载 pdf 下载 pub 下载 txt 电子书 下载 2024

数据挖掘实用案例分析/大数据技术与应用专业规划教材 下载 mobi pdf epub txt 电子书 格式 2024

数据挖掘实用案例分析/大数据技术与应用专业规划教材 下载 mobi epub pdf 电子书
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

类似图书 点击查看全场最低价

数据挖掘实用案例分析/大数据技术与应用专业规划教材 mobi epub pdf txt 电子书 格式下载 2024


分享链接








相关图书


本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 book.teaonline.club All Rights Reserved. 图书大百科 版权所有