Python数据分析与应用

Python数据分析与应用 pdf epub mobi txt 电子书 下载 2025

黄红梅,张良均 著
图书标签:
  • Python
  • 数据分析
  • 数据挖掘
  • 机器学习
  • Pandas
  • NumPy
  • Matplotlib
  • 统计分析
  • 数据可视化
  • 实战应用
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 人民邮电出版社
ISBN:9787115373045
版次:1
商品编码:12324549
包装:平装
丛书名: 大数据人才培养规划教材
开本:16开
出版时间:2018-04-01
用纸:胶版纸
页数:294
正文语种:中文

具体描述

产品特色


编辑推荐

资 深大数据专家张良均领衔畅销书作者团队,教育部长江学者特聘教授、国家杰出青年基金获得者、IEEE Fellow、华南理工大学计算机与工程学院院长张军倾力推荐。
本书采用了以任务为导向的教学模式,按照解决实际任务的工作流程路线,逐步展开介绍相关的理论知识点,推导生成可行的解决方案,* 后落实在任务实现环节。
全书大部分章节紧扣任务需求展开,不堆积知识点,着重于解决问题时思路的启发与方案的实施。通过从任务需求到实现这一完整工作流程的体验,帮助读者真正理解与消化Python数据分析与应用。
书中案例全部源于企业真实项目,可操作性强,引导读者融会贯通,并提供源代码等相关学习资源,帮助读者快速掌握大数据相关技能。

内容简介

本书以任务为导向,全面地介绍数据分析的流程和Python数据分析库的应用,详细讲解利用Python解决企业实际问题的方法。全书共9章,* 1章介绍了数据分析的基本概念等相关知识;* 2~6章介绍了Python数据分析的常用库及其应用,涵盖NumPy数值计算、Matplotlib数据可视化、pandas统计分析、使用pandas进行数据预处理、使用scikit-learn构建模型,较为全面地阐述了Python数据分析方法;第7~9章结合之前所学的数据分析技术,进行企业综合案例数据分析。除* 1章外,本书各章都包含了实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。
本书可作为高校大数据技术类专业的教材,也可以作为大数据技术爱好者的自学用书。

作者简介


张良均,高 级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛(www.tipdm.org)发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编《Hadoop大数据分析与挖掘实战》《Python数据分析与挖掘实战》《R语言数据分析与挖掘实战》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。


目录

第1章 Python数据分析概述 1

任务1.1 认识数据分析 1

1.1.1 掌握数据分析的概念 2

1.1.2 掌握数据分析的流程 2

1.1.3 了解数据分析应用场景 4

任务1.2 熟悉Python数据分析的工具 5

1.2.1 了解数据分析常用工具 6

1.2.2 了解Python数据分析的优势 7

1.2.3 了解Python数据分析常用类库 7

任务1.3 安装Python的Anaconda发行版 9

1.3.1 了解Python的Anaconda发行版 9

1.3.2 在Windows系统中安装Anaconda 9

1.3.3 在Linux系统中安装Anaconda 12

任务1.4 掌握Jupyter Notebook常用功能 14

1.4.1 掌握Jupyter Notebook的基本功能 14

1.4.2 掌握Jupyter Notebook的高 级功能 16

小结 19

课后习题 19

* 2章 NumPy数值计算基础 21

任务2.1 掌握NumPy数组对象ndarray 21

2.1.1 创建数组对象 21

2.1.2 生成随机数 27

2.1.3 通过索引访问数组 29

2.1.4 变换数组的形态 31

任务2.2 掌握NumPy矩阵与通用函数 34

2.2.1 创建NumPy矩阵 34

2.2.2 掌握ufunc函数 37

任务2.3 利用NumPy进行统计分析 41

2.3.1 读/写文件 41

2.3.2 使用函数进行简单的统计分析 44

2.3.3 任务实现 48

小结 50

实训 50

实训1 创建数组并进行运算 50

实训2 创建一个国际象棋的棋盘 50

课后习题 51

第3章 Matplotlib数据可视化基础 52

任务3.1 掌握绘图基础语法与常用参数 52

3.1.1 掌握pyplot基础语法 53

3.1.2 设置pyplot的动态rc参数 56

任务3.2 分析特征间的关系 59

3.2.1 绘制散点图 59

3.2.2 绘制折线图 62

3.2.3 任务实现 65

任务3.3 分析特征内部数据分布与分散状况 68

3.3.1 绘制直方图 68

3.3.2 绘制饼图 70

3.3.3 绘制箱线图 71

3.3.4 任务实现 73

小结 77

实训 78

实训1 分析1996~2015年人口数据特征间的关系 78

实训2 分析1996~2015年人口数据各个特征的分布与分散状况 78

课后习题 79

第4章 pandas统计分析基础 80

任务4.1 读/写不同数据源的数据 80

4.1.1 读/写数据库数据 80

4.1.2 读/写文本文件 83

4.1.3 读/写Excel文件 87

4.1.4 任务实现 88

任务4.2 掌握DataFrame的常用操作 89

4.2.1 查看DataFrame的常用属性 89

4.2.2 查改增删DataFrame数据 91

4.2.3 描述分析DataFrame数据 101

4.2.4 任务实现 104

任务4.3 转换与处理时间序列数据 107

4.3.1 转换字符串时间为标准时间 107

4.3.2 提取时间序列数据信息 109

4.3.3 加减时间数据 110

4.3.4 任务实现 111

任务4.4 使用分组聚合进行组内计算 113

4.4.1 使用groupby方法拆分数据 114

4.4.2 使用agg方法聚合数据 116

4.4.3 使用apply方法聚合数据 119

4.4.4 使用transform方法聚合数据 121

4.4.5 任务实现 121

任务4.5 创建透视表与交叉表 123

4.5.1 使用pivot_table函数创建透视表 123

4.5.2 使用crosstab函数创建交叉表 127

4.5.3 任务实现 128

小结 130

实训 130

实训1 读取并查看P2P网络贷款数据主表的基本信息 130

实训2 提取用户信息更新表和登录信息表的时间信息 130

实训3 使用分组聚合方法进一步分析用户信息更新表和登录信息表 131

实训4 对用户信息更新表和登录信息表进行长宽表转换 131

课后习题 131

第5章 使用pandas进行数据预处理 133

任务5.1 合并数据 133

5.1.1 堆叠合并数据 133

5.1.2 主键合并数据 136

5.1.3 重叠合并数据 139

5.1.4 任务实现 140

任务5.2 清洗数据 141

5.2.1 检测与处理重复值 141

5.2.2 检测与处理缺失值 146

5.2.3 检测与处理异常值 149

5.2.4 任务实现 152

任务5.3 标准化数据 154

5.3.1 离差标准化数据 154

5.3.2 标准差标准化数据 155

5.3.3 小数定标标准化数据 156

5.3.4 任务实现 157

任务5.4 转换数据 158

5.4.1 哑变量处理类别型数据 158

5.4.2 离散化连续型数据 160

5.4.3 任务实现 162

小结 163

实训 164

实训1 插补用户用电量数据缺失值 164

实训2 合并线损、用电量趋势与线路告警数据 164

实训3 标准化建模专家样本数据 164

课后习题 165

第6章 使用scikit-learn构建模型 167

任务6.1 使用sklearn转换器处理数据 167

6.1.1 加载datasets模块中的数据集 167

6.1.2 将数据集划分为训练集和测试集 170

6.1.3 使用sklearn转换器进行数据预处理与降维 172

6.1.4 任务实现 174

任务6.2 构建并评价聚类模型 176

6.2.1 使用sklearn估计器构建聚类模型 176

6.2.2 评价聚类模型 179

6.2.3 任务实现 182

任务6.3 构建并评价分类模型 183

6.3.1 使用sklearn估计器构建分类模型 183

6.3.2 评价分类模型 186

6.3.3 任务实现 188

任务6.4 构建并评价回归模型 190

6.4.1 使用sklearn估计器构建线性回归模型 190

6.4.2 评价回归模型 193

6.4.3 任务实现 194

小结 196

实训 196

实训1 使用sklearn处理wine和wine_quality数据集 196

实训2 构建基于wine数据集的K-Means聚类模型 196

实训3 构建基于wine数据集的SVM分类模型 197

实训4 构建基于wine_quality数据集的回归模型 197

课后习题 198

第7章 航空公司客户价值分析 199

任务7.1 了解航空公司现状与客户价值分析 199

7.1.1 了解航空公司现状 200

7.1.2 认识客户价值分析 201

7.1.3 熟悉航空客户价值分析的步骤与流程 201

任务7.2 预处理航空客户数据 202

7.2.1 处理数据缺失值与异常值 202

7.2.2 构建航空客户价值分析关键特征 202

7.2.3 标准化LRFMC模型的5个特征 206

7.2.4 任务实现 207

任务7.3 使用K-Means算法进行客户分群 209

7.3.1 了解K-Means聚类算法 209

7.3.2 分析聚类结果 210

7.3.3 模型应用 213

7.3.4 任务实现 214

小结 215

实训 215

实训1 处理信用卡数据异常值 215

实训2 构造信用卡客户风险评价关键特征 217

实训3 构建K-Means聚类模型 218

课后习题 218

第8章 财政收入预测分析 220

任务8.1 了解财政收入预测的背景与方法 220

8.1.1 分析财政收入预测背景 220

8.1.2 了解财政收入预测的方法 222

8.1.3 熟悉财政收入预测的步骤与流程 223

任务8.2 分析财政收入数据特征的相关性 223

8.2.1 了解相关性分析 223

8.2.2 分析计算结果 224

8.2.3 任务实现 225

任务8.3 使用Lasso回归选取财政收入预测的关键特征 225

8.3.1 了解Lasso回归方法 226

8.3.2 分析Lasso回归结果 227

8.3.3 任务实现 227

任务8.4 使用灰色预测和SVR构建财政收入预测模型 228

8.4.1 了解灰色预测算法 228

8.4.2 了解SVR算法 229

8.4.3 分析预测结果 232

8.4.4 任务实现 234

小结 236

实训 236

实训1 求取企业所得税各特征间的相关系数 236

实训2 选取企业所得税预测关键特征 237

实训3 构建企业所得税预测模型 237

课后习题 237

第9章 家用热水器用户行为分析与事件识别 239

任务9.1 了解家用热水器用户行为分析的背景与步骤 239

9.1.1 分析家用热水器行业现状 240

9.1.2 了解热水器采集数据基本情况 240

9.1.3 熟悉家用热水器用户行为分析的步骤与流程 241

任务9.2 预处理热水器用户用水数据 242

9.2.1 删除冗余特征 242

9.2.2 划分用水事件 243

9.2.3 确定单次用水事件时长阈值 244

9.2.4 任务实现 246

任务9.3 构建用水行为特征并筛选用水事件 247

9.3.1 构建用水时长与频率特征 248

9.3.2 构建用水量与波动特征 249

9.3.3 筛选候选洗浴事件 250

9.3.4 任务实现 251

任务9.4 构建行为事件分析的BP神经网络模型 255

9.4.1 了解BP神经网络算法原理 255

9.4.2 构建模型 259

9.4.3 评估模型 260

9.4.4 任务实现 260

小结 263

实训 263

实训1 清洗运营商客户数据 263

实训2 筛选客户运营商数据 264

实训3 构建神经网络预测模型 265

课后习题 265

附录A 267

附录B 270

参考文献 295
《精通Python:从入门到精湛的编程之旅》 内容简介 《精通Python:从入门到精湛的编程之旅》是一本旨在为读者提供全面、深入的Python编程知识的著作。本书循序渐进,从Python语言的基础概念讲起,逐步引导读者掌握更高级的编程技巧和应用。无论您是初次接触编程的完全新手,还是希望系统性提升Python技能的开发者,本书都将是您不可或缺的学习伙伴。 第一部分:Python语言的基石 本书的开篇将为您打下坚实的Python编程基础。我们将从Python的安装和配置讲起,让您轻松迈出编程的第一步。随后,我们将深入讲解Python的核心语法,包括: 变量与数据类型: 理解Python中丰富的内置数据类型,如整型、浮点型、布尔型、字符串,以及它们的特性和常用操作。 运算符与表达式: 掌握各种算术运算符、比较运算符、逻辑运算符和赋值运算符,并学会构建复杂的表达式来处理数据。 流程控制语句: 深入学习`if`、`elif`、`else`条件语句,以及`for`和`while`循环,让您的程序能够根据不同情况做出决策并重复执行任务。 数据结构: 详细介绍Python中强大的内置数据结构,如列表(List)、元组(Tuple)、字典(Dictionary)和集合(Set)。我们将探讨它们之间的区别、适用场景以及各种高效的操作方法,例如列表推导式、字典的键值对操作等。 函数: 学习如何定义和调用函数,理解参数传递(位置参数、关键字参数)、返回值、作用域等概念。通过函数,您可以组织代码、提高复用性,并使程序结构更加清晰。 模块与包: 探索Python强大的模块化机制,了解如何导入和使用标准库模块,以及如何创建自己的模块。我们将介绍包的概念,帮助您构建更大型、更复杂的项目。 第二部分:面向对象编程与高级特性 在掌握了Python的基本语法后,本书将带领您进入面向对象编程(OOP)的世界。OOP是一种强大的编程范式,能够帮助您编写更具组织性、可维护性和可扩展性的代码。您将学习: 类与对象: 理解类(Class)作为蓝图,对象(Object)作为类的实例的含义。学习如何定义类,包括属性(Attributes)和方法(Methods)。 封装、继承与多态: 深入理解面向对象编程的三大核心概念。封装将数据和操作封装在类中,提高安全性;继承允许创建新的类,继承现有类的属性和方法,实现代码重用;多态则使不同类的对象能够响应相同的消息,增加灵活性。 特殊方法(Dunder Methods): 掌握Python中以双下划线开头和结尾的特殊方法,例如`__init__`(构造函数)、`__str__`(字符串表示)、`__len__`(长度)、运算符重载等,让您的类更加“Pythonic”。 异常处理: 学习如何使用`try`、`except`、`finally`块来捕获和处理程序运行时可能出现的错误,确保程序的健壮性。 文件I/O: 掌握读写文本文件和二进制文件的各种方法,学习如何打开、读取、写入和关闭文件,以及文件指针的移动等高级操作。 第三部分:Python的高级编程技巧与实践 本部分将进一步拓展您的Python编程视野,介绍一些更为高级和实用的编程技巧,帮助您编写出更高效、更优雅的代码: 生成器(Generators): 学习如何创建和使用生成器,它们能够按需生成数据,极大地节省内存,尤其适用于处理大型数据集。我们将重点介绍生成器表达式和`yield`关键字。 迭代器(Iterators): 理解迭代器协议,学习如何创建自定义的迭代器,以及如何利用迭代器来遍历各种数据结构。 装饰器(Decorators): 深入解析装饰器的概念和实现原理,学习如何使用装饰器来修改函数或类的行为,例如日志记录、性能分析、权限控制等。 上下文管理器(Context Managers): 掌握`with`语句的使用,学习如何编写自定义的上下文管理器,用于资源管理,如文件操作、数据库连接的自动打开和关闭。 并发与并行: 介绍Python中实现并发和并行编程的几种常用方法,包括多线程(threading)和多进程(multiprocessing),并探讨它们在不同场景下的适用性。 正则表达式(Regular Expressions): 学习如何使用Python的`re`模块进行强大的文本模式匹配和处理,这在数据提取、验证和清洗中至关重要。 第四部分:Python在实际项目中的应用 理论知识的学习离不开实际的应用。本书的最后部分将带领您将所学知识应用于实际的项目开发中,让您体验Python的强大魅力: Web开发基础: 介绍Python在Web开发中的应用,重点讲解使用Flask或Django等主流Web框架构建简单Web应用的流程和基本概念。 API交互: 学习如何使用Python的`requests`库与RESTful API进行交互,发送HTTP请求,处理响应数据,从而实现与其他服务的集成。 数据处理与自动化: 演示如何利用Python脚本实现日常工作的自动化,例如文件管理、数据批量处理、定时任务执行等。 网络编程入门: 介绍Python的网络编程能力,学习如何使用`socket`模块创建简单的客户端-服务器应用程序。 软件工程实践: 探讨一些基础的软件工程原则,如代码组织、版本控制(Git基础)、单元测试等,帮助您养成良好的编程习惯。 本书特色: 循序渐进的教学方法: 内容组织合理,从易到难,层层递进,确保读者能够逐步掌握Python的精髓。 丰富的代码示例: 书中包含大量经过精心设计的代码示例,并附有详细的解释,帮助读者理解概念并快速实践。 实战项目导向: 强调理论与实践相结合,通过实际项目案例来巩固所学知识。 注重编程思想: 不仅教授语法,更注重培养读者的编程思维和解决问题的能力。 面向广阔读者群体: 无论您是学生、初学者,还是有一定编程基础的开发者,都能从本书中获益。 《精通Python:从入门到精湛的编程之旅》将陪伴您踏上一段充实而富有成效的Python编程学习之旅。通过本书的学习,您将不仅能够熟练运用Python解决各种问题,更能深刻理解编程的逻辑和艺术,为您的技术生涯打下坚实的基础,开启无限可能。

用户评价

评分

这本书给我的感觉,就像一位经验丰富的老司机,带着你在这个复杂的数据分析领域里稳步前行。它没有一开始就抛出一堆高深的理论,而是循序渐进,让你在理解每一个概念的同时,就能马上动手实践。我尤其欣赏书中对于“数据预处理”这一环节的重视。在我过去的经验中,很多分析项目之所以失败,往往不是因为分析方法不行,而是因为原始数据太“脏”,直接拿来分析只会得出错误的结论。这本书非常细致地讲解了如何进行数据清洗,比如如何处理重复值、缺失值、不一致的数据格式,以及如何进行特征工程,将原始数据转化为更适合模型训练的特征。它提供的代码片段简洁明了,可以直接复制粘贴到自己的环境中进行测试和修改。此外,书中在模型选择和评估方面也给出了非常实用的建议。它并没有强求读者去掌握所有复杂的算法,而是重点讲解了一些常用且有效的模型,并强调了如何根据数据的特点和分析目标来选择合适的模型,以及如何通过交叉验证、准确率、召回率等指标来评估模型的性能。这些内容对于我这样需要快速上手解决实际问题的人来说,无疑是雪中送炭。

评分

读完这本书,我感觉自己对数据分析这个领域有了更全面、更深入的认识。它提供的不仅仅是一堆工具的使用方法,更是一种思维方式。书中反复提及“数据驱动”的理念,并贯穿于整个内容的讲解之中。我特别喜欢书中关于“数据探索性分析(EDA)”的章节,它详细地介绍了如何通过各种统计方法和可视化手段,在开始构建复杂模型之前,充分了解数据的基本特征、分布情况、变量之间的关系以及潜在的异常值。这就像在侦探破案前,要先对案发现场进行细致的勘察和取证一样,能够帮助我们避免走弯路,并且能够更准确地发现问题的根源。书中在讲解模型评估时,也强调了理解业务背景的重要性,不能仅仅依赖于几个量化的指标,而是要结合实际业务的需要来判断模型的优劣。比如,在进行客户流失预测时,不同类型的误判(将不流失的客户预测为会流失,或将流失的客户预测为不流失)可能带来的业务影响是不同的,因此需要根据实际情况来调整模型的阈值和评估标准。这种贴近业务的讲解,让我觉得这本书的实用性非常强,不仅仅是一本技术手册,更是一位良师益友,能够帮助我更好地理解和解决实际问题。

评分

我一直觉得,学习新技能,尤其是像Python这种编程语言,最怕的就是纸上谈兵,学了半天也找不到实际落地的应用场景。这本书在这方面做得相当出色。它的结构安排得很有条理,从最基础的数据加载和初步探索,到更高级的统计建模和可视化,几乎涵盖了一个数据分析项目可能涉及的方方面面。我特别喜欢的是它在讲解每个概念时,都会紧随其后提供相应的Python代码示例,而且这些代码都非常贴近实际工作中的场景。比如,书中关于时间序列分析的部分,不仅解释了ARIMA模型等理论,还演示了如何用Pandas和Statsmodels库来处理实际的时间序列数据,包括趋势、季节性分析以及未来预测。这对我来说太实用了,因为我的工作中经常需要分析销售数据、用户行为数据等具有时间维度的数据。书中的图表绘制部分也让我印象深刻,它介绍了Matplotlib和Seaborn这两个强大的可视化库,并通过大量实例展示了如何创建各种信息图表,如散点图、折线图、柱状图、热力图等,并且如何通过调整图表的细节来清晰地传达信息。我甚至学会了如何制作交互式图表,这在数据报告和演示时非常有帮助,能够让观众更直观地理解数据背后的故事。

评分

一本厚重的书摆在我的书架上,封面设计得相当朴实,书名“Python数据分析与应用”也直白地勾勒出了它所要探讨的主题。翻开书页,首先映入眼帘的是密密麻麻的代码示例和各种统计图表。我并不是一个科班出身的数据科学家,当初选择这本书,更多的是出于对当下数据驱动决策趋势的好奇,以及希望掌握一种强大的工具来处理和理解我工作中遇到的那些繁杂数据。坦白说,初次接触时,确实被其中涉及的数学公式和算法推导有些压迫感,感觉离自己日常的业务需求似乎有一点距离。但随着阅读的深入,我逐渐发现,作者并没有止步于理论的阐述,而是将大量的篇幅聚焦于如何将这些理论转化为实际可操作的步骤。书中详细讲解了如何利用Python的强大库,比如Pandas和NumPy,进行数据清洗、转换和规整,这些对于任何数据分析项目来说都是不可或缺的基础。例如,对于缺失值的处理,书中提供了多种策略,并附带了相应的代码实现,让我能够根据具体情况选择最合适的方法。此外,对于异常值检测和处理,我也受益匪浅,书中通过实际案例演示了如何识别和修正那些可能扭曲分析结果的数据点。总的来说,这本书为我打开了一扇通往数据世界的大门,虽然挑战依然存在,但它所提供的坚实基础和实践指导,让我对未来深入探索数据分析充满了信心。

评分

我一直对如何从海量数据中提炼出有价值的信息感到着迷,而这本书恰恰给了我一个非常清晰的路径。它不仅仅是告诉你“怎么做”,更重要的是告诉你“为什么这么做”。在讲述数据可视化时,书中反复强调了“讲故事”的重要性,即图表不仅仅是为了美观,更是为了有效地沟通和传达数据洞察。它用大量的案例说明了如何通过选择恰当的图表类型、调整颜色、标签和标题,来让数据变得易于理解,并引导读者发现潜在的模式和关联。例如,在进行市场细分分析时,书中演示了如何使用聚类算法将用户分组,然后通过散点图和箱线图来可视化不同用户群体的特征,从而帮助企业制定更精准的营销策略。此外,书中关于数据建模的部分,也并非简单地罗列算法,而是深入浅出地解释了线性回归、逻辑回归、决策树等基本模型的原理,以及它们在实际应用中的场景。它还会提醒读者注意模型的假设条件和潜在的过拟合、欠拟合问题,并给出相应的解决方案。这种理论与实践相结合的讲解方式,让我觉得这本书非常有价值,能够帮助我构建一个扎实的知识体系,并且能够自信地将所学应用到实际工作中。

评分

书已经收到了,还没看不知道咋样

评分

可以,很快

评分

大数据Hadoop教材,写的很详细,质量很好,超级赞

评分

书已经收到了,还没看不知道咋样

评分

可以,很快

评分

书本很难,慢慢看吧!好厚一本。

评分

书的内容不错哦

评分

很好,言简意赅,通俗易懂,没有那么厚!

评分

很好,物流快,在看

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.teaonline.club All Rights Reserved. 图书大百科 版权所有