发表于2024-11-05
“CDA数据分析师系列丛书”依照数据分析师规范化学习体系而定。满足了CDA数据分析师等级认证学习的需要,也兼顾了大数据的热点动态。
从策划之初一直坚持以“读者需求”为主线,结合企业实际案例和业务场景来谈大数据思维和小数据分析。实现技术扎实,业务精通,策略接地气!
《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》作为SAS EG 和SPSS 数据处理比较的首本实战中文教材,本书并非单纯地逐个讲解菜单的操作,而是将数据分析的基本思路、流程融入到软件的操作之中。每章通过设置商业背景,配以SAS EG 和SPSS 的实战演练,讲解形式更贴近读者的实际工作,使读者真正理解数据分析、数据处理的精髓。本书除讲解软件操作,还同时介绍了对应菜单操作的SAS 程序语言实现过程,读者可以根据自己的需要逐步学习,进而走进用SAS 程序处理数据的大门。
《如虎添翼!数据处理的SPSS和SAS EG实现(第2版)》适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分析人员。
经管之家(www.jg.com.cn):原人大经济论坛,于2003年成立,致力于推动经管学科的进步,传播优秀教育资源,目前已经发展成为国内优秀的经济、管理、金融、统计类的在线教育和咨询网站,也是国内活跃和具影响力的经管类网络社区。
经管之家从2006年起在国内开展数据分析培训,累计培训学员数万人。在大数据的趋势背景下,创新“CDA数据分析师”品牌,致力于为社会各界数据分析爱好者提供优质、科学、系统的数据分析教育。截至2016年3月已成功举办40多期系统培训,培训学员达3千余名;CDA认证考试已成功举办三届,报考人数上千人;中国数据分析师俱乐部(CDA CLUB),每周线下免费沙龙活动,已举力40多期,累积会员2千余名;中国数据分析师行业峰会(CDA Summit),一年两届,参会人数皆达2千余名,在大数据领域影响力超前。“CDA数据分析师”队伍在业界不断壮大,对数据分析人才产业起到了巨大的推动作用。
徐筱刚,统计学硕士。拥有近十年的丰富的数据分析、数据挖掘实战经验,曾就职于咨询公司、金融机构等多家著名企业,目前在一家金融机构担任资深数据分析顾问,具有零售、电信、金融等多个数据挖掘的项目经验和行业背景。
常国珍,北京大学商学博士,法学硕士。曾就职于亚信科技BOC部门、方正国际金融事业部、德勤管理咨询信息技术系统咨询部。SAS公司资深讲师,Oracle大数据讲师,多家金融信息部门和金融高科技公司数据挖掘技术顾问。从事征信数据集市与信用风险建模、客户价值提升等数据挖掘项目。擅长基于个体行为分析的价值发现和信用建模。研究方向为宏微观接合研究,兴趣点在于宏观环境变化对微观主体行为的经济后果分析及价值投资。
丁亚军,曲阜师范大学心理学硕士。现任职于南京上度市场咨询数据分析总监,经管之家数据分析研究院数据分析师。主要从事市场调查,数据挖掘咨询等市场客户行为方面的数据分析工作,比较熟悉SAS、SPSS两款软件。
第1 章软件入门介绍.. 1
1.1 SAS EG 介绍.. 2
1.1.1 SAS EG 简介. 2
1.1.2 SAS EG 的窗口及菜单. 3
1.2 SPSS 介绍. 4
1.2.1 SPSS 简介.. 4
1.2.2 SPSS 窗口及菜单 5
1.3 数据挖掘的流程介绍. 9
1.3.1 KDD 介绍 9
1.3.2 CRISP-DM .. 10
1.3.3 SEMMA . 11
1.3.4 三种数据挖掘流程的比较.. 11
1.4 课后练习. 11
第2 章使用数据.. 12
2.1 通过SAS 逻辑库访问数据.. 13
2.1.1 商业背景.. 13
2.1.2 SAS 相关功能介绍.. 13
2.1.3 EG 菜单解决方案. 14
2.1.4 SAS 程序实现. 15
2.1.5 SPSS 菜单解决方案.. 16
2.2 理解SAS 与SPSS 数据集的定义 19
2.2.1 理解数据集的含义.. 19
2.2.2 商业背景.. 19
2.2.3 SAS 与SPSS 相关概念介绍.. 19
2.2.4 EG 菜单解决方案. 25
2.2.4 SAS 程序实现. 26
2.2.5 SPSS 菜单解决方案 28
2.3 导入其他格式的数据文件 30
2.3.1 商业背景.. 30
2.3.2 SAS 相关功能介绍.. 30
2.3.3 EG 菜单解决方案. 31
2.3.4 SAS 程序实现. 33
2.3.5 SPSS 菜单解决方案 35
2.4 数据来源. 36
2.4.1 直接来源.. 36
2.4.2 间接来源.. 37
2.5 扩展阅读. 37
2.6 课后练习. 38
第3 章探索性数据分析及数据的清理 39
3.1 探索性数据分析. 40
3.1.1 基本理论讲解. 40
3.1.2 EG 菜单解决方案. 40
3.1.3 SPSS 菜单解决方案 44
3.2 数据清理介绍.. 54
3.2.1 商业背景.. 54
3.2.2 需要清理的数据类型. 55
3.3 类别变量的清理. 57
3.3.1 EG 菜单解决方案. 57
3.3.2 SAS 程序实现. 61
3.3.3 SPSS 菜单解决方案 62
3.4 数值型变量的清理 66
3.4.1 EG 菜单解决方案. 66
3.4.2 SAS 程序实现. 70
3.4.3 SPSS 菜单解决方案 71
3.5 正态分布的验证. 75
3.5.1 商业背景.. 75
3.5.2 相关理论介绍. 75
3.5.3 EG 菜单解决方案. 75
3.5.4 SAS 程序实现. 78
3.5.5 SPSS 菜单解决方案 80
3.6 扩展阅读. 83
3.7 课后练习. 84
第4 章数据的行处理. 85
4.1 数据筛选. 86
4.1.1 商业背景.. 86
4.1.2 相关理论介绍. 86
4.1.3 EG 菜单解决方案. 86
4.1.4 SAS 程序实现. 88
4.1.5 SPSS 菜单解决方案 93
4.2 排序与求秩 94
4.2.1 商业背景.. 94
4.2.2 理论介绍.. 95
4.2.3 EG 菜单解决方案. 95
4.2.4 SAS 程序实现.. 101
4.2.5 SPSS 菜单解决方案. 103
4.3 抽样 105
4.3.1 商业背景 105
4.3.2 抽样理论介绍.. 105
4.3.3 EG 菜单解决方案.. 108
4.3.4 SAS 程序实现.. 110
4.3.5 SPSS 菜单解决方案. 111
4.4 数据分组和汇总.. 111
4.4.1 商业背景 111
4.4.2 EG 菜单解决方案.. 111
4.4.3 SAS 程序实现.. 113
4.4.4 SPSS 菜单解决方案. 113
4.5 扩展阅读.. 115
4.6 课后练习.. 115
第5 章数据的列处理.. 116
5.1 计算新变量. 117
5.1.1 商业背景 117
5.1.2 EG 菜单解决方案.. 117
5.1.3 SPSS 菜单解决方案. 120
5.2 拆分列.. 123
5.2.1 商业背景 123
5.2.2 EG 菜单解决方案.. 123
5.2.3 SPSS 菜单解决方案. 125
5.3 堆叠列.. 128
5.3.1 商业背景 128
5.3.2 EG 菜单解决方案.. 129
5.3.3 SPSS 菜单解决方案. 131
5.4 转置列.. 136
5.4.1 商业背景 136
5.4.2 EG 菜单解决方案.. 136
5.4.3 SAS 程序实现.. 138
5.4.4 SPSS 菜单解决方案. 139
5.5 函数及运算符的使用 140
5.5.1 运算符. 140
5.5.2 SAS 函数 142
5.5.3 常用SPSS 函数与SAS 函数的对应关系 150
5.6 对列重编码. 151
5.6.1 商业背景介绍.. 151
5.6.2 EG 菜单解决方案.. 151
5.6.3 SAS 程序实现.. 155
5.6.4 SPSS 菜单解决方案. 157
5.7 标准化.. 158
5.7.1 商业背景 158
5.7.2 相关理论介绍.. 159
5.7.3 EG 菜单实现. 159
5.7.4 SAS 实现程序.. 161
5.7.5 SPSS 菜单解决方案. 162
5.8 扩展阅读.. 163
5.9 课后练习.. 163
第6 章数据集的操作.. 164
6.1 纵向连接.. 165
6.1.1 商业背景 165
6.1.2 相关的理论 165
6.1.3 EG 菜单解决方案.. 165
6.1.4 SAS 程序实现.. 168
6.1.5 SPSS 菜单解决方案. 172
6.2 横向连接.. 174
6.2.1 商业背景 174
6.2.2 相关理论介绍.. 174
6.2.3 EG 菜单解决方案.. 174
6.2.4 SAS 程序实现.. 178
6.2.5 SPSS 菜单解决方案. 182
6.3 数据集的比较 183
6.3.1 商业背景介绍.. 183
6.3.2 相关理论介绍.. 183
6.3.3 EG 菜单解决方案.. 183
6.3.4 SAS 程序实现.. 186
6.3.5 SPSS 菜单解决方案. 187
6.4 创建格式.. 191
6.4.1 商业背景 191
6.4.2 相关理论介绍.. 191
6.4.3 EG 菜单解决方案.. 193
6.4.4 SAS 程序实现.. 196
6.5 删除数据集和格式. 197
6.5.1 EG 菜单解决方案.. 197
6.5.2 SAS 程序实现.. 198
6.6 扩展阅读.. 198
6.7 课后练习.. 199
第7 章数据的展示:图形及报告的编制 200
7.1 数据可视化与图表. 201
7.1.1 商业背景 201
7.1.2 相关理论介绍.. 201
7.1.3 EG 菜单解决方案.. 204
7.1.4 SPSS 菜单解决方案. 207
7.2 创建Listing 报表. 208
7.2.1 商业背景 208
7.2.2 相关理论介绍.. 208
7.2.3 EG 菜单解决方案.. 209
7.2.4 SAS 程序实现.. 212
7.2.5 SPSS 菜单解决方案. 213
7.3 扩展阅读.. 216
7.4 课后练习.. 216
第8 章在SAS EG 中使用提示和条件处理.. 217
8.1 提示与宏变量 218
8.1.1 商业背景 218
8.1.2 相关的理论介绍. 218
8.1.3 EG 菜单解决方案.. 219
8.2 条件处理.. 223
8.2.1 商业背景 223
8.2.2 EG 菜单解决方案.. 223
8.3 扩展阅读.. 227
第9 章在SAS EG 中使用程序.. 228
9.1 如何在SAS EG 中使用程序 229
9.2 SAS 程序 231
9.2.1 SAS 语言元素.. 231
9.2.2 DATA 步. 232
9.2.3 PROC 步. 233
9.2.4 SAS 的模块介绍(图9-9). 234
9.3 扩展阅读.. 234
第10 章SQL 语言基础与MySQL 入门. 235
10.1 SQL 语言概况与MySQL 的安装 236
10.1.1 SQL 语言概况 236
10.1.2 MySQL 安装.. 237
10.1.3 MySQL 内创建数据库. 238
10.2 查询语句 238
10.2.1 简单查询并对数据过滤与排序.. 240
10.2.2 用表达式创建新列. 241
10.2.3 对列重编码. 242
10.2.4 在查询中对数据分组和汇总 243
10.2.5 表的横向连接和子查询.. 244
10.2.6 子查询.. 250
10.2.7 集合操作语句 251
10.3 创建表或视图. 252
10.3.1 创建表.. 252
10.3.2 创建视图. 252
附录A SAS EG 菜单对应关系 254
附录B SPSS 菜单对应关系表 256
附录C SAS 和SPSS 关键术语、命令对应关系 258
附录D CDA 数据分析师致力于最好的数据分析人才建设. 261
参考文献 265
需要清理的数据类型
缺失值(Missing)
〈1〉缺失值的来源
在数据收集阶段,没有收集到相关的信息,原因可能是问卷收集者忘记询问,或者碍于隐私原因,应答者没有回答。也有可能不同数据库之间对接时产生缺失。
〈2〉缺失值的处理方式
?忽略观测值,当数据量较大,而缺失值较少,忽略观测值对分析结果影响不大时,可以采用这种方式;
人工填写,找到缺失值的关系,通过人工调查得到并填写缺失值,当缺失值量比较大时不适用;
使用一个全局常量来填写缺失值;使用属性的中心度量(如均值和中位数)来填充缺失值;
单独作为一类。
〈3〉缺失值在SAS 中的表现方式
?数值型的为“.”;
?字符型的缺失值为空。
异常值
〈1〉异常值(Outlier)
异常值也称为离群值、极端值(Extreme)。
明显偏大或偏小的值,异常值不一定为错误值。
〈2〉识别异常值的常用方法有三种:
第一种方法是为每个变量设定一个正常的取值范围,然后可以用简单的探索性统计分析进行识别。例如,连续变量,借助经验法则2可以设定为±3 个标准差,对于类别变量或者顺序变量,如果某一列别的频数超过1%或者更多被认为是正常。本方法的优点是简单快捷,缺点是只考虑了单个变量,没有考虑变量之间的相互影响。
第二种方法建立在生成数据的过程中是否具有特定函数形式的模型,如假定服从线性模型,则利用线性模型拟合后,严重偏离模型的即为异常值。本方法的优点是考虑了变量之间的相互作用,缺点是需要有一个事先的假设,若假设错误,则有可能误判正常的点为异常值。
第三种方法是用聚类算法将数据分为较小的子集,即簇或者群,只包含较小数量的观测值的群,被认定为极端值。聚类算法根据统计距离指标将相似的观测值分布在同一个簇。这个方法结合了以上两个方法的优点,但是在数据量较大的情况下,聚类对系统的资源要求比较大。
〈3〉箱线图(Box Plot)
箱线图是对数据分布的一种常用表示方法。在一张图上可以表示多种类型的统计量,通过图形的形状,可以了解数据的分布,异常值、极端值的情况等.
〈4〉异常值的处理方法
大多数情况下,被认定为极端值的观测值或者被删除,或者将其替换为某个更符合的值。但当被认定的异常值超过 10%以上时,异常值可能暗示其数据产生模式与其他数据不同,通过分析异常数据可以得到有用的信息,在对数据集进行建模或者分析时,应当分开分析
无效值(Invalid)
在录入时导致的错误,比如性别在录入时F 代表女,M 代表男,但是在录入时出现了“F,M”的情况,这种情况就是无效值。
数据存在有效期,随着周围情况的变化,数据也会发生变化。例如,通过办理会员卡方式得到的客户住址、电话、邮箱等,在数据使用前,一定要知道数据是否还有效。
无效值的处理方式可以通过查询数据来源、重复收集等修改为有效值,也可以作为单独的一类。
?数据的重复值(Duplicate)
对于有些值,比如ID,根据数据表示的含义,一条记录代表一个唯一的ID,但是在数据整合过程中出现了多个ID,对于重复观测,一般的方式是确定好原因之后删除。
感谢您选择“CDA 数据分析师”Level I 学习系列丛书之《如虎添翼!数据处理的SPSS 和SASEG 实现(第2 版)》。
该丛书按照数据分析师规范化学习体系而定,对于一名初学者,应该先掌握必要的概率、统计理论基础,包括描述性分析、推断性分析、参数估计、假设检验、方差分析、回归分析等内容,这在第一本书《从零进阶!数据分析的统计基础(第2 版)》中进行了专业详细的讲解。其次,数据分析需要按照标准流程进行,即数据的获取、储存、整理、清洗、归约等系列数据处理技术,这在《如虎添翼!数据处理的SPSS 和SAS EG 实现(第2 版)》中利用SAS EG、SPSS 和编程技术进行了操作过程的详解。最后,经过处理的数据需要根据业务问题,利用相关方法进行建模分析,得出结果,结果检验,绘制图表并解读数据,这在《胸有成竹!数据分析的SPSS 和SAS EG 进阶(第2 版)》中进行了详细的讲解和操作分析。
CDA 数据分析师丛书整体风格是“理论>技术>应用”的一个学习过程,最终目的在于商业业务应用、职场数据分析,为欲从事于数据分析领域的各界人士提供了一个规范化数据分析师的学习体系。
读者对象
作为丛书中的一本,本书上承基础理论部分,下启最终建模及案例分析。本书将关注点集中到数据的探索及预处理上,通过本书的学习将会加深对基础理论部分的理解,为后续的建模分析做好数据上的准备。本书适合那些想了解数据预处理,或者被数据的预处理占去大部分时间而想提高效率,或者囿于菜单操作的局限性而希望通过程序实现的数据分 如虎添翼!数据处理的SPSS和SAS EG实现(第2版) 下载 mobi epub pdf txt 电子书 格式
如虎添翼!数据处理的SPSS和SAS EG实现(第2版) 下载 mobi pdf epub txt 电子书 格式 2024
如虎添翼!数据处理的SPSS和SAS EG实现(第2版) 下载 mobi epub pdf 电子书好红红火火恍恍惚惚就好
评分给同事买的,同事说还挺不错?
评分还不错。简单易懂。坚持学下去。。希望能达到自己的要求。。。
评分这次京东读书月活动也很nice,囤了一大堆书。
评分很好的系列,值得学习
评分包装保护的很好,速度也快,准备学习!
评分目标已达成,一个月内完成了一本,现在正在巩固和利用这本书的知识。
评分非常好,是正版
评分在京东购买的东西挺多的,质量不错,送货也快。活动的时候买也实惠呢
如虎添翼!数据处理的SPSS和SAS EG实现(第2版) mobi epub pdf txt 电子书 格式下载 2024