内容简介
很多数据科学资源包括了统计方法,但是欠缺具有深度的统计学视角。如果你熟悉R语言编程,也对统计学有所了解,这份快速参考将帮助你搭建易学可达的知识桥梁。
你将从这本书中学到:
? 为什么探究式数据分析是数据科学的入门关键
? 随机采样如何减少偏见并产生高质量的数据集,即便用于大数据
? 实验设计原则如何生成针对问题的答案
? 如何使用回归估计结果及检测异常
? 用于预测记录归属的关键归类技巧
? 从数据学习到的统计机器学习方法
? 用于从未标记数据中提取意义的无监督学习方法
作者简介
Peter Bruce 创立并发展壮大了Statistics.com上的统计学教育学院,该学院目前提供约90项统计学课程,近半数面向数据科学家。
Andrew Bruce 在学术、政府和商业各领域拥有超过30年的统计学和数据科学经验,作为美国华盛顿大学统计学博士,他在同行评审的期刊上发表过多篇论文。
精彩书评
“本书既不是另一部统计学教材,也不是机器学习手册。它是更好的:运用清晰的解释和丰富的实例,在实用统计学术语、原则和当下数据挖掘行话与实践之间建立联系。这是一本对于数据科学初学者和老手们而言都很棒的参考书。”
——Galit Shmueli(畅销图书《Data Mining for Business Analytics》系列主要作者,中国台湾清华大学著名教授)
目录
Preface
1. Exploratory Data Analysis
Elements of Structured Data
Further Reading
Rectangular Data
Data Frames and Indexes
Nonrectangular Data Structures
Further Reading
Estimates of Location
Mean
Median and Robust Estimates
Example: Location Estimates of Population and Murder Rates
Further Reading
Estimates of Variability
Standard Deviation and Related Estimates
Estimates Based on Percentiles
Example: Variability Estimates of State Population
Further Reading
Exploring the Data Distribution
Percentiles and Boxplots
Frequency Table and Histograms
Density Estimates
Further Reading
Exploring Binary and Categorical Data
Mode
Expected Value
Further Reading
Correlation
Scatterplots
Further Reading
Exploring Two or More Variables
Hexagonal Binning and Contours (Plotting Numeric versus Numeric Data)
Two Categorical Variables
Categorical and Numeric Data
Visualizing Multiple Variables
Further Reading
Summary
2. Data and Sampling Distributions
Random Sampling and Sample Bias
Bias
Random Selection
Size versus Quality: When Does Size Matter?
Sample Mean versus Population Mean
Further Reading
Selection Bias
Regression to the Mean
Further Reading
Sampling Distribution of a Statistic
Central Limit Theorem
Standard Error
Further Reading
The Bootstrap
Resampling versus Bootstrapping
Further Reading
Confidence Intervals
Further Reading
Normal Distribution
Standard Normal and QQ-Plots
Long-Tailed Distributions
Further Reading
Student's t-Distribution
Further Reading
Binomial Distribution
Further Reading
Poisson and Related Distributions
Poisson Distributions
Exponential Distribution
Estimating the Failure Rate
……
3. Statistical Experiments and Significance Testing
4. Regression and Prediction
5. Classification
6. Statistical Machine Learning
7. Unsupervised Learning
Bibliography
Index
《面向数据科学家的实用统计学(影印版)》图书简介 本书旨在为数据科学家提供一套全面、实用且深入的统计学知识体系。 在当今数据驱动的时代,统计学已不再是理论的象牙塔,而是数据科学领域不可或缺的核心基石。无论您是刚刚踏入数据科学领域的新晋从业者,还是希望巩固和深化统计学知识的资深专家,本书都将成为您不可多得的得力助手。它聚焦于数据科学家在实际工作中会遇到的核心统计概念和技术,并以清晰易懂的方式进行阐述,辅以大量的代码示例和实际应用案例,帮助您将抽象的统计理论转化为可操作的分析技能。 内容亮点与特色: 紧扣实际应用,拒绝纸上谈兵: 本书深知数据科学家面临的实际挑战,因此内容编排紧密围绕数据收集、探索性数据分析(EDA)、模型构建、结果解释以及决策制定等关键环节。我们不会仅仅罗列枯燥的公式和定理,而是着重讲解这些统计工具如何在真实世界的数据问题中发挥作用。从数据清洗、特征工程到模型评估和部署,每一个步骤都离不开扎实的统计学支撑。 从基础到进阶,循序渐进的学习路径: 本书精心设计了学习曲线,从最基本的描述性统计量开始,逐步引入推断性统计、假设检验、回归分析、方差分析等核心概念。对于初学者,本书提供了一个坚实的基础,帮助您理解数据背后的规律和不确定性。对于有一定基础的学习者,本书将深入探讨更高级的主题,例如多重回归的复杂性、分类模型的统计学原理、时间序列分析的特殊性,以及贝叶斯统计学在现代数据科学中的应用。 代码驱动,学以致用: 理论的学习离不开实践的巩固。本书充分认识到这一点,因此几乎每一个统计概念和方法都配有详细的、可直接运行的Python代码示例。我们精选了业界常用的数据科学库,如NumPy、Pandas、SciPy、Statsmodels和Scikit-learn,并通过这些库来演示如何实现各种统计分析。通过亲自动手运行代码、修改参数、观察结果,您将能更深刻地理解统计原理,并能快速将其应用于自己的数据项目中。 可视化分析,洞察数据之美: 数据可视化是理解和沟通数据见解的关键。本书将详细介绍如何利用Matplotlib、Seaborn等可视化库,将统计分析的结果以直观、易懂的图表形式呈现出来。从散点图、直方图、箱线图到更复杂的统计图,您将学会如何选择最合适的图表来揭示数据的分布、关系和趋势,从而更有效地向非技术背景的听众传达分析结果。 模型构建与评估的统计学视角: 在构建预测模型时,理解模型背后的统计学原理至关重要。本书将深入探讨线性回归、逻辑回归、决策树、集成方法等常用机器学习模型的统计学基础。我们不仅会介绍模型的预测能力,更会强调如何从统计学角度评估模型的可靠性、稳健性和解释性。例如,您将学习如何利用残差分析来诊断模型问题,如何理解p值和置信区间的含义,以及如何选择合适的指标来衡量模型的性能。 掌握统计推理,做出明智决策: 推断性统计是数据科学的核心技能之一,它使我们能够从样本数据中得出关于总体特征的结论。本书将详细讲解置信区间的构建、假设检验的流程和原理,以及如何正确解读检验结果。无论是进行A/B测试,还是评估一个新算法的有效性,掌握这些统计推理工具都将帮助您做出更具科学依据的决策。 应对真实世界数据的挑战: 真实世界的数据往往是不完美的,充满了缺失值、异常值、类别不平衡等问题。本书将指导您如何运用统计学的方法来识别和处理这些数据质量问题,例如使用稳健的统计方法来抵抗异常值的影响,利用抽样技术来处理大数据集,以及理解数据预处理步骤对统计分析结果的潜在影响。 探索概率分布的奥秘: 概率分布是理解随机现象和建模不确定性的基石。本书将系统介绍各种重要的概率分布,如正态分布、二项分布、泊松分布、指数分布等,并解释它们在不同场景下的应用。您将学会如何识别数据是否符合某种概率分布,以及如何利用这些分布来构建更精确的模型。 深入理解方差与协方差: 方差衡量数据的离散程度,协方差则揭示了变量之间的线性关系。本书将详细讲解这些概念,并展示如何利用它们来理解数据的结构,进行特征选择和降维。例如,您将学习如何计算样本方差和总体方差,如何解释协方差矩阵,以及如何将其应用于主成分分析(PCA)等降维技术。 探索多变量统计的强大力量: 许多数据科学问题涉及多个变量之间的复杂关系。本书将带您进入多变量统计的世界,介绍回归分析(包括多重线性回归和多元回归)、方差分析(ANOVA)、以及因子分析等技术。您将学会如何同时分析多个因素对结果的影响,并从中提取有价值的见解。 理解贝叶斯统计学的现代视角: 随着计算能力的提升,贝叶斯统计学在数据科学领域的应用越来越广泛。本书将为您介绍贝叶斯推断的基本原理,包括先验分布、似然函数和后验分布的概念。您将了解如何利用贝叶斯方法来更新信念,并进行更灵活的模型构建,尤其是在小样本或先验知识丰富的情况下。 时间序列分析的实践指南: 许多业务场景涉及对随时间变化的数据进行分析和预测,如股票价格、销售趋势、传感器读数等。本书将提供一套实用的时间序列分析工具,包括平稳性检验、自相关和偏自相关分析、ARIMA模型等,并展示如何利用Python库进行实际操作,以捕捉时间序列中的模式和趋势。 非参数统计的灵活性: 当数据不满足参数统计方法(如正态分布)的假设时,非参数统计方法提供了有力的替代方案。本书将介绍一些常用的非参数检验,如秩和检验、Wilcoxon符号秩检验等,并指导您如何在适当的情况下选择和应用它们,以获得可靠的分析结果。 本书的目标读者: 数据科学家和机器学习工程师: 无论您是初学者还是经验丰富的专业人士,本书都将帮助您构建和深化统计学知识,从而更有效地分析数据、构建模型和解决实际问题。 数据分析师: 提升您的统计分析能力,掌握更高级的分析技术,为您的数据洞察提供更坚实的统计学基础。 对数据科学感兴趣的任何人士: 如果您希望深入了解数据科学背后的统计学原理,并掌握用统计学解决实际问题的能力,本书将为您提供一个完美的起点。 统计学专业学生: 作为辅助教材,本书可以帮助您将抽象的统计理论与实际应用相结合,理解统计学在现代数据科学中的价值。 在阅读本书的过程中,您将获得: 清晰的概念理解: 摆脱对统计学的模糊认知,建立起扎实、清晰的概念框架。 强大的实践能力: 熟练运用Python等工具进行各种统计分析,并将所学知识应用于实际项目。 自信的数据决策: 能够基于统计证据做出更明智、更可靠的商业和技术决策。 更深入的数据洞察: 发现数据中隐藏的模式、关系和趋势,挖掘数据价值。 成为一名更优秀的数据科学家: 统计学是数据科学家的“内功”,掌握它将使您在竞争激烈的领域脱颖而出。 本书不仅仅是一本教材,它更是一位经验丰富的导师,一位值得信赖的伙伴。 我们相信,通过本书的学习,您将能够更加自信地驾驭数据,释放数据的全部潜力,并在数据科学的道路上迈出坚实的步伐。 本书采用影印版形式,保留了原版内容的原汁原味,是您获取专业统计学知识的理想选择。 立即开始您的统计学探索之旅吧!