发表于2024-12-24
统计学习是一套以复杂数据建模和数据理解为目的的工具集,是近期才发展起来的统计学的一个新领域。本书出自统计学习领域声名显赫的几位专家,结合R语言介绍了分析大数据必不可少的工具,提供一些重要的建模和预测技术,并借助丰富的实验来解释如何用R语言实现统计学习方法。论题包括线性回归、分类、重抽样方法、压缩方法、基于树的方法、支持向量机、聚类等,作者借助彩图和实际案例直观解释这些方法。为了读者更好地理解书中内容,每章后还配有丰富的概念性和应用性练习题。
书中内容与《The Elements of Statistical Learning》的大部分内容相同,但是本书起点低,弱化了数学推导的细节,更注重方法的应用,所以更适合作为入门教材。当然,这本《统计学习导论》不仅是优秀的“统计学习”或“机器学习”课程的教材,也是数据挖掘、数据分析等相关从业者不可或缺的参考书。
Gareth James 斯坦福大学统计学博士毕业,师从Trevor Hastie。现为南加州大学马歇尔商学院统计学教授,美国统计学会会士,数理统计协会终身会员,新西兰统计协会会员。《Statistica Sinica》、《Applications and Case Studies》、《Theory and Methods》等期刊的副主编。
Daniela Witten 斯坦福大学统计学博士毕业,师从Robert Tibshirani。现为华盛顿大学生物统计学副教授,美国统计学会和国际数理统计协会会士,《Journal of Computational and Graphical Statistics》和《Biometrika》等期刊副主编。
Trevor Hastie 美国统计学家和计算机科学家,斯坦福大学统计学教授,英国皇家统计学会、国际数理统计协会和美国统计学会会士。Hastie参与开发了 R 中的大部分统计建模软件和环境,发明了主曲线和主曲面。
Robert Tibshirani 斯坦福大学统计学教授,国际数理统计协会、美国统计学会和加拿大皇家学会会士,1996年COPSS总统奖得主,提出lasso方法。Hastie和Tibshirani都是统计学习领域的泰山北斗,两人合著《The Elements of Statistical Learning》,还合作讲授斯坦福大学的公开课《统计学习》。
★本书是机器学习的很好入门教材,在同类书中遥遥领先,其大优势是:当把一个机器学习算法应用到现实世界问题时,你必须了解的所有必要细节都可以在这本书中找到。因此,这本书必然会吸引很多领域的读者,包括计算机科学、企业管理和市场营销。
—— Charalambos Poullis, Computing Reviews
★这本书也是优秀的R语言入门读物,书中所有统计方法的实现代码都有详细解释……必定会有许多人(包括我)受益于这本书。我在自己的教学中无疑会用到这本书中的很多示例、实验和数据集。
—— Pierre Alquier, Mathematical Reviews
★本书旨在向有关人员介绍全新的统计学习方法,这些人包括学生、研究人员和相关领域从业者,他们感兴趣的是分析数据,并专注于统计方法的实现以及随后的结果解释……本书还演示了怎样借助丰富的R包使用这些方法,借助有趣的真实数据提供详细的应用案例。
—— Klaus Nordhausen, International Statistical Review
★本书在结构上分为10章,覆盖对复杂的真实数据集建模和挖掘所需的工具……适合本科生和相关研究人员……每章后附的丰富习题(既有概念性习题,又有应用性习题)有助于对概念的理解。
—— Irina Ioana Mohorianu, zbMATH
★这本书不仅完美阐释了机器学习的理论和数学基础,最后还提供丰富的R编程实践案例。而这后一部分R编程实践案例正是我等待已久的,因为它可以直接应用。
—— Daniel Gutierrez, Inside Big Data
中文版序
译者序
前言
第1章导论
1.1统计学习概述
1.2统计学习简史
1.3关于这本书
1.4这本书适用的读者群
1.5记号与简单的矩阵代数
1.6本书的内容安排
1.7用于实验和习题的数据集
1.8本书网站
1.9致谢
第2章统计学习
2.1什么是统计学习
2.2评价模型精度
2.3实验: R语言简介
2.4习题
第3章线性回归
3.1简单线性回归
3.2多元线性回归
3.3回归模型中的其他注意事项
3.4营销计划
3.5线性回归与K最近邻法的比较
3.6实验:线性回归
3.7习题
第4章分类
4.1分类问题概述
4.2为什么线性回归不可用
4.3逻辑斯谛回归
4.4线性判别分析
4.5分类方法的比较
4.6R实验:逻辑斯谛回归、LDA、QDA和KNN
4.7习题
第5章重抽样方法
5.1交叉验证法
5.2自助法
5.3实验:交叉验证法和自助法
5.4习题
第6章线性模型选择与正则化
6.1子集选择
6.2压缩估计方法
6.3降维方法
6.4高维问题
6.5实验1:子集选择方法
6.6实验2:岭回归和lasso
6.7实验3:PCR和PLS回归
6.8习题
第7章非线性模型
7.1多项式回归
7.2阶梯函数
7.3基函数
7.4回归样条
7.5光滑样条
7.6局部回归
7.7广义可加模型
7.8实验:非线性建模
7.9习题
第8章基于树的方法
8.1决策树基本原理
8.2装袋法、随机森林和提升法
8.3实验:决策树
8.4习题
第9章支持向量机
9.1最大间隔分类器
9.2支持向量分类器
9.3狭义的支持向量机
9.4多分类的SVM
9.5与逻辑斯谛回归的关系
9.6实验:支持向量机
9.7习题
第10章无指导学习
10.1无指导学习的挑战
10.2主成分分析
10.3聚类分析方法
10.4实验1:主成分分析
10.5实验2:聚类分析
10.6实验3:以NCI60数据为例
10.7习题
中 文 版 序
When we wrote An Introduction to Statistical Learning, we had a single goal: to make key concepts in statistical machine learning accessible to a very broad audience. We are thrilled that Professor Xing Wang has taken the time to translate our book into Chinese, so that these concepts will be made accessible to an even broader audience. We hope that the readers of this Chinese translation will find our book to be a useful and informative introduction to a very exciting and important research area.
Sincerely!
回想当初在编写 《统计学习导论》这本书的时候,我们4位作者心中只有一个梦想:让更多的
读者能够聆听到统计机器学习里的基本概念。中国人民大学的王星教授花了很多时间将这本书翻
译成中文,这令我们十分欣慰,相信会有更多的朋友可以通过这本书涉足该领域。我们希望中文版的读者会被书中的内容丰富和案例实用所吸引,并由此进入一个令人兴奋且颇具影响的研究领域。
真诚地祝福!
Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani
译者序
数据是对事物及其量的记录,有存储字节的记录就是数据。数据是研究各种问题的基础,数据的形态种类繁多,但有两类数据在分析中常常是不能忽略的,一类是测量数据,另一类是系统数据。前者主要是指用合适的工具对给定研究对象某个属性上的量进行测定,主要用于提供有关研究对象量的实验证据,一般需要针对研究目标进行特定的科学设计、抽样计算、数据采集、相关整理、参数估计和模型检验等。这类数据的产生过程严格,规则明确,数据质量受实验环境影响较大,建模的主要目的是分析估计目标的误差来源和相关影响。后者则是计算机体系架构为高效传输文件而产生的记录,比如日志、IP地址等,这类记录中既包含了系统的运行程序也包含了所传递对象的流通属性,其特点是,模块结构化程度高,程序繁殖很快,高消耗低效能特征明显。这两类数据在巨大的网络平台上各自位于相对独立的体系并在自有协议中运行。另一方面,两类数据掌管着人、机、物三元世界的信息交换,比如在个性化医疗实施方案中,既需要测量数据的支持也需要系统数据的支持,比如通过普查数据可以了解老龄人口的分布情况,通过互联网监测系统可以对其中的孤寡老人开展危险分层建模和有效的社区医疗服务。后者又为高危人口的进一步分析提供监测的抽样框,所以统一分析非常必要。在这些动态、价值密度有待开发的高维大数据上发展协同自序的新数据应用模型,统计学习方法是必要的工具,它用于协调大数据重组结构中差异的发现和分离,并维护整体分析的同一性。
本书4位作者都是统计学习领域的先行者,作者Trevor Hastie和Robert Tibshirani在十几年前主导了《统计学习基础》(The Elements of Statistical Learning,ESL)的出版,这本书堪称学术经典,系统阐述了统计学习理论,培养了大批数据分析专业人士。而这一次,两位作者提携了两位年轻教授共同推动统计学习在复杂数据分析领域作为模型建立和数据理解的工具的应用。这些工具模型在R软件中可以任意组合,具有很强的实用性和灵活性。与传统统计模型重点关注单一结构的数据统计特征不同,统计学习模型重点关注数据分布结构的提取和程序分析的建构思维。书中例子丰富有趣,涉足诸多领域,包括体育、市场营销、金融等热门领域,案例深入浅出、实验特色鲜明。本书适用于数据分析、机器学习以及统计学等专业方向高年级本科生和研究生,同时也可作为非统计学专业数据分析发烧友的手边参考书。
本人多年从事统计学习、R软件的教学和科研,一个切身的体会是国内大数据分析市场化程度较低,有价值的研究常常无法获得高质量的分析数据,而公共数据的开发还有待深化,一些钟情于数据分析的发烧友其实更迷恋国外结构化较高且内涵丰富的数据,比如Pubmed等。一个原因是具备数据提供能力的人往往不能正确评估手中数据的分析价值,换句话说,是对统计学习方法的实践能力不足。相信这本书将再次掀起国内大数据分析和R实践爱好者参与设计新的学习模型的热潮,从而共同推动国内大数据分析合作市场的建立。正因为如此,我和我的团队牺牲了多半年本该属于其他重点课题研究的宝贵时间,倾情专注于这本书的翻译和校对,除我之外,还有以下同学参与了初稿的翻译:颜娅婷、王人福、佴金菁、李雅菁、张慧婷、许泳铎、王聪、郑轶、马璇、李政寰,其中颜娅婷和王人福还参与了部分初稿的修改工作,王星负责全书的统稿和审核。本书受中国人民大学“985工程”支持和中国人民大学科学研究基金项目人文学科跨界关系网络跟踪评价研究编号13XNI011资助,在此一并感谢。
其实早在10年前我们开始研读《统计学习基础》时就希望有机会参与这个新方向经典作品的翻译,可惜迟到一步。这次翻译弥补了多年的缺憾,能够获得翻译专业经典的机会是我和整个团队的殊荣,相信其他读者也能够从中感受到我们传递给大数据分析爱好者的一份热忱与真诚。
王星
2015年1月
中国人民大学应用统计研究中心&统计学院
前言
统计学习是一套以复杂数据建模和数据理解为目的的工具集,是近期才发展起来的统计学的一个新领域,它与计算机科学特别是其中的机器学习相互融合、协同发展。统计学习领域涵盖了许多方法,比如说lasso回归、稀疏回归、分类和回归树、提升法和支持向量机。
随着“大数据”问题的爆炸式增长,统计学习已成为许多科学领域及市场研究、金融学等商科领域一个非常热门的话题,拥有统计学习技能的人才千金难求。
统计学习领域开山之作之一——《统计学习基础》(The Elements of Statistical Learning,ESL)(作者Hastie, Tibshirani, Friedman)于2001年出版,第2版于2009年问世。现在,ESL已成为统计学界乃至其他相关领域的一本非常受欢迎的教材,其中一个原因是ESL的风格平实,易于接受。但事实上,ESL是为受过数学科学高等训练的人而写的。这本《统计学习导论》(An Introduction to Statistical Learning,ISL)是为对统计学习方法有广泛需求,但又担心技术高深难懂的读者所写。本书所列主题与ESL大体一致,但更注重方法的应用且同时弱化了数学推导的细节。书中附有一些实验以解释如何用R软件实现统计学习方法。这些实验能够给读者提供有价值的实操经验。
本书适合统计学及相关数量分析领域的高年级本科生以及硕士生阅读,也适合其他专业希望运用统计学习工具分析数据的人阅读。本书可作为一学期到两学期课程的教科书使用。
在此,对那些曾经阅读过本书初稿并提出宝贵意见的人致以诚挚的感谢:Pallavi Basu, Alexandra Chouldechova, Patrick Danaher, Will Fithian, Luella Fu, Sam Gross, Max Grazier G�餝ell, Courtney Paulson, Xinghao Qiao, Elisa Sheng, Noah Simon, Kean Ming Tan和Xin Lu Tan。
预测不易,预测未来更不易。——Yogi Berra
Gareth James(美国洛杉矶)
Daniela Witten(美国西雅图)
Trevor Hastie(美国帕罗奥图)
Robert Tibshirani(美国帕罗奥图)
统计学习导论 基于R应用 下载 mobi pdf epub txt 电子书 格式 2024
统计学习导论 基于R应用 下载 mobi epub pdf 电子书很不错的质量,双11卖的很便宜
评分机器学习现在比较热门,书也很多,尤其是引进的国外教程,值得关注,寒假可以学习了?。
评分京东的物品质量一流,办公用品质量优秀、书籍每本都有包装,客服服务好、态度好、随时都能联系到,发票哪种都能提供、不合适也很快能换,物流飞速,任何其它物流都不可比拟。京东确实名副其实地好!perfect!
评分又附了大量习题,很容易上手。
评分感觉不错,下次还会购买!
评分适合初学者,对统计学习有个大概了解。没有公式推到过程,甚至有的没有结果公式。作为了解书使用。
评分专业书,不是都是自己看的,也看不过来啊
评分 评分趁活动买的,满300-200,美滋滋,买这个很合适
统计学习导论 基于R应用 mobi epub pdf txt 电子书 格式下载 2024