内容简介
本书关注的是使用R与Python预测分析建模来解决实际问题。在每一章加入一些特定应用领域和业界问题的案例,并提供有效的解决方法。通过展示建模技术和编程工具,我们将抽象的概念转换为具体的例子。这些详实的案例有助于读者理解相关知识。
目录
译者序
前 言
第1章分析与数据科学
第2章广告与促销
第3章偏好与选择
第4章购物篮分析
第5章经济数据分析
第6章运营管理
第7章文本分析
第8章情感分析
第9章体育分析
第10章空间数据分析
第11章品牌和价格
第12章大型的小数字游戏
附录A数据科学方法
附录B测量方法
附录C案例研究
附录D编码和脚本
参考文献
前言/序言
“好吧!好吧!除了更好的卫生设备、医药、教育、葡萄酒、公共秩序、水利、公路和淡水系统和公共医疗——罗马人还为我们做过什么?”
一出自《布莱恩的一生》(1979年)中John Cleese的对白20世纪70年代末,我在明尼苏达大学攻读博士学位。在此期间,我学习了一门统计学编程课程。上课伊始,老师说:“课程作业不限编程语言,只要自己独立完成即可。”
当时,我已经熟练掌握F ortran语言,同时自学了Pascal。我正在研究一种结构化的编程方式——不仅仅是GO TO语句。因此,我将老师的话信以为真,用Pascal语言完成了第一次作业。班里的其余14名同学用统计专业通用的Fortran语言。
当我提交作业的时候,老师看了看问我:“这是什么编程语言?”
“Pascal,”我回答,“您说过,我们可以选择任意一种编程语言,只要独立完成就好。”
老师回应说:“Pascal。我不会Pascal,只会Fortran。”
如今,数据科学世界汇聚了熟练使用Python语言的信息技术专业人士和熟练使用R语言的统计学者。他们之间有很多地方值得相互学习。对于数据分析科学家来讲,掌握多种编程语言是一种相当大的优势。
Python有时被称为“黏合语言”,它为科学编程和研究提供了丰富的开源环境。在计算机密集型应用领域,Python给予一种从C、C++和Fortran调用编译程序的能力。
我们可以用Cython将Python转换为优化的C语句。我们可以用R解决当前用Python无法实现的建模和绘图问题。通过调用R软件包,我们能够处理非线性估计、贝叶斯分层建模、时间序列分析、多变量方法、统计制图和缺失数据,正如R使用者能从通用的Python语言中获益一样。
现如今,数据与算法当道。欢迎来到一个崭新的世界,一个快节奏、数据密集的世界,一个开源的环境。在这个环境中,通过分析技术和思想交流可以获得一个具有竞争力却稍纵即逝的优势。
很多有关预测分析和数据科学的书都在讨论策略与管理。还有一些书关注方法和模型。其余则讨论信息技术(和代码)。本书是一部同时兼顾三者的罕见著作,很受业界管理者、建模人士和程序员的青睐。
在获得具有竞争力的优势过程中,我们意识到了分析的重要性。我们通过提供建模技术的现有资源和参考指南,来帮助研究者和分析师。我们能够向程序员展示如何建立一个解决真实问题的代码基础。我们图文并茂地为管理者解释模型结果,以及数据和模型的意义。
随着收集和存储的数据容量增大、可用于分析的数据类型增多、数据产生和分析需求的速度加快,数据分析的重要性与日俱增。获得具有竞争力的优势意味着为信息管理和分析提供一套新体系,意味着业界问题处理方式的改变。
由于涉及很多学科和应用领域,数据科学的文献资料浩如烟海。相关的开源代码层出不穷。事实上,提供一部预测分析和数据科学的综合性指南将成为一项挑战。
我们关注的是实际问题和真实数据。在每一章加入一些特定应用领域和业界问题的案例,并提供有效的解决方法。通过展示建模技术和编程工具,我们将抽象的概念转换为具体的例子。这些详实的案例有助于读者的理解。
我们的宗旨是提供一种适合于很多读者的预测分析和数据科学方面的综述。本书省略了数学部分。有关具体的细节和方法导论,请统计学者和建模人士查阅参考文献。我们用通俗易懂的语言讲述方法,使用数据的可视化展示业界问题的解决方案。
了解本书的宗旨后,一些读者可能会想知道我是经典学派还是贝叶斯学派。在明尼苏达大学统计学院读书时,我对两大学派都心生敬意。我非常崇拜经验贝叶斯学者和将机器学习与传统统计学相结合的研究者。在建模和推断方面,我则是一个实用主义者。
我会做有效的研究工作,并做出通俗易懂的解释。
本书之所以必要,是因为世界各地成千上万的专家将时间和想法贡献给开放源代码事业。开放源代码的增加及其难度的进一步降低,确保了先进的解决方法一定会在多年以后出现。精灵跑出明灯,能手走出幕后——火箭科学不再如往常。秘密正在被揭晓。
本书就是此过程的一部分。
本书的绝大部分数据来自公开数据源。美国职棒大联盟的晋级和上座率数据由Erica Costello提供。计算机选择研究数据由Sharon Chamberlain提供。“匿名银行”
的呼叫中心数据由Avi Mandelbaum和Ilan Guedj提供。电影信息获得了互联网电影数据库的使用许可。IMDb电影评论数据由Andrew L.Mass和他在斯坦福大学的同事一起管理。其中一些例子出自佛罗里达州坦帕市的ToutBay,NCR Comten,Hewlett-Packard公司,纽约的Site Analytics公司,威斯康星州麦迪逊的Sunseed Research和麦迪逊的Union Cab Cooperative的工作人员。
戎们在一个开源的环境中分享代码。我们所做的工作就是编译程序。在这个环境中,每个人都可以浏览现有程序,一些人还可以调试程序。为了促进学生学习,所有程序都包括了方便深入分析的详细注释和建议。所有数据集和计算机程序都可从本书的网站上下载:http://www.ftpres s.c om/miller/。
本书的最初计划是将R版本转换为Python版本。然而,当我只用Python撰写本书时,我对两种编程语言产生了更加深远的敬意。我见证了一些问题用Python处理起来很容易,而另外一些问题则更适合用R来处理。而且,对于从事数据实践的科学家来讲,在使用Python进行建模和绘图时,R软件包的调用成为一种明显的优势。因此,本书同时给出Python和R代码示例,提供了一部独特的双语数据科学指南。
在过去的几年间,我受到了很多人的影响。很感激那些优秀的思想家,出色的人,还有老师和导师。遗憾的是,尤西纽斯学院的哲学家Gerald Hahn Hinkle和语言学家Allan Lake Rice,还有明尼苏达大学的哲学家Herbert Feigl,他们永远离开了我们。此外,我非常感谢明尼苏达大学的心理测验学者David J.Weiss和俄勒冈大学的经济学者Kelly Eakin。德高望重的老师是我一生的财富。
感谢Michael L.Rothschild、Neal M. Ford、Peter R.Dickson和Janet Christopher。
在威斯康星麦迪逊分校和A C.尼尔森中心一起进行市场调查的那段时间里,他们给我提供了非常重要的支持。
我住在距离道奇体育场北面4英里e的加利福尼亚洲,在伊利诺伊州埃文斯市的西北大学任教,兼任佛罗里达州坦帕市数据科学公司ToutBay的产品研发指导。这些者B为我提供了良好的互联网连接环境。
我很庆幸自己完成了美国西北大学专业进修学院的远程教育。感谢Glen Fogerty给予了我在西北大学预测分析编程专业授课并承担领导角色的机会。感谢管理这一研究项目的同事们和工作人员,同时感谢让我获益良多的同学们和老师们。
ToutBay是一家新兴的数据科学公司。Greg Blence是联合创始人之一,我很期待接下来的发展。感谢Greg让我加盟并扎根于实际问题。迄今为止,只有学术和数据科学模型引领着我们。为了有所作为,我们最终必须实现我们的想法和模型,并分享给大家。
TEXnology公司的Amy Hendrickson编辑了本书的文字、表格和图片,取得了开源的又一次胜利。感谢Donald Knuth和TEX/LATEX提供了很好的排版和出版系统。
感谢本书R版本的读者和审校者,他们是Suzanne Callender、Philip M. Goldfeder、Melvin Ott和Thomas P.Ryan。Lorena Martin为本书R版本的修订版提供了很多的反馈和建议。Candice Bradley兼任了审校者和文字编辑,Roy L.Sanford对统计模型和程序提供了技术支持。感谢Jeanne Glasser Levine编辑,和Pearson/FT出版社(是他们让这本书最终面世)。当然,任何写作问题和错误,以及疏漏仅是我个人的责任。
我的好朋友Brittney和他的女儿Janiya只要在时间允许的情况下都会来陪伴我。还有我的儿子Daniel,无论是逆境还是顺境,他总是在我身边,是我一生的朋友。他们的信任和支持让我无以为报。
Thomas W. Miller加利福尼亚州格伦代尔市
预测分析建模:Python与R语言实现 下载 mobi epub pdf txt 电子书 格式