发表于2024-11-21
资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅
以降低学习曲线和阅读难度为宗旨,重点讲解了统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,清晰勾勒出大数据技术路线与产业蓝图
目前很多大中型企业都有数据分析岗位,尤其是和自己业务结合紧密的分析岗位。企业求贤若渴,而求职者对数据分析岗位望而却步。这就是当前大数据分析市场的尴尬。
原因有三:
●数学基础薄弱:很多应用中的统计学、概率学,成为学习中的巨大阻力。
●学习成本高:数学和相关的算法过于抽象,布道者往往忽略了很多解释性的内容,使得读者学习起来费时费力。
●变现不确定:这也是数据分析人员的尴尬。个人对数据的加工增值以及变现有多大的贡献难以度量。
本书通俗易懂,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。同时,本书不是割裂讲解大数据与机器学习的算法和应用,还讲解了其生态环境与关联内容,让读者更全面地知晓渊源与未来,是系统学习大数据与机器学习的不二之选:
●大数据产业解读——剖析产业情况,人才供需、职业选择与相应“武器”库;
●步入大数据之门——解读数据、信息、算法,以及与大数据应用的关系;
●大数据基石——结合大量示例和漫画,趣味讲解大数据算法应掌握的数学知识,无障碍学习;
●大数据算法奥义——信息论、向量空间、回归、聚类、分类等*为核心的算法的释义与应用,举重若轻;
●大数据热门应用——关联分析、用户画像、推荐算法、文本挖掘、人工神经网络等*实用、*需要了解的应用的原理与实现;
●大数据主流框架——介绍了主流的大数据框架(Hadoop、Spark和Cassandra);
●系统架构与调优——从速度与稳定性方面给出调优的一般性“内功心法”;
●大数据价值与变现——从运营指标、AB测试、大数据价值与变现场景多维度解读。
资深大数据专家多年实战经验总结,拒绝晦涩,开启大数据与机器学习妙趣之旅。以降低学习曲线和阅读难度为宗旨,系统讲解统计学、数据挖掘算法、实际应用案例、数据价值与变现,以及高级拓展技能,并清晰勾勒出大数据技术路线与产业蓝图。
本书共分18章。用通俗易懂的语言,结合大量案例与漫画,不枯燥,实用、接地气。
第1~5章,这部分是大数据入门所需的系统性知识,剖析大数据产业、数据与信息算法等的关系,妙解数学基础(排列组合、概率、统计与分布),以及指标化运营及体系构建。这部分补足读者的产业与相关概念认知,以及所需的数学知识。为下面的数据挖掘算法的理解与应用夯实基础。
第6~8章,这部分介绍数据挖掘基础知识与算法,讲解了与数据息息相关的信息论,重点讲解了:多维向量空间(向量和维度、矩阵及其计算、上卷和下钻);
回归(线性回归、残差分析、拟合相关问题);
聚类(K-Means算法、有趣模式、孤立点、层次与密度聚类,聚类的评估等);
分类(朴素贝叶斯、决策树归纳、随机森林、隐马尔科夫模型、SVM、遗传算法)。
第11~18章,这部分介绍生产应用与高级扩展。其中第11~15章介绍生产应用实践,涵盖关联分析、用户画像、推荐算法、文本挖掘、人工神经网络。这些也是工业界和学术界研究的热点。第16章讲解了著名的大数据框架及其安装与配置,如Hadoop、Spark、Cassandra、PrestoDB。第17章从速度与稳定性维度介绍了大数据系统的架构与调优。第18章则从数据运营、评估、展现与变现场景层面进行了解读。
附录部分给出了大数据平台运行可能需要的软件和库,以及群众如何看待炙手可热的大数据。
为什么要写这本书
不知从何时开始我们已周身没入大数据时代的潮流,不知不觉被卷入了大数据时代。
无论是每天上网看网页、聊QQ、聊微信,或者登录银行、网购、买票,或者出行、投宿,甚至是出入任何公众场合、驾车、用水用电……我们无时无刻不在生产着各种数据。而同时我们也在消费着其他人生产的数据,我们使用的众多家电产品,每一个设计细节都融入了设计者对用户体验数据的调查与分析;我们使用的每一部手机、每一台电脑,每一个部件的产出都融入着多得无法想象的指标数据控制下的生产与监控;我们访问的每一个网页、每一个软件,每一次享受到的贴心的产品改动和服务的升级,无不浸透着无数的数据汇集与精细的分析和反馈。这是一场慢慢到来的、贯穿所有产业的革命,这是一次润物细无声的各行业精耕细作的开端。
不管我们是不是愿意,不管我们有没有意识到,我们现在已经身处大数据时代的奇点,而未来要迎接的是大数据奇点爆炸给我们带来的冲击力。我们需要力量来驾驭浪里的航船,我们需要乘风破浪前进的动力。
在这一次远航中,我们不必担心自己的能力水平无法感知数据这种磅礴之力的气魄,不必担心晦涩难懂的公式定理会让我们感到阻力。
请相信我,这是一本通俗易懂的大数据图书,这是一本轻松愉悦的数据挖掘和机器学习的读本,这是一本没有门槛的机器学习实战手册。让我们一起扬帆远航吧!
本书特色
从行为脉络来看,本书基本上是从数据统计、数据指标理解、数据模型、聚类/分类与机器学习、数据应用、大数据框架补充知识,以及扩展讨论这样的角度来层层深入完成的。
这种方式会给读者比较好的带入感,让大家——尤其是不擅长数学的读者降低对大数据与机器学习算法的恐惧感。如果读者朋友对排列组合、统计分布这些基础知识比较了解,完全可以考虑跳过这些部分直接去读后面更感兴趣的内容。
为了调节阅读气氛,我们还尝试加入了一些漫画插图。为了让读者朋友能够更快地进行实践,我们几乎在每一个算法讲解后都配有Python或者SQL语言的实现部分。相信这些能够帮助大家更快、更轻松地阅读本书。
读者对象
(1)对大数据感兴趣但是完全不了解的技术人员。
(2)对机器学习和数据挖掘比较感兴趣的技术人员。
(3)大数据初级从业人员。
如何阅读本书
本书一共分为18章。
第1章~第5章为入门所需基础知识及对数据指标运营的阐述。
第6章~第10章是对数据挖掘基础知识与算法的介绍。
第11章~第18章为生产应用与高级扩展。
其中,第1章~第15章正文内容,以及第17章、第18章的正文内容由高扬编写。
全书所有的Python代码由卫峥编写与补充整理。
第16章、附录全部由尹会生编写。
全书所有的漫画插画由万娟创作完成。
勘误和支持
由于水平有限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。如果你有更多的宝贵意见,欢迎扫描下方的二维码,关注“奇点大数据”微信公众号和我们进行互动讨论。关注大数据尖端技术发展,关注“奇点大数据”。
同时,你也可以通过邮箱联系到我,期待能够得到你的真挚反馈,在技术之路上互勉共进。
致谢
特别感谢:万娟女士为本书做的漫画插画内容。
万娟女士现任深圳星盘科技有限公司UI设计师,是我在多年工作中遇到过的最敬业的UI设计师之一,在2013年一起合作的过程中给我留下了非常深刻的印象。
她多次参加全国和国际艺术比赛,曾获得全国青少年绘画大赛铜奖,中国–新加坡国际青少年绘画比赛优秀奖,以及全国大学生工业设计大赛三等奖。从小酷爱绘画,理想是开一个属于自己的画室。
她给我留下的最深刻的印象用两个词可以描述:一个词是“敬业”,不管是在过去共事期间的合作,还是在为本书创作插画的过程中,为了保证进度带病坚持创作,都让我非常感动;另一个词是“唯美”,不仅人长得美,作品设计风格也透出现代与时尚的气息。
此外还要对所有支持和关心本书成书的各界朋友表示由衷的感谢:
衷心感谢北京邮电大学软件学院杨谈老师对本书的审校工作。
衷心感谢腾讯公司数据分析师彭瑶女士对本书的审校工作。
衷心感谢重庆工商大学黄辉老师、杨艺老师对本书的大力支持。
衷心感谢机械工业出版社华章公司对本书的支持与帮助。
衷心感谢“奇点大数据”微信群友对本书的关注与支持。
高扬
白话大数据与机器学习 下载 mobi pdf epub txt 电子书 格式 2024
白话大数据与机器学习 下载 mobi epub pdf 电子书尊故!首先,宝贝是性价比很高的,我每次都会先试用再评
评分翻了几页,感觉还不错
评分很好很好的很好商品,推荐购买
评分书很不错,非常有趣,希望能多学一点东西
评分挺不错的书籍,作为一本初步了解是很不错,前面关于概率,统计内容挺好懂,虽然我学过了概率论与数理统计,但前面内容还是很有启发性
评分京东送货很快,活动很多,购物首选京东。
评分书很好,还没开始看,但是做活动便宜死了,不买血亏,买了血赚。
评分挺不错的书籍,作为一本初步了解是很不错,前面关于概率,统计内容挺好懂,虽然我学过了概率论与数理统计,但前面内容还是很有启发性
评分挺不错的书籍,作为一本初步了解是很不错,前面关于概率,统计内容挺好懂,虽然我学过了概率论与数理统计,但前面内容还是很有启发性
白话大数据与机器学习 mobi epub pdf txt 电子书 格式下载 2024