命令行中的数据科学

命令行中的数据科学 下载 mobi epub pdf 电子书 2024


简体网页||繁体网页
[荷] 詹森斯(Jeroen Janssens) 著,王晓伟,刘峰 译



点击这里下载
    


想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

发表于2024-12-25

类似图书 点击查看全场最低价

图书介绍

出版社: 人民邮电出版社
ISBN:9787115391681
版次:1
商品编码:11699373
包装:平装
丛书名: 图灵程序设计丛书
开本:16开
出版时间:2015-06-01
用纸:胶版纸
页数:169
正文语种:中文


相关图书





图书描述

编辑推荐

  大数据时代,数据科学研究与分析日益重要。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。

  为此,作者开发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。

  通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改进你的数据科学工作流。

内容简介

  《命令行中的数据科学》集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。

作者简介

  Jeroen Janssens,爱思唯尔(世界领先的科技及医学出版公司)首席数据科学家,曾是纽约YPlan公司高级数据科学家。专门从事机器学习、异常检测和数据可视化。在荷兰马斯特里赫特大学获得人工智能硕士学位,在荷兰蒂尔堡大学获得机器学习博士学位。他热衷于创建数据科学的开源工具。

  王晓伟,毕业于国防科学技术大学,获计算机科学与技术专业博士学位。研究兴趣为海量数据管理与挖掘。

  刘峰,百度LBS位置大数据部资深研发工程师,新加坡南洋理工大学计算机工程系博士,研究领域包括机器学习、神经网络、数据挖掘等。2010年加入百度,主要从事大数据分析和挖掘方面的工作,近年来专注于网络定位、智能交通等LBS大数据的挖掘和机器学习应用。

内页插图

精彩书评

  ★“命令行体现了Unix‘简单工具’的理念,即每个工具完成一项工作,然后巧妙地连接在一起。Jeroen很专业地讨论了怎样将这个理念引入数据科学工作,展示了为什么命令行不仅能够进行简单的文件输入/输出,还是数据操作、探索,甚至建模的利器。”

  ——Chris H. Wiggins,《纽约时报》首席数据科学家,哥伦比亚大学应用物理学与应用数学系副教授


  ★“这本书讲解了如何将常见的数据科学任务集成到一个连贯的工作流,涵盖了分解问题和组合方案的策略。”

  ——John D. Cook,知名应用数学、统计及软件开发咨询顾问

目录

前言 XIII
第1 章 简介 1
1.1 概述 1
1.2 数据科学就是OSEMN 2
1.2.1 数据获取 2
1.2.2 数据清洗 2
1.2.3 数据探索 3
1.2.4 数据建模 3
1.2.5 数据解释 3
1.3 插入的几章 4
1.4 什么是命令行 4
1.5 为什么用命令行做数据科学工作 6
1.5.1 命令行的灵活性 6
1.5.2 命令行可增强 6
1.5.3 命令行可扩展 7
1.5.4 命令行可扩充 7
1.5.5 命令行处不在 7
1.6 一个现实用例 8
1.7 延伸阅读 11
第2 章 入门指南 13
2.1 概述 13
2.2 设置数据科学工具箱 13
2.2.1 步骤1:下载和安装VirtualBox 14
2.2.2 步骤2:下载和安装Vagrant 14
2.2.3 步骤3:下载并启动数据科学工具箱 14
2.2.4 步骤4:登录(Linux 和Mac OS X) 16
2.2.5 步骤4:登录(微软Windows) 16
2.2.6 步骤5:关闭或重启 16
2.3 必要的概念和工具 17
2.3.1 环境 17
2.3.2 运行命令行工具 18
2.3.3 五类命令行工具 19
2.3.4 命令行工具的组合 21
2.3.5 输入和输出重定向 22
2.3.6 处理文件 23
2.3.7 寻求帮助 24
2.4 延伸阅读 26
第3 章 数据获取 27
3.1 概述 27
3.2 将本地文件复制到数据科学工具箱 28
3.2.1 本地数据科学工具箱 28
3.2.2 远程数据科学工具箱 28
3.3 解压缩文件 29
3.4 微软Excel 电子表格的转换 30
3.5 查询关系数据库 32
3.6 从互联网下载 33
3.7 调用Web API 35
3.8 延伸阅读 36
第4 章 创建可重用的命令行工具 37
4.1 概述 38
4.2 将单行转变为shell 脚本 38
4.2.1 步骤1:复制和粘贴 39
4.2.2 步骤2:添加执行权限 40
4.2.3 步骤3:定义shebang 41
4.2.4 步骤4:删除固定的输入 42
4.2.5 步骤5:参数化 42
4.2.6 步骤6:扩展PATH 43
4.3 用Python 和R 创建命令行工具 44
4.3.1 移植shell 脚本 45
4.3.2 处理来自标准输入的流数据 46
4.4 延伸阅读 47
第5 章 数据清洗 49
5.1 概述 50
5.2 纯文本的常见清洗操作 50
5.2.1 行过滤 50
5.2.2 值提取 54
5.2.3 值替换和删除 55
5.3 处理CSV 56
5.3.1 主体、头部和列 56
5.3.2 对CSV 执行SQL 查询 60
5.4 处理HTML/XML 和JSON 61
5.5 CSV 的常见清洗操作 65
5.5.1 列的提取和重排序 65
5.5.2 行过滤 66
5.5.3 列合并 67
5.5.4 多个CSV 文件的合并 70
5.6 延伸阅读 73
第6 章 管理数据工作流 75
6.1 概述 76
6.2 Drake 简介 76
6.3 Drake 的安装 76
6.4 获取古腾堡计划中下载最多的电子书 78
6.5 所有工作流都从单个步骤开始 79
6.6 具体情况具体对待 81
6.7 重新构建具体目标 82
6.8 讨论 83
6.9 延伸阅读 83
第7 章 数据探索 85
7.1 概述 85
7.2 检查数据及其属性 86
7.2.1 确定有数据头 86
7.2.2 检查所有数据 86
7.2.3 特征名称和数据类型 87
7.2.4 唯一标识、连续变量和因子 89
7.3 计算描述性统计信息 90
7.3.1 使用csvstat 90
7.3.2 在命令行中通过Rio 使用R 92
7.4 生成可视化图形 95
7.4.1 介绍Gunplot 和feedgnuplot 95
7.4.2 介绍ggplot2 97
7.4.3 直方图 99
7.4.4 条形图 101
7.4.5 密度图 102
7.4.6 箱线图 103
7.4.7 散点图 103
7.4.8 折线图 105
7.4.9 总结 106
7.5 延伸阅读 106
第8 章 并行管道 107
8.1 概述 108
8.2 串行处理 108
8.2.1 对数字进行遍历 108
8.2.2 对行进行遍历 109
8.2.3 对文件进行遍历 110
8.3 并行处理 111
8.3.1 GNU Parallel 介绍 112
8.3.2 指定输入 113
8.3.3 控制并发任务的个数 114
8.3.4 记录日志和输出 115
8.3.5 创建并行工具 116
8.4 分布式处理 117
8.4.1 获得运行中的AWS EC2 实例列表 117
8.4.2 在远程机器上运行命令 118
8.4.3 在远程机器间分发本地数据 119
8.4.4 在远程机器上处理文件 120
8.5 讨论 123
8.6 延伸阅读 123
第9 章 数据建模 125
9.1 概述 126
9.2 更多的酒,来吧! 126
9.3 用Tapkee 降维 129
9.3.1 介绍Tapkee 130
9.3.2 安装Tapkee 130
9.3.3 线性和非线性映射 130
9.4 用Weka 聚类 132
9.4.1 介绍Weka 132
9.4.2 在命令行里改进Weka 132
9.4.3 在CSV 和ARFF 格式之间转换 136
9.4.4 比较三种聚类算法 136
9.5 通过SciKit-Learn Laboratory 进行回归 139
9.5.1 准备数据 139
9.5.2 运行实验 139
9.5.3 解析结果 140
9.6 用BigML 分类 141
9.6.1 生成均衡的训练和测试数据集 141
9.6.2 调用API 143
9.6.3 检查结果 143
9.6.4 小结 144
9.7 延伸阅读 144
第10 章 总结 145
10.1 让我们回顾一下145
10.2 三条建议 146
10.2.1 有耐心 146
10.2.2 有所创新 146
10.2.3 肯于实践 147
10.3 接下来做什么 147
10.3.1 API 147
10.3.2 shell 编程 147
10.3.3 Python、R 和SQL 147
10.3.4 数据解释 148
10.4 联系方式 148
附录A 命令行工具列表 149
附录B 参考文献 167
作者介绍 169
封面介绍 169

精彩书摘

  数据科学是个激动人心却又非常年轻的领域。不幸的是,许多个人和公司,总是认为需要利用新技术才能解决数据科学提出的问题。实际上,正如本书所揭示的,许多问题使用命令行就能解决,而且有时候效率要高得多。

  大约5 年前,在攻读博士学位期间,我逐步从使用微软Windows 转为使用GUN/Linux。刚开始我有点谨小慎微,因此同时安装了这两个操作系统(也就是双系统启动)。后来,在这两个系统之间切换的需求越来越少,有时我甚至对Arch Linux 修修补补,能从零开始自己定制操作系统。这时能用的只有命令行,而且想做什么完全随心所欲。很快,我就对使用命令行得心应手。最终,由于业余时间越来越宝贵,我决定使用名为Ubuntu 的GNU/Linux 发行版,因为它易于使用并且有庞大的社区。尽管如此,命令行仍然是我完成绝大部分工作的不二选择。

  实际上,我后来认识到,命令行不单可以用于安装软件、配置系统以及搜索文件。于是我开始学习诸如cut、sort 和sed 这些命令行工具。这些工具都是将数据作为输入,对数据进行处理,然后打印结果。Ubuntu 自带了相当多这样的工具。当明白可以将这些小工具结合起来使用时,我就对它入迷了。

  当我拿到博士学位,成为一名数据科学家时,我想充分利用这种方法来做数据科学工作。

  幸亏有几个新的开源命令行工具,包括scrape、jq 和json2csv,我甚至能够使用命令行来完成抓取网站以及处理大量JSON 数据这样的任务。2013 年9 月,我写了一篇名为“数据科学的7 个命令行工具”的博客文章(http://jeroenjanssens.com/2013/09/19/seven-commandline-tools-for-data-science.html)。让我吃惊的是,这篇文章获得很大反响。后来许多人向我推荐其他命令行工具,于是我开始考虑是否可以将这篇文章扩充成书。令人高兴的是,10个月之后,在许多才华横溢的人的帮助下(参见“致谢”),本书得以付梓。

  分享这段个人经历不仅是想介绍本书的由来,更是希望你知道我也是需要学习命令行的。使用命令行与使用图形化用户界面迥然不同,刚开始可能是令人生畏的。但是,既然我能够学会它,你当然也没问题。不管你目前使用的是什么操作系统,也不管你现在是以什么方式做数据科学的工作,读完本书,你也能够利用命令行的强大能力。即使你已经熟悉命令行,或者甚至已经打算学习shell 脚本,你仍然可能在书中发现一些有趣技巧或命令行工具,能用于未来的数据科学项目。

  从本书可以学到的

  书中将对大量数据进行获取、清洗、探索以及建模。我们不会过多介绍如何完成这些数据科学任务,因为对于诸如应该何时及用什么进行统计检验,或者怎样才能将数据可视化做到最好,很容易找到大量参考资料。本书致力于实用性,旨在通过教你用命令行执行数据科学任务,使你更加高效和多产。

  尽管书中讨论了80 多个命令行工具,但这些工具本身并不是最重要的。有些命令行工具存在已久,有些则是新近出现,并且可能最终会被更好的工具所取代。甚至在你阅读本书的时候,有的命令行工具正在创建之中。在过去的10 个月里,我就已经发现了许多奇妙的命令行工具。遗憾的是,有的工具被发现的时间太晚,无法包含在本书中。总之,命令行工具的新陈代谢是常态。

  用工具、管道和数据进行工作的思想才是最重要的。多数命令行工具只做一项任务,并且做得很好。这符合Unix 的理念,这种理念在书中许多地方都有体现。一旦熟悉了命令行,并且学会了如何将命令行工具结合起来,你就学会了一项非常宝贵的技能。如果还能创建新的工具,那你就出类拔萃了。

  ……

前言/序言


命令行中的数据科学 下载 mobi epub pdf txt 电子书 格式

命令行中的数据科学 mobi 下载 pdf 下载 pub 下载 txt 电子书 下载 2024

命令行中的数据科学 下载 mobi pdf epub txt 电子书 格式 2024

命令行中的数据科学 下载 mobi epub pdf 电子书
想要找书就要到 图书大百科
立刻按 ctrl+D收藏本页
你会得到大惊喜!!

用户评价

评分

不错,是我所需要的

评分

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

评分

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率;对关联规则的应用进行推广。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。

评分

  2.拈花问佛,寓教于乐,开示人生,传递智慧,每个人都可以在书中找到行走人生的答案。这是都市白领净化心灵的一次修行之旅,也是老人享受天伦之乐的最佳娱乐创意,还是家长开启孩子智慧之根的健康漫画读物。

评分

书很薄的,学习中,活动中买的

评分

很不错,讲的很细致,是一本好书

评分

很实用的一本书

评分

命令行工具不错

评分

图解机器学习图解机器学习

类似图书 点击查看全场最低价

命令行中的数据科学 mobi epub pdf txt 电子书 格式下载 2024


分享链接








相关图书


本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

友情链接

© 2024 book.teaonline.club All Rights Reserved. 图书大百科 版权所有