发表于2025-01-23
√ 来自一直盛产人工智能黑科技的神秘之师,他们也是开源分布式系统ytk-learn和ytk-mp4j的作者。
√ 用一线工程视角,透过关键概念、模型、算法原理和实践经验,为入坑者破解深度学习“炼金术”。
√ 算法、代码容易获取,结合产品需求落地机器学习才是难题,本书旨在让算法真正在团队扎根长大。
√ 胸怀全局、了如指掌才能在实践中少走弯路,用理论滋养创新能力,这也是本书导向的至臻境界。
《深度学习核心技术与实践》主要介绍深度学习的核心算法,以及在计算机视觉、语音识别、自然语言处理中的相关应用。本书的作者们都是业界第一线的深度学习从业者,所以书中所写内容和业界联系紧密,所涵盖的深度学习相关知识点比较全面。本书主要讲解原理,较少贴代码。本书适合深度学习从业人士或者相关研究生作为参考资料,也可以作为入门教程来大致了解深度学习的相关前沿技术。
猿辅导应用研究团队成立于2014年年中,一直从事深度学习在教育领域的应用和研究工作。团队成员均毕业于北京大学、清华大学、上海交大、中科院、香港大学等知名高校,大多数拥有硕士或博士学位。研究方向涵盖了图像识别、语音识别、自然语言理解、数据挖掘、深度学习等领域。团队成功运用深度学习技术,从零开始打造出活跃用户过亿的拍照搜题APP――小猿搜题,开源了分布式机器学习系统ytk-learn和分布式通信系统ytk-mp4j。此外,团队自主研发的一系列成果均成功应用到猿辅导公司的产品中。包括:速算应用中的在线手写识别、古诗词背诵中的语音识别、英语口语智能批改、英文手写拍照识别和英语作文智能批改等技术。
拍照搜题APP“小猿搜题”,以及猿辅导公司一系列被称为“小猿黑科技”的产品——英语作文自动批改、英语口语自动打分纠错、速算应用中的在线手写识别等的核心部分,都是我们的应用研究团队,也就是本书的作者们实现的。在几乎全经济部门言必称人工智能、深度学习之时,出版这样一线业者的著作,是真正有益的工作。一个公司所做,不仅有益于用户,也能有益于行业,本书的出版也是我司的骄傲时刻。感谢应用研究团队。
——猿辅导公司CEO 李勇
本书的作者之一邓澍军博士和夏龙是我的老同事,几年前我们在网易有道共事时,他俩就开始了孜孜不倦的机器学习“修炼”之旅,读经典专著和论文,研读代码,推动机器学习技术和公司业务结合,这股劲头一直延续到他们加入猿辅导创业。今天,他们把自己对深度学习方法的心得体会、落地的第一手经验凝集在《深度学习核心技术与实践》这本书里,即使是我这种自认为经验很丰富的人,也从这本书中学到了很多不曾了解的知识。
——北京一流科技有限公司创始人 袁进辉(老师木)
这本书的不少作者都是我的前同事。从书中我看到了熟悉的务实、钻研、追求实际效果的风格。在深度学习被称为“炼金术”的当前,本书通过第一线的视角,既包含工程实践所需的关键概念、模型和算法原理,也有多年实践经验的总结。本书内容深入浅出,干货满满,是一本不可多得的入门和实践参考书。
——网易有道首席科学家 段亦涛
第1 部分深度学习基础篇1
1 概述
1.1 人工智能
1.1.1 人工智能的分类
1.1.2 人工智能发展史
1.2 机器学习
1.2.1 机器学习的由来
1.2.2 机器学习发展史
1.2.3 机器学习方法分类
1.2.4 机器学习中的基本概念
1.3 神经网络
1.3.1 神经网络发展史
参考文献
2 神经网络
2.1 在神经科学中对生物神经元的研究
2.1.1 神经元激活机制
2.1.2 神经元的特点
2.2 神经元模型
2.2.1 线性神经元
2.2.2 线性阈值神经元
2.2.3 Sigmoid 神经元
2.2.4 Tanh 神经元
2.2.5 ReLU
2.2.6 Maxout
2.2.7 Softmax
2.2.8 小结
2.3 感知机
2.3.1 感知机的提出
2.3.2 感知机的困境
2.4 DNN
2.4.1 输入层、输出层及隐层
2.4.2 目标函数的选取
2.4.3 前向传播
2.4.4 后向传播
2.4.5 参数更新
2.4.6 神经网络的训练步骤
参考文献
3 初始化模型
3.1 受限玻尔兹曼机
3.1.1 能量模型
3.1.2 带隐藏单元的能量模型
3.1.3 受限玻尔兹曼机基本原理
3.1.4 二值RBM
3.1.5 对比散度
3.2 自动编码器
3.2.1 稀疏自动编码器
3.2.2 降噪自动编码器
3.2.3 栈式自动编码器
3.3 深度信念网络
参考文献
4 卷积神经网络
4.1 卷积算子
4.2 卷积的特征
4.3 卷积网络典型结构
4.3.1 基本网络结构
4.3.2 构成卷积神经网络的层
4.3.3 网络结构模式
4.4 卷积网络的层
4.4.1 卷积层
4.4.2 池化层
参考文献
5 循环神经网络
5.1 循环神经网络简介
5.2 RNN、LSTM 和GRU
5.3 双向RNN
5.4 RNN 语言模型的简单实现
参考文献
6 深度学习优化算法
6.1 SGD
6.2 Momentum
6.3 NAG
6.4 Adagrad
6.5 RMSProp
6.6 Adadelta
6.7 Adam
6.8 AdaMax
6.9 Nadam
6.10 关于优化算法的使用
参考文献
7 深度学习训练技巧
7.1 数据预处理
7.2 权重初始化
7.3 正则化
7.3.1 提前终止
7.3.2 数据增强
7.3.3 L2/L1 参数正则化
7.3.4 集成100
7.3.5 Dropout
参考文献
8 深度学习框架
8.1 Theano
8.1.1 Theano
8.1.2 安装
8.1.3 计算图
8.2 Torch
8.2.1 概述
8.2.2 安装
8.2.3 核心结构
8.2.4 小试牛刀
8.3 PyTorch
8.3.1 概述
8.3.2 安装
8.3.3 核心结构
8.3.4 小试牛刀
8.4 Caffe
8.4.1 概述
8.4.2 安装
8.4.3 核心组件
8.4.4 小试牛刀
8.5 TensorFlow
8.5.1 概述
8.5.2 安装
8.5.3 核心结构
8.5.4 小试牛刀
8.6 MXNet
8.6.1 概述
8.6.2 安装
8.6.3 核心结构
8.6.4 小试牛刀
8.7 Keras
8.7.1 概述
8.7.2 安装
8.7.3 模块介绍
8.7.4 小试牛刀
参考文献
第2 部分计算机视觉篇
9 计算机视觉背景
9.1 传统计算机视觉
9.2 基于深度学习的计算机视觉
9.3 参考文献
10 图像分类模型
10.1 LeNet-5
10.2 AlexNet
10.3 VGGNet
10.3.1 网络结构
10.3.2 配置
10.3.3 讨论
10.3.4 几组实验
10.4 GoogLeNet
10.4.1 NIN
10.4.2 GoogLeNet 的动机
10.4.3 网络结构细节
10.4.4 训练方法
10.4.5 后续改进版本
10.5 ResNet
10.5.1 基本思想
10.5.2 网络结构
10.6 DenseNet
10.7 DPN
参考文献
11 目标检测
11.1 相关研究
11.1.1 选择性搜索
11.1.2 OverFeat
11.2 基于区域提名的方法
11.2.1 R-CNN
11.2.2 SPP-net
11.2.3 Fast R-CNN
11.2.4 Faster R-CNN
11.2.5 R-FCN
11.3 端到端的方法
11.3.1 YOLO
11.3.2 SSD
11.4 小结
参考文献
12 语义分割
12.1 全卷积网络
12.1.1 FCN
12.1.2 DeconvNet
12.1.3 SegNet
12.1.4 DilatedConvNet
12.2 CRF/MRF 的使用
12.2.1 DeepLab
12.2.2 CRFasRNN
12.2.3 DPN
12.3 实例分割
12.3.1 Mask R-CNN
参考文献
13 图像检索的深度哈希编码
13.1 传统哈希编码方法
13.2 CNNH
13.3 DSH
13.4 小结
参考文献
第3 部分语音识别篇
14 传统语音识别基础
14.1 语音识别简介
14.2 HMM 简介
14.2.1 HMM 是特殊的混合模型
14.2.2 转移概率矩阵
14.2.3 发射概率
14.2.4 Baum-Welch 算法
14.2.5 后验概率
14.2.6 前向-后向算法
14.3 HMM 梯度求解
14.3.1 梯度算法1
14.3.2 梯度算法2
14.3.3 梯度求解的重要性
14.4 孤立词识别
14.4.1 特征提取
14.4.2 孤立词建模
14.4.3 GMM-HMM
14.5 连续语音识别
14.6 Viterbi 解码
14.7 三音素状态聚类
14.8 判别式训练
参考文献
15 基于WFST 的语音解码
15.1 有限状态机
15.2 WFST 及半环定义
15.2.1 WFST
15.2.2 半环(Semiring)
15.3 自动机操作
15.3.1 自动机基本操作
15.3.2 转换器基本操作
15.3.3 优化操作
15.4 基于WFST 的语音识别系统
15.4.1 声学模型WFST
15.4.2 三音素WFST
15.4.3 发音字典WFST
15.4.4 语言模型WFST
15.4.5 WFST 组合和优化
15.4.6 组合和优化实验
15.4.7 WFST 解码
参考文献
16 深度语音识别
16.1 CD-DNN-HMM
16.2 TDNN
16.3 CTC
16.4 EESEN
16.5 Deep Speech
16.6 Chain
参考文献
17 CTC 解码
17.1 序列标注
17.2 序列标注任务的解决办法
17.2.1 序列分类
17.2.2 分割分类
17.2.3 时序分类
17.3 隐马模型
17.4 CTC 基本定义
17.5 CTC 前向算法
17.6 CTC 后向算法
17.7 CTC 目标函数
17.8 CTC 解码基本原理
17.8.1 最大概率路径解码
17.8.2 前缀搜索解码
17.8.3 约束解码
参考文献
第4 部分自然语言处理篇
18 自然语言处理简介
18.1 NLP 的难点
18.2 NLP 的研究范围
19 词性标注
19.1 传统词性标注模型
19.2 基于神经网络的词性标注模型
19.3 基于Bi-LSTM 的神经网络词性标注模型
参考文献
20 依存句法分析
20.1 背景
20.2 SyntaxNet 技术要点
20.2.1 Transition-based 系统
20.2.2 “模板化” 技术
20.2.3 Beam Search
参考文献
21 word2vec
21.1 背景
21.1.1 词向量
21.1.2 统计语言模型
21.1.3 神经网络语言模型
21.1.4 Log-linear 模型
21.1.5 Log-bilinear 模型
21.1.6 层次化Log-bilinear 模型
21.2 CBOW 模型
21.3 Skip-gram 模型
21.4 Hierarchical Softmax 与Negative Sampling
21.5 fastText
21.6 GloVe
21.7 小结
参考文献
22 神经网络机器翻译
22.1 机器翻译简介
22.2 神经网络机器翻译基本模型
22.3 基于Attention 的神经网络机器翻译
22.4 谷歌机器翻译系统GNMT
22.5 基于卷积的机器翻译
22.6 小结
参考文献
第5 部分深度学习研究篇
23 Batch Normalization
23.1 前向与后向传播
23.1.1 前向传播
23.1.2 后向传播
23.2 有效性分析
23.2.1 内部协移
23.2.2 梯度流
23.3 使用与优化方法
23.4 小结
参考文献
24 Attention
24.1 从简单RNN 到RNN + Attention
24.2 Soft Attention 与Hard Attention
24.3 Attention 的应用
24.4 小结
参考文献
25 多任务学习
25.1 背景
25.2 什么是多任务学习
25.3 多任务分类与其他分类概念的关系
25.3.1 二分类
25.3.2 多分类
25.3.3 多标签分类
25.3.4 相关关系
25.4 多任务学习如何发挥作用
25.4.1 提高泛化能力的潜在原因
25.4.2 多任务学习机制
25.4.3 后向传播多任务学习如何发现任务是相关的
25.5 多任务学习被广泛应用
25.5.1 使用未来预测现在
25.5.2 多种表示和度量
25.5.3 时间序列预测
25.5.4 使用不可操作特征
25.5.5 使用额外任务来聚焦
25.5.6 有序迁移
25.5.7 多个任务自然地出现
25.5.8 将输入变成输出
25.6 多任务深度学习应用
25.6.1 脸部特征点检测
25.6.2 DeepID2
25.6.3 Fast R-CNN
25.6.4 旋转人脸网络
25.6.5 实例感知语义分割的MNC
25.7 小结
参考文献
26 模型压缩
26.1 模型压缩的必要性
26.2 较浅的网络
26.3 剪枝
26.4 参数共享
26.5 紧凑网络
26.6 二值网络
26.7 小结
参考文献
27 增强学习
27.1 什么是增强学习
27.2 增强学习的数学表达形式
27.2.1 MDP
27.2.2 策略函数
27.2.3 奖励与回报
27.2.4 价值函数
27.2.5 贝尔曼方程
27.2.6 最优策略性质
27.3 用动态规划法求解增强学习问题
27.3.1 Agent 的目标
27.3.2 策略评估
27.3.3 策略改进
27.3.4 策略迭代
27.3.5 策略迭代的例子
27.3.6 价值迭代
27.3.7 价值迭代的例子
27.3.8 策略函数和价值函数的关系
27.4 无模型算法
27.4.1 蒙特卡罗法
27.4.2 时序差分法
27.4.3 Q-Learning
27.5 Q-Learning 的例子
27.6 AlphaGo 原理剖析
27.6.1 围棋与机器博弈
27.6.2 Alpha-Beta 树
27.6.3 MCTS
27.6.4 UCT
27.6.5 AlphaGo 的训练策略
27.6.6 AlphaGo 的招式搜索算法
27.6.7 围棋的对称性
27.7 AlphaGo Zero
参考文献
28 GAN
28.1 生成模型
28.2 生成对抗模型的概念
28.3 GAN 实战
28.4 InfoGAN――探寻隐变量的内涵
28.5 Image-Image Translation
28.6 WGAN(Wasserstein GAN)
28.6.1 GAN 目标函数的弱点
28.6.2 Wasserstein 度量的优势
28.6.3 WGAN 的目标函数
参考文献
A 本书涉及的开源资源列表
前言
本书的大部分作者在深度学习流行之前有幸从事机器学习相关工作多年。在我们内部,一直认同一个段子:有多少人工就有多少智能。在深度学习流行之前的传统机器学习年代,我们认为“人工”更多强调的是特征工程之难,需要机器学习从业者不断分析数据,挖掘新的特征。在深度学习流行的这几年,我们认为这句话依然成立,只是“人工”更多地强调人工标注,因为深度学习需要大量的标注数据。当然,也有人反驳说不需要标注,用户的使用历史天然就是标注。实际上,这可以理解为一种众筹标注。
在深度学习发展的未来,我们希望这句话不再成立,期待无监督模型取得更长足的进步,使得“人工”智能变为真正的智能。在追求智能的路上,我们虽然是创业公司,但一直坚持机器学习相关课程的学习和Paper Reading,陆续学习了传统的机器学习相关算法,也探索了深度学习的相关原理,并不断应用
到实践中。
受益于当今学术开放开源的氛围,深度学习的最新算法甚至代码实践大家都能在第一时间进行学习。所以在创业公司的早期深度学习实践中,最重要的并不是算法理论方面的创新,而是结合产品需求如何进行深度学习技术的落地。这需要团队不仅对业务非常熟悉,也需要对深度学习相关算法了如指掌,同时还需要有人可以将算法真正用代码落地。很幸运,我们的团队具备这样的能力,所以在深度学习的实践中较少走弯路。随着多年的积累,团队在深度学习方面开始有不少自己的创新,也对理论有了整体的认识。从2016 年下半年开始,团队部分成员利用周末等业余时间撰写了这本书,算是对团队过去所学深度学习知识的一个总结。本书的撰写都是大家牺牲周末时间完成的,且在撰写过程中,碰到多次项目进度非常紧急的情况,周末时间也被项目占用,但大家还是克服困难,完成了书稿,非常感谢这些作者的配合!此外,猿辅导研究团队的大部分成员参与了审稿相关工作,在此一并表示感谢!当然,本 深度学习核心技术与实践 下载 mobi epub pdf txt 电子书 格式
深度学习核心技术与实践 下载 mobi pdf epub txt 电子书 格式 2025
深度学习核心技术与实践 下载 mobi epub pdf 电子书很喜欢的书,非常好,科普类的
评分读了一半了,很多比较复杂,理解起来困难的问题都在故事的情节中变的简单易懂,真是佩服作者的功力。
评分初步入门tensorflow,深度学习,希望能有所收获,借此打开深度学习大门
评分故事编得不错,可以迅速让你了解基本原理,之后如果想深入,就可以自行选择其它书籍进阶了。适合有些计算机基础的读者。我把它当成枕边休闲书,感觉不错。
评分书很好,618满一百减五十,很便宜,还有满199减100,发货也比较快,京东在书方面还是值得信赖
评分等了一个月,老刘出品,必属精品
评分用故事的方式讲解了软件编程的若干重要领域,侧重于基础性、原理性的知识。
评分好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!好!
评分书印刷质量,包装质量都很好。
深度学习核心技术与实践 mobi epub pdf txt 电子书 格式下载 2025