内容简介
Google、微软和Facebook等公司正在积极发展内部的深度学习团队。对于我们而言,深度学习仍然是一门非常复杂和难以掌握的课题。如果你熟悉Python,并且具有微积分背景,以及对于机器学习的基本理解,本书将帮助你开启深度学习之旅。
* 检验机器学习和神经网络基础
* 学习如何训练前馈神经网络
* 使用TensorFlow实现你的第1个神经网络
* 管理随着网络加深带来的各种问题
* 建立神经网络用于分析复杂图像
* 使用自动编码器实现有效的维度缩减
* 深入了解从序列分析到语言检验
* 掌握强化学习基础
作者简介
Nikhil Buduma是Remedy的联合创始人和首席科学家,该公司位于美国旧金山,旨在建立数据驱动为主的健康管理新系统。16岁时,他在圣何塞州立大学管理过一个药物发现实验室,为资源受限的社区研发新颖而低成本的筛查方法。到了19岁,他是国际生物学奥林匹克竞赛的两枚金牌获得者。随后加入MIT,在那里他专注于开发大规模数据系统以影响健康服务、精神健康和医药研究。在MIT,他联合创立了Lean On Me,一家全国性的非营利组织,提供匿名短信热线在大学校园内实现有效的一对一支持,并运用数据来积极影响身心健康。如今,Nikhil通过他的风投基金Q Venture Partners投资硬科技和数据公司,还为Milwaukee Brewers篮球队管理一支数据分析团队。
本书内容贡献者Nick Locascio是一位深度学习顾问、作家和研究者。Nick在MIT的Regina Barzilay实验室获得了本科和工程硕士学位,专业从事NLP和计算机视觉研究。他曾工作于多个项目,从训练神经网络到编写自然语言提示,甚至与MGH Radiology部门合作将深度学习应用于乳腺X线摄影的医学辅助诊断。Nick的工作已被MIT News和CNBC报道。在其闲暇之余,Nick为财富500强企业提供私人的深度学习咨询服务。他还联合创立了标志性的MIT课程6.S191 Intro to Deep Learning,教过300余名学生,听众包括博士后和教授。
目录
Preface
1. The Neural Network
Building Intelligent Machines
The Limits of Traditional Computer Programs
The Mechanics of Machine Learning
The Neuron
Expressing Linear Perceptrons as Neurons
Feed-Forward Neural Networks
Linear Neurons and Their Limitations
Sigmoid, Tanh, and ReLU Neurons
Softmax Output Layers
Looking Forward
2. Training Feed-Forward Neural Networks
The Fast-Food Problem
Gradient Descent
The Delta Rule and Learning Rates
Gradient Descent with Sigmoidal Neurons
The Backpropagation Algorithm
Stochastic and Minibatch Gradient Descent
Test Sets, Validation Sets, and Overfitting
Preventing Overfitting in Deep Neural Networks
Summary
3. Implementing Neural Networks in TensorFIow
What Is TensorFlow?
How Does TensorFlow Compare to Alternatives?
Installing TensorFlow
Creating and Manipulating TensorFlow Variables
TensorFlow Operations
Placeholder Tensors
Sessions in TensorFlow
Navigating Variable Scopes and Sharing Variables
Managing Models over the CPU and GPU
Specifying the Logistic Regression Model in TensorFlow
Logging and Training the Logistic Regression Model
Leveraging TensorBoard to Visualize Computation Graphs and Learning
Building a Multilayer Model for MNIST in TensorFlow
Summary
4. Beyond Gradient Descent
The Challenges with Gradient Descent
Local Minima in the Error Surfaces of Deep Networks
Model Identifiability
How Pesky Are Spurious Local Minima in Deep Networks?
Flat Regions in the Error Surface
When the Gradient Points in the Wrong Direction
Momentum-Based Optimization
A Brief View of Second-Order Methods
Learning Rate Adaptation
AdaGrad——Accumulating Historical Gradients
RMSProp——Exponentially Weighted Moving Average of Gradients
Adam——Combining Momentum and RMSProp
The Philosophy Behind Optimizer Selection
Summary
5. Convolutional Neural Networks
Neurons in Human Vision
The Shortcomings of Feature Selection
Vanilla Deep Neural Networks Don't Scale
Filters and Feature Maps
Full Description of the Convolutional Layer
Max Pooling
Full Architectural Description of Convolution Networks
Closing the Loop on MNIST with Convolutional Networks
Image Preprocessing Pipelines Enable More Robust Models
Accelerating Training with Batch Normalization
Building a Convolutional Network for CIFAR-10
Visualizing Learning in Convolutional Networks
Leveraging Convolutional Filters to Replicate Artistic Styles
Learning Convolutional Filters for Other Problem Domains
Summary
6. Embedding and Representation Learning
Learning Lower-Dimensional Representations
Principal Component Analysis
Motivating the Autoencoder Architecture
Implementing an Autoencoder in TensorFlow
Denoising to Force Robust Representations
Sparsity in Autoencoders
When Context Is More Informative than the Input Vector
The Word2Vec Framework
Implementing the Skip-Gram Architecture
Summary
7. Models for Sequence Analysis
Analyzing Variable-Length Inputs
Tackling seq2seq with Neural N-Grams
Implementing a Part-of-Speech Tagger
Dependency Parsing and SyntaxNet
Beam Search and Global Normalization
A Case for Stateful Deep Learning Models
Recurrent Neural Networks
The Challenges with Vanishing Gradients
Long Short-Term Memory (LSTM) Units
TensorFlow Primitives for RNN Models
Implementing a Sentiment Analysis Model
Solving seq2seq Tasks with Recurrent Neural Networks
Augmenting Recurrent Networks with Attention
Dissecting a Neural Translation Network
Summary
8. Memory Augmented Neural Networks
Neural Turing Machines
Attention-Based Memory Access
NTM Memory Addressing Mechanisms
Differentiable Neural Computers
Interference-Free Writing in DNCs
DNC Memory Reuse
Temporal Linking of DNC Writes
Understanding the DNC Read Head
The DNC Controller Network
Visualizing the DNC in Action
Implementing the DNC in TensorFlow
Teaching a DNC to Read and Comprehend
Summary
9. Deep Reinforcement Learning
Deep Reinforcement Learning Masters Atari Games
What Is Reinforcement Learning?
Markov Decision Processes (MDP)
Policy
Future Return
Discounted Future Return
Explore Versus Exploit
Policy Versus Value Learning
Policy Learning via Policy Gradients
Pole-Cart with Policy Gradients
OpenAI Gym
Creating an Agent
Building the Model and Optimizer
Sampling Actions
Keeping Track of History
Policy Gradient Main Function
PGAgent Performance on Pole-Cart
Q-Learning and Deep Q-Networks
The Bellman Equation
Issues with Value Iteration
Approximating the Q-Function
Deep Q-Network (DQN)
Training DQN
Learning Stability
Target Q-Network
Experience Replay
From Q-Function to Policy
DQN and the Markov Assumption
DQN's Solution to the Markov Assumption
Playing Breakout wth DQN
Building Our Architecture
Stacking Frames
Setting Up Training Operations
Updating Our Target Q-Network
Implementing Experience Replay
DQN Main Loop
DQNAgent Results on Breakout
Improving and Moving Beyond DQN
Deep Recurrent Q-Networks (DRQN)
Asynchronous Advantage Actor-Critic Agent (A3C)
UNsupervised REinforcement and Auxiliary Learning (UNREAL)
Summary
Index
人工智能浪潮下的深度学习:原理、实践与前沿探索 在这个人工智能飞速发展的时代,深度学习已成为推动技术革新、重塑各行各业的关键力量。从智能语音助手到自动驾驶汽车,从精准医疗诊断到个性化推荐系统,深度学习的身影无处不在,深刻地影响着我们的生活与工作。本书旨在为读者提供一个全面而深入的视角,探索深度学习的核心原理、关键技术以及其在广阔领域的应用前景,帮助读者理解这一颠覆性技术的内在逻辑,并掌握驾驭其力量的方法。 一、 深度学习的基石:理解神经网络的构建与运作 深度学习的根基在于人工神经网络。本书将从最基础的感知机模型出发,逐步深入讲解神经网络的演进历程,包括多层感知机(MLP)的结构、激活函数的作用、反向传播算法的原理及其在网络训练中的核心地位。读者将了解如何通过调整权重和偏置,使网络能够从数据中学习复杂的模式和特征。我们将详细阐述不同类型的神经元模型,以及它们如何组合成具有强大表示能力的深度神经网络。 神经元模型与激活函数: 深入解析Sigmoid、ReLU、Tanh等激活函数的特性,理解它们如何在不同层级引入非线性,从而赋予网络学习复杂函数的能力。 前向传播与反向传播: 详尽剖析信息如何在网络中流动(前向传播),以及误差如何被用来更新网络参数(反向传播)。我们将通过直观的数学推导和易于理解的伪代码,揭示梯度下降法在神经网络优化中的关键作用。 损失函数与优化器: 探讨均方误差、交叉熵等常用损失函数的意义,以及它们如何衡量模型的预测与真实值之间的差异。同时,介绍SGD、Adam、RMSprop等经典优化算法,理解它们如何加速模型收敛,避免陷入局部最优。 二、 核心模型深度解析:解锁卷积与循环神经网络的强大能力 随着模型复杂度的提升,深度学习在图像、语音、文本等领域取得了突破性进展。本书将重点介绍两种对深度学习发展至关重要的网络架构:卷积神经网络(CNN)和循环神经网络(RNN)。 卷积神经网络(CNN): 专为处理网格状数据(如图像)而设计,CNN通过卷积层、池化层和全连接层,有效地提取局部特征并降低计算复杂度。我们将深入讲解卷积核的工作原理,感受卷积层如何捕捉图像中的边缘、纹理等信息。读者将理解池化层在减小特征图尺寸、提高模型鲁棒性方面的作用。从LeNet到AlexNet,再到ResNet和Inception等现代CNN架构,我们将追踪其发展脉络,理解其在图像识别、物体检测、图像分割等任务上的巨大成功。 循环神经网络(RNN): 针对序列数据(如文本、时间序列)而设计,RNN能够处理输入序列中的时间依赖性,并在内部维护一个“记忆”状态。本书将详细介绍RNN的基本结构,包括隐藏状态的传递机制。我们将探讨长短期记忆网络(LSTM)和门控循环单元(GRU)如何解决传统RNN的梯度消失/爆炸问题,使其能够捕捉更长的序列依赖关系。通过这些模型,读者将能够理解它们在自然语言处理(NLP)、语音识别、机器翻译等领域的强大应用。 三、 深度学习的进阶之路:注意力机制、生成模型与迁移学习 为了进一步提升深度学习模型的性能和泛化能力,研究人员不断探索新的理论和技术。本书将带领读者走进深度学习的进阶领域。 注意力机制(Attention Mechanism): 作为近年来深度学习领域最激动人心的进展之一,注意力机制赋予模型“聚焦”于输入序列中最重要部分的能力,极大地提升了模型在机器翻译、文本摘要等任务上的表现。我们将详细介绍自注意力(Self-Attention)和多头注意力(Multi-Head Attention)等机制,并展示Transformer模型如何在NLP领域取得革命性突破。 生成模型(Generative Models): 深度学习不仅能识别和理解数据,还能创造新的数据。本书将介绍两种主流的生成模型:生成对抗网络(GAN)和变分自编码器(VAE)。GAN通过一个生成器和一个判别器的对抗训练,能够生成逼真的图像、音频等。VAE则利用概率模型,学习数据的潜在分布,并生成新的样本。读者将了解它们在图像生成、风格迁移、数据增强等方面的应用。 迁移学习(Transfer Learning)与预训练模型: 在数据量有限的情况下,如何有效地训练深度学习模型?迁移学习提供了一种强大的解决方案。本书将解释如何利用在大规模数据集上预训练好的模型(如ImageNet上的CNN模型、BERT/GPT系列模型),并将其应用于新的、规模较小的任务。我们将探讨微调(Fine-tuning)和特征提取(Feature Extraction)等迁移学习策略,帮助读者快速构建高性能的模型。 四、 深度学习的实践与应用:从理论到实际操作 理论知识的掌握是基础,而将理论转化为实际应用则需要动手实践。本书将提供丰富的实践指导,帮助读者将所学知识应用于解决实际问题。 主流深度学习框架介绍: 我们将简要介绍TensorFlow、PyTorch等主流深度学习框架,并提供使用这些框架构建、训练和评估模型的示例。读者将了解如何搭建神经网络、加载数据集、执行训练流程,以及如何使用可视化工具监控训练过程。 数据集与数据预处理: 详细介绍常用的深度学习数据集,如MNIST、CIFAR-10、ImageNet等,并阐述数据清洗、归一化、增强等数据预处理技术的重要性。良好的数据准备是模型成功的关键。 模型评估与调优: 学习如何使用准确率、召回率、F1分数、AUC等指标来评估模型的性能。我们将介绍交叉验证、超参数搜索等模型调优技术,帮助读者找到最优的模型配置。 实际案例分析: 通过对图像识别、文本分类、推荐系统等典型应用场景的深入剖析,读者将看到深度学习模型是如何被应用于解决真实世界的挑战。我们将一步步展示从数据准备到模型部署的全过程,让读者获得宝贵的实战经验。 五、 深度学习的未来展望与挑战 深度学习的发展仍处于快速演进之中,未来充满无限可能,同时也面临着诸多挑战。本书将探讨当前深度学习领域的研究热点和未来发展方向。 可解释性AI(Explainable AI, XAI): 随着深度学习模型在关键决策领域的应用日益广泛,理解模型“为什么”做出某个预测变得至关重要。我们将介绍当前在提升模型可解释性方面所做的努力,以及相关技术的研究进展。 小样本学习(Few-Shot Learning)与零样本学习(Zero-Shot Learning): 如何让模型在仅有少量甚至没有样本的情况下也能进行学习和泛化,是当前研究的重要方向。 联邦学习(Federated Learning): 在保护用户隐私的前提下,实现模型在分布式数据上的训练,是应对数据孤岛和隐私问题的有效手段。 AI伦理与社会影响: 随着AI技术的强大,其带来的伦理问题和社会影响也日益凸显,如偏见、公平性、就业等。本书将引发读者对这些重要议题的思考。 通过阅读本书,您将不仅能够理解深度学习的精妙原理,更能掌握其强大的实践能力,为迎接人工智能时代的机遇做好充分准备。无论您是希望深入探索AI技术的研究者,还是希望利用AI赋能业务的工程师,抑或是对人工智能充满好奇的学习者,本书都将是您不可或缺的知识宝库。让我们一同踏上这段激动人心的深度学习探索之旅,解锁智能的无限可能。