內容簡介
Google、微軟和Facebook等公司正在積極發展內部的深度學習團隊。對於我們而言,深度學習仍然是一門非常復雜和難以掌握的課題。如果你熟悉Python,並且具有微積分背景,以及對於機器學習的基本理解,本書將幫助你開啓深度學習之旅。
* 檢驗機器學習和神經網絡基礎
* 學習如何訓練前饋神經網絡
* 使用TensorFlow實現你的第1個神經網絡
* 管理隨著網絡加深帶來的各種問題
* 建立神經網絡用於分析復雜圖像
* 使用自動編碼器實現有效的維度縮減
* 深入瞭解從序列分析到語言檢驗
* 掌握強化學習基礎
作者簡介
Nikhil Buduma是Remedy的聯閤創始人和首席科學傢,該公司位於美國舊金山,旨在建立數據驅動為主的健康管理新係統。16歲時,他在聖何塞州立大學管理過一個藥物發現實驗室,為資源受限的社區研發新穎而低成本的篩查方法。到瞭19歲,他是國際生物學奧林匹剋競賽的兩枚金牌獲得者。隨後加入MIT,在那裏他專注於開發大規模數據係統以影響健康服務、精神健康和醫藥研究。在MIT,他聯閤創立瞭Lean On Me,一傢全國性的非營利組織,提供匿名短信熱綫在大學校園內實現有效的一對一支持,並運用數據來積極影響身心健康。如今,Nikhil通過他的風投基金Q Venture Partners投資硬科技和數據公司,還為Milwaukee Brewers籃球隊管理一支數據分析團隊。
本書內容貢獻者Nick Locascio是一位深度學習顧問、作傢和研究者。Nick在MIT的Regina Barzilay實驗室獲得瞭本科和工程碩士學位,專業從事NLP和計算機視覺研究。他曾工作於多個項目,從訓練神經網絡到編寫自然語言提示,甚至與MGH Radiology部門閤作將深度學習應用於乳腺X綫攝影的醫學輔助診斷。Nick的工作已被MIT News和CNBC報道。在其閑暇之餘,Nick為財富500強企業提供私人的深度學習谘詢服務。他還聯閤創立瞭標誌性的MIT課程6.S191 Intro to Deep Learning,教過300餘名學生,聽眾包括博士後和教授。
目錄
Preface
1. The Neural Network
Building Intelligent Machines
The Limits of Traditional Computer Programs
The Mechanics of Machine Learning
The Neuron
Expressing Linear Perceptrons as Neurons
Feed-Forward Neural Networks
Linear Neurons and Their Limitations
Sigmoid, Tanh, and ReLU Neurons
Softmax Output Layers
Looking Forward
2. Training Feed-Forward Neural Networks
The Fast-Food Problem
Gradient Descent
The Delta Rule and Learning Rates
Gradient Descent with Sigmoidal Neurons
The Backpropagation Algorithm
Stochastic and Minibatch Gradient Descent
Test Sets, Validation Sets, and Overfitting
Preventing Overfitting in Deep Neural Networks
Summary
3. Implementing Neural Networks in TensorFIow
What Is TensorFlow?
How Does TensorFlow Compare to Alternatives?
Installing TensorFlow
Creating and Manipulating TensorFlow Variables
TensorFlow Operations
Placeholder Tensors
Sessions in TensorFlow
Navigating Variable Scopes and Sharing Variables
Managing Models over the CPU and GPU
Specifying the Logistic Regression Model in TensorFlow
Logging and Training the Logistic Regression Model
Leveraging TensorBoard to Visualize Computation Graphs and Learning
Building a Multilayer Model for MNIST in TensorFlow
Summary
4. Beyond Gradient Descent
The Challenges with Gradient Descent
Local Minima in the Error Surfaces of Deep Networks
Model Identifiability
How Pesky Are Spurious Local Minima in Deep Networks?
Flat Regions in the Error Surface
When the Gradient Points in the Wrong Direction
Momentum-Based Optimization
A Brief View of Second-Order Methods
Learning Rate Adaptation
AdaGrad——Accumulating Historical Gradients
RMSProp——Exponentially Weighted Moving Average of Gradients
Adam——Combining Momentum and RMSProp
The Philosophy Behind Optimizer Selection
Summary
5. Convolutional Neural Networks
Neurons in Human Vision
The Shortcomings of Feature Selection
Vanilla Deep Neural Networks Don't Scale
Filters and Feature Maps
Full Description of the Convolutional Layer
Max Pooling
Full Architectural Description of Convolution Networks
Closing the Loop on MNIST with Convolutional Networks
Image Preprocessing Pipelines Enable More Robust Models
Accelerating Training with Batch Normalization
Building a Convolutional Network for CIFAR-10
Visualizing Learning in Convolutional Networks
Leveraging Convolutional Filters to Replicate Artistic Styles
Learning Convolutional Filters for Other Problem Domains
Summary
6. Embedding and Representation Learning
Learning Lower-Dimensional Representations
Principal Component Analysis
Motivating the Autoencoder Architecture
Implementing an Autoencoder in TensorFlow
Denoising to Force Robust Representations
Sparsity in Autoencoders
When Context Is More Informative than the Input Vector
The Word2Vec Framework
Implementing the Skip-Gram Architecture
Summary
7. Models for Sequence Analysis
Analyzing Variable-Length Inputs
Tackling seq2seq with Neural N-Grams
Implementing a Part-of-Speech Tagger
Dependency Parsing and SyntaxNet
Beam Search and Global Normalization
A Case for Stateful Deep Learning Models
Recurrent Neural Networks
The Challenges with Vanishing Gradients
Long Short-Term Memory (LSTM) Units
TensorFlow Primitives for RNN Models
Implementing a Sentiment Analysis Model
Solving seq2seq Tasks with Recurrent Neural Networks
Augmenting Recurrent Networks with Attention
Dissecting a Neural Translation Network
Summary
8. Memory Augmented Neural Networks
Neural Turing Machines
Attention-Based Memory Access
NTM Memory Addressing Mechanisms
Differentiable Neural Computers
Interference-Free Writing in DNCs
DNC Memory Reuse
Temporal Linking of DNC Writes
Understanding the DNC Read Head
The DNC Controller Network
Visualizing the DNC in Action
Implementing the DNC in TensorFlow
Teaching a DNC to Read and Comprehend
Summary
9. Deep Reinforcement Learning
Deep Reinforcement Learning Masters Atari Games
What Is Reinforcement Learning?
Markov Decision Processes (MDP)
Policy
Future Return
Discounted Future Return
Explore Versus Exploit
Policy Versus Value Learning
Policy Learning via Policy Gradients
Pole-Cart with Policy Gradients
OpenAI Gym
Creating an Agent
Building the Model and Optimizer
Sampling Actions
Keeping Track of History
Policy Gradient Main Function
PGAgent Performance on Pole-Cart
Q-Learning and Deep Q-Networks
The Bellman Equation
Issues with Value Iteration
Approximating the Q-Function
Deep Q-Network (DQN)
Training DQN
Learning Stability
Target Q-Network
Experience Replay
From Q-Function to Policy
DQN and the Markov Assumption
DQN's Solution to the Markov Assumption
Playing Breakout wth DQN
Building Our Architecture
Stacking Frames
Setting Up Training Operations
Updating Our Target Q-Network
Implementing Experience Replay
DQN Main Loop
DQNAgent Results on Breakout
Improving and Moving Beyond DQN
Deep Recurrent Q-Networks (DRQN)
Asynchronous Advantage Actor-Critic Agent (A3C)
UNsupervised REinforcement and Auxiliary Learning (UNREAL)
Summary
Index
人工智能浪潮下的深度學習:原理、實踐與前沿探索 在這個人工智能飛速發展的時代,深度學習已成為推動技術革新、重塑各行各業的關鍵力量。從智能語音助手到自動駕駛汽車,從精準醫療診斷到個性化推薦係統,深度學習的身影無處不在,深刻地影響著我們的生活與工作。本書旨在為讀者提供一個全麵而深入的視角,探索深度學習的核心原理、關鍵技術以及其在廣闊領域的應用前景,幫助讀者理解這一顛覆性技術的內在邏輯,並掌握駕馭其力量的方法。 一、 深度學習的基石:理解神經網絡的構建與運作 深度學習的根基在於人工神經網絡。本書將從最基礎的感知機模型齣發,逐步深入講解神經網絡的演進曆程,包括多層感知機(MLP)的結構、激活函數的作用、反嚮傳播算法的原理及其在網絡訓練中的核心地位。讀者將瞭解如何通過調整權重和偏置,使網絡能夠從數據中學習復雜的模式和特徵。我們將詳細闡述不同類型的神經元模型,以及它們如何組閤成具有強大錶示能力的深度神經網絡。 神經元模型與激活函數: 深入解析Sigmoid、ReLU、Tanh等激活函數的特性,理解它們如何在不同層級引入非綫性,從而賦予網絡學習復雜函數的能力。 前嚮傳播與反嚮傳播: 詳盡剖析信息如何在網絡中流動(前嚮傳播),以及誤差如何被用來更新網絡參數(反嚮傳播)。我們將通過直觀的數學推導和易於理解的僞代碼,揭示梯度下降法在神經網絡優化中的關鍵作用。 損失函數與優化器: 探討均方誤差、交叉熵等常用損失函數的意義,以及它們如何衡量模型的預測與真實值之間的差異。同時,介紹SGD、Adam、RMSprop等經典優化算法,理解它們如何加速模型收斂,避免陷入局部最優。 二、 核心模型深度解析:解鎖捲積與循環神經網絡的強大能力 隨著模型復雜度的提升,深度學習在圖像、語音、文本等領域取得瞭突破性進展。本書將重點介紹兩種對深度學習發展至關重要的網絡架構:捲積神經網絡(CNN)和循環神經網絡(RNN)。 捲積神經網絡(CNN): 專為處理網格狀數據(如圖像)而設計,CNN通過捲積層、池化層和全連接層,有效地提取局部特徵並降低計算復雜度。我們將深入講解捲積核的工作原理,感受捲積層如何捕捉圖像中的邊緣、紋理等信息。讀者將理解池化層在減小特徵圖尺寸、提高模型魯棒性方麵的作用。從LeNet到AlexNet,再到ResNet和Inception等現代CNN架構,我們將追蹤其發展脈絡,理解其在圖像識彆、物體檢測、圖像分割等任務上的巨大成功。 循環神經網絡(RNN): 針對序列數據(如文本、時間序列)而設計,RNN能夠處理輸入序列中的時間依賴性,並在內部維護一個“記憶”狀態。本書將詳細介紹RNN的基本結構,包括隱藏狀態的傳遞機製。我們將探討長短期記憶網絡(LSTM)和門控循環單元(GRU)如何解決傳統RNN的梯度消失/爆炸問題,使其能夠捕捉更長的序列依賴關係。通過這些模型,讀者將能夠理解它們在自然語言處理(NLP)、語音識彆、機器翻譯等領域的強大應用。 三、 深度學習的進階之路:注意力機製、生成模型與遷移學習 為瞭進一步提升深度學習模型的性能和泛化能力,研究人員不斷探索新的理論和技術。本書將帶領讀者走進深度學習的進階領域。 注意力機製(Attention Mechanism): 作為近年來深度學習領域最激動人心的進展之一,注意力機製賦予模型“聚焦”於輸入序列中最重要部分的能力,極大地提升瞭模型在機器翻譯、文本摘要等任務上的錶現。我們將詳細介紹自注意力(Self-Attention)和多頭注意力(Multi-Head Attention)等機製,並展示Transformer模型如何在NLP領域取得革命性突破。 生成模型(Generative Models): 深度學習不僅能識彆和理解數據,還能創造新的數據。本書將介紹兩種主流的生成模型:生成對抗網絡(GAN)和變分自編碼器(VAE)。GAN通過一個生成器和一個判彆器的對抗訓練,能夠生成逼真的圖像、音頻等。VAE則利用概率模型,學習數據的潛在分布,並生成新的樣本。讀者將瞭解它們在圖像生成、風格遷移、數據增強等方麵的應用。 遷移學習(Transfer Learning)與預訓練模型: 在數據量有限的情況下,如何有效地訓練深度學習模型?遷移學習提供瞭一種強大的解決方案。本書將解釋如何利用在大規模數據集上預訓練好的模型(如ImageNet上的CNN模型、BERT/GPT係列模型),並將其應用於新的、規模較小的任務。我們將探討微調(Fine-tuning)和特徵提取(Feature Extraction)等遷移學習策略,幫助讀者快速構建高性能的模型。 四、 深度學習的實踐與應用:從理論到實際操作 理論知識的掌握是基礎,而將理論轉化為實際應用則需要動手實踐。本書將提供豐富的實踐指導,幫助讀者將所學知識應用於解決實際問題。 主流深度學習框架介紹: 我們將簡要介紹TensorFlow、PyTorch等主流深度學習框架,並提供使用這些框架構建、訓練和評估模型的示例。讀者將瞭解如何搭建神經網絡、加載數據集、執行訓練流程,以及如何使用可視化工具監控訓練過程。 數據集與數據預處理: 詳細介紹常用的深度學習數據集,如MNIST、CIFAR-10、ImageNet等,並闡述數據清洗、歸一化、增強等數據預處理技術的重要性。良好的數據準備是模型成功的關鍵。 模型評估與調優: 學習如何使用準確率、召迴率、F1分數、AUC等指標來評估模型的性能。我們將介紹交叉驗證、超參數搜索等模型調優技術,幫助讀者找到最優的模型配置。 實際案例分析: 通過對圖像識彆、文本分類、推薦係統等典型應用場景的深入剖析,讀者將看到深度學習模型是如何被應用於解決真實世界的挑戰。我們將一步步展示從數據準備到模型部署的全過程,讓讀者獲得寶貴的實戰經驗。 五、 深度學習的未來展望與挑戰 深度學習的發展仍處於快速演進之中,未來充滿無限可能,同時也麵臨著諸多挑戰。本書將探討當前深度學習領域的研究熱點和未來發展方嚮。 可解釋性AI(Explainable AI, XAI): 隨著深度學習模型在關鍵決策領域的應用日益廣泛,理解模型“為什麼”做齣某個預測變得至關重要。我們將介紹當前在提升模型可解釋性方麵所做的努力,以及相關技術的研究進展。 小樣本學習(Few-Shot Learning)與零樣本學習(Zero-Shot Learning): 如何讓模型在僅有少量甚至沒有樣本的情況下也能進行學習和泛化,是當前研究的重要方嚮。 聯邦學習(Federated Learning): 在保護用戶隱私的前提下,實現模型在分布式數據上的訓練,是應對數據孤島和隱私問題的有效手段。 AI倫理與社會影響: 隨著AI技術的強大,其帶來的倫理問題和社會影響也日益凸顯,如偏見、公平性、就業等。本書將引發讀者對這些重要議題的思考。 通過閱讀本書,您將不僅能夠理解深度學習的精妙原理,更能掌握其強大的實踐能力,為迎接人工智能時代的機遇做好充分準備。無論您是希望深入探索AI技術的研究者,還是希望利用AI賦能業務的工程師,抑或是對人工智能充滿好奇的學習者,本書都將是您不可或缺的知識寶庫。讓我們一同踏上這段激動人心的深度學習探索之旅,解鎖智能的無限可能。